URL规范化(URL normalization) 及 不规则URL

7 篇文章 0 订阅
URL规范化(url normalization) 其实就是一个标准化URL的过程,其实也就是将一个URL转化为一个符合规范的等价URL(如http://www.csdn.com/yockie转化为http://www.csdn.com/yockie/),这样程序可以确定这两个URL是等价的。
URL规范化用于搜索引擎可以减少对页面的重复索引,同时也可以减少爬虫的重复抓取。浏览器端识别用户是否访问过一个URL也需要使用URL规范化。

URL组成:
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
协议://主机名[:端口]/ 路径/[:参数] [?查询]#Fragment

不规范的URL:
1 URL中多余的字符

1.1 子域名的URL中包含"www": "http://www.yockie.csdn.com/"
1.2 含有默认端口: "http://www.csdn.com:80/yockie/"
1.3 松散的URL: "http://www.chapters.indigo.ca/books/amazon-sucks-donkey-balls/9780470170779-item.html"
1.4 多余默认文件名index.html,default.aspx等:"http://www.csdn.com/yockie/index.html"
1.5 文件路径中
(1) 多余的"/":"http://www.csdn.com/yockie//"
(2) 多余的点修饰串:"x/y/z/http://www.csdn.com/a/b/http://www.csdn.com/../page.html"
1.6 查询串中多余的
(1) ? (空查询串):http://www.csdn.com/yockie?
(2) &

(3) 无用的查询变量:http://www.example.com/display?id=123&fake=fake


2 URL缺少字符串
2.1 缺少"/":"http://www.csdn.com/yockie"

2.2 查询串缺少名称或者值:"http://www.example.com/display?id=" 或者 "http://www.example.com/display?=123"


3 其他不规范的URL
3.1 "http://yockie.csdn.com/" 与 "http://www.csdn.com/yockie/"其实是相同的内容
3.2 使用IP代替域名
3.3 含有扩充字符(extended characters),大小写敏感("http://www.google.cn/Intl/zh-CN/about.html" 和"http://www.google.cn/intl/zh-CN/about.html")
3.4 "+"和"%20"混用
3.5 查询变量顺序混乱:"http://www.example.com/test.aspx?bar=1&a=test"
3.6 含临时的状态变量:http://www.example.com/test?back=/prevpage.aspx

URL规范化过程:
1.URL协议名和主机名小写化

HTTP://WWW.EXAMPLE.com/test -> http://www.example.com/test


2.escape序列转化为大写,因为escape序列大小敏感

%3a ->%3A


3.删除Fragment(#)

http://www.example.com/test/index.html#seo -> http://www.example.com/test/index.html


4.删除空查询串的'?'

http://www.example.com/test? -> http://www.example.com/test


5.删除默认后缀

http://www.example.com/test/index.html -> http://www.example.com/test/


6.删除多余的点修复符

http://www.example.com/../a/b/../c/./d.html -> http://www.example.com/a/c/d.html


7.删除多余的"www"

http://www.test.example.com/ -> http://test.example.com/


8.对查询变量排序

http://www.example.com/test?id=123&fakefoo=fakebar → http://www.example.com/test?id=123 \


9.删除取默认值的变量

http://www.example.com/test?id=&sort=ascending → http://www.example.com/test


10.删除多余的查询串,如?,&

http://www.example.com/test? → http://www.example.com/test


11.Dust 规则(Schonfeld 等人提出的启发式方法)
http://www.example.com/test?id=123 -> http://www.example.com/test_123

SEO URL规范化:
不规范的URL会造成网站很多重复的URL,导致爬虫重复抓取同一内容,影响网站有效的内容被抓取,同时也就影响索引。
多个不规范URL造成PR稀疏,本来流向同一页面的PR,结果造成了流向多个不规范的URL。
还有一个用户体验问题,复杂或者不规范的URL容易使用户对网站造成不良印象。

Google管理员增加了URL规范化的工具,可以删除URL中无用的参数。


【转自:http://www.cnblogs.com/shuchao/archive/2009/09/17/url-normalization.html#urlcomp】

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据规范化Normalization)是一种数据预处理技术,它用于将数据转换为一定范围内的标准值,以便更好地处理和比较数据。其主要作用有以下几个方面: 1. 提高算法的性能:规范化可以使数据在同一量纲下进行比较,有助于消除数据之间的量纲和单位差异,从而提高算法的性能。 2. 减少数据的重复:在数据规范化的过程中,可以对数据进行去重、去噪和缺失值填充等操作,从而提高数据的质量和准确性。 3. 改善数据可视化效果:规范化可以将数据的取值范围映射到一定的范围内,从而使数据的可视化更加清晰、直观。 4. 方便数据的存储和传输:规范化可以减小数据的存储和传输开销,提高数据的效率和可靠性。 因此,数据规范化是数据分析、机器学习和人工智能等领域中不可或缺的一部分,可以帮助我们更好地理解和处理数据。 ### 回答2: 数据规范化Normalization)是将数据按照一定的规则进行调整和转换,以减少数据中的冗余和重复,并保持数据的一致性和有效性。数据规范化的主要作用如下: 1. 提高数据的一致性:通过规范化,数据被统一整理和调整,使得数据之间的关联更加明确和一致。这样可以避免数据的冲突和矛盾,保证数据的准确性和可靠性。 2. 减少数据冗余:规范化可以消除数据中的冗余信息,避免在数据库中存储相同或相似的数据多次,从而减少了存储空间的开销,提高了数据库的性能和效率。 3. 简化数据操作:通过规范化,数据的结构和格式被统一,使得数据的操作更加简单和方便。规范化后的数据更易于进行查询、更新、删除和插入等操作,提高了数据的可操作性。 4. 提高数据的可维护性和扩展性:规范化可以使数据的结构更加清晰和简洁,减少了数据的复杂度和混乱性。这样可以提高数据的可维护性,使得对数据的改动和调整更加容易。同时,规范化也为数据的扩展提供了更灵活和可行的方式。 总之,数据规范化对于数据的管理和利用非常重要。通过规范化,可以提高数据的一致性和可靠性,减少数据的冗余,简化数据操作,并提高数据的可维护性和扩展性。这些都有助于提高数据管理的效率和质量。 ### 回答3: 数据规范化是指将数据转化为统一的标准形式,以便更好地进行分析和比较。数据规范化的作用主要体现在以下几个方面: 1. 提高数据的一致性:通过数据规范化,可以将不同来源、不同格式的数据转化为统一的格式,使得数据之间具有一致性。这样可以避免数据冗余和错误,提高数据的可靠性和准确性。 2. 简化数据分析:规范化后的数据具有统一的结构和格式,更易于进行数据分析和处理。可以通过对数据进行规范化,将数据转化为能够被常用的数据分析工具和算法所处理的形式,减少数据预处理的工作量。 3. 提高数据比较的准确性:不同数据源的数据往往存在着不同的度量标准和单位,难以进行比较。通过数据规范化,可以将数据进行统一的单位转换和标准化,使得不同数据之间可以进行准确的比较和分析。 4. 降低数据存储和维护成本:数据规范化可以帮助去除数据的冗余和重复,减少存储空间的使用量。同时,规范化后的数据结构更加清晰和简洁,使得数据的维护和更新更加高效和便捷。 5. 改善数据的解释性和可视化效果:规范化后的数据更加符合人类的认知习惯和信息处理方式,易于解释和理解。通过规范化后的数据,可以更好地进行数据可视化和展示,提高数据的可视化效果和信息传递效果。 总的来说,数据规范化在数据管理和分析过程中具有重要作用,帮助提高数据的一致性、可比性和解释性,降低数据维护成本,同时也方便了数据的处理和分析工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值