基于URL特征的网站结构信息挖掘
王晓飞11
(北京邮电大学模式识别实验室)
摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构,最后设计了根据URL层次树对URL进行网页分类方法。构建URL层次树,首先要根据网站的首页建立URL层次树的根节点,然后利用网络爬虫,将URL层次树添加枝叶,最后对形成的URL层次树,进行噪声无用信息剪枝,形成最终的网站核心URL层次树。利用URL层次树进行URL分类的过程,首先需要建立URL解析器,用于规范和分解URL;其次,利用URL层次树和URL相似度公式,将待分类URL和已知节点URL相似度匹配,找到所属类别,实现分类。实验证明,该方法有效简单,分类效果准确。
关键词:URL层次树;网站结构;URL相似度;链接结构;URL特征
中图分类号:TM 393 文献标志码: A
0 引言
随着互联网的快速发展、网络信息的急剧膨胀,互联网提供的信息越来越多变成大量、广泛、动态、分散、不易管理的信息。URL作为网络资源的唯一地址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征等。利用URL特征不仅可以重构网站的层次结构关系,优化网站结构,合理组织网站信息关系,而且可以快速鉴别网页的类别,提高搜索引擎、推荐系统的运行效率,有效的更新各类别的网页。
一个网站一般包含三种结构类型的网页:首页式、列表式和正文式。这三种结构的网页功能各自不同,处理的方法也不同,当我们需要对一个网站进行信息挖掘时,往往需要针对不同的类别进行分析。本文通过URL特征构建网站的层次结构树,不仅能够帮助用户分析网站的主题层次,而且能够自动识别URL网页在网站的所属类别。这种方法既能避免人工分类所带来的时间、人力耗费,又能弥补单纯基于向量空间模型分类准确性过低的缺欠。
1 相关工作
根据文献1所说:Web网站表现为一个图,它的页面是图的节点,节点和节点之间的弧,表现为页面之间的一种关联。要做的工作就是从这些关联中去抽取出相应的层次结构,也就是从一个图的关系中抽取出一棵树的层次关系[1]。通过对大量的文献阅读,发现目前网站的层次结构抽取方法都类似文献1总结的过程:对网站的拓扑结构进行分析,提取关键节点和关键链接,形成简约的层次结构分类树[2][3][4]。这样的方法通过逐个扫描具有源代码的Web网站每个页面,虽然最终能够获取到网站的层次结构树,但是最后形成的层次结构树无法用于页面的区分,一些方法单纯的分析URL链接字符串,也无法获取网站的主题信息。
本文采用三元组构建URL层次树,用于映射网站的层次结构。构建的URL层次树不仅能够自动构建网站的链接结构,描述网站的主题层次信息,而且能够用于URL页面的类别识别。
2 网站结构特征研究
2.1 网站的结构研究
网站的结构指的是网站中页面之间存在的层次关系,按性质可以分为物理结构和链接结构,这两种结构具有既有区别又紧密联系。网站结构主要有以下几点关键的作用:
(1)网站结构可以影响网站内部页面的重要性:网站结构在决定网站内部页面的重要性方面,起到非常关键的作用,比如合理的内部链接策略就可以对重要页面进行突出、推荐等操作;
(2)网站结构是衡量网站用户体验好坏的重要指标:清晰的网站结构可以帮助用户快速获取所需的信息;
(3)合理的网站结构可以引导搜索引擎抓取更多有价值的页面;
通过对网站结构的分析,可以获取到网站的层次体系,例如栏目的划分、内容的关系、主题层次的结构等,利用这些信息可以优化网站结构,改善用户体验,提高网站对搜索引擎的友好性。
2.1.1 网站的物理结构
网站物理结构,又称为网站的目录结构,就是指网站的实际目录结构,网站文件服务器上的实际物理存储方式[5]。网站物理结构,一般分为网站扁平结构和网站树形结构。
扁平结构的网站,就是网站所有的网页都存放在网站的根目录这一级别,形成一个扁平的物理结构[5]。多用于建设一些中小型企业网站。优点:有利于搜索引擎抓取。缺点:内容杂乱,用户体验不好。树形结构,就是在根目录下分成多个类别(目录),然后在每个类别下再存放上属于这个类别的网页文件[6]。树形结构的网站一般适合类别多,内容量大的网站,像资讯站,电子商务网站等等。优点:分类详细,用户体验好。缺点:分类越深,不利于搜索引擎抓取内容。
2.1.2 网站的链接结构
网站的链接结构,也可以被称作网站的逻辑结构,指的是由网站内部各页面之间相互链接所形成的链接网络图。一般网站的内部链接分为三种基本方式[7]:
(1)树状链接结构:这种结构一般是一对一的结构,首页链接->二级页面->三级页面。这样的结构优点是条理清晰,但是访问效率低;
(2)星状链接结构:这种结构一般是一对多的结构,每个页面之间都可能存在链接。这样的结构的优点是访问方便快捷,缺点是链接态度奥,条理混乱;
(3)混合型链接结构:实际网站建设中,人们常将上述两种结构结合起来使用,取长避短。
实际上,网站的链接结构很复杂,网页上大大小小的链接,有指向同级页面的,有指向上级页面的,也有指向下级页面的;不同的页面链接中,也有重复的等等类似的。如何合理的分配自己的链接层级,比设计网站的物理结构更为复杂,更为细致化。
2.1.3 网站链接结构与物理结构
网站链接的拓扑结构,是建立在网站的物理结构基础之上,但跨越物理结构[8],并反映网站的物理结构。比较好的情况就是网站的链接结构与物理结构相吻合。
链接结构和物理结构的区别在于,链接结构由网站页面的相对链接关系决定,而物理结构则有网站页面的物理存放位置决定。在网站的链接结构中,通常采用链接深度来描述页面之间的链接关系。链接深度指从源页面到达目标页面所经过的路径数量。网站的链接结构很复杂,而且时常会更加需求而改变,而物理结构相对稳定。树形的链接结构:是用于分类、描述网站结构的有效形式。网站的链接结构从用户视角去映射网站的结构,而网站的物理结构更多体现的是开发者角度认知的网站结构图。
对于网站的结构,采用链接结构分析,更加的贴近用户的需求,相对物理结构,更具有实际意义。
2.2 网站的全局特征分析
2.2.1 层次特征
传统的网站链接结构研究认为整个网站是一个平面图结构,但是从用户的角度来观察网站,网站呈现的是有层次的树状结构,例如新浪的体育版,层次结构如图2-1所示。网站呈现的这种层次目录结构是网站物理结构所决定的,这种层级结构稳定的表现了网站物理存储的一些结构信息。显然,网站的链接结构并不能直接等价于网站的层次目录结构,但由图,可以看出网站的链接结构,在一定程度上体现出了网站的层次特征。
图2-1 新浪体育版层次部分结构示意图
2.2.2 统计特征
Web的链接挖掘,例如PageRank算法、HITS算法,己经成功地应用于Web搜索和信息挖掘上,但由于网站内的链接结构不同于Web网络,网站内的链接指向代表了网页创建者的一定意愿,网站内的链接具有导航性和推荐性,HITS算法认为站内链接不具备推荐性而去掉了站内链接的原因就是网站内的链接不完成具有随机的推荐性,很大程度上受网页制作者的意愿。
一般来说,在一个网站中,链接指向一般服从以下情况:推荐和导航页面指向子网页;兄弟网页之间相互指向;叶子节点指向推荐和导航页面。站内具有导航性和推荐性的链接,如首页,在站点中,会被大部分页面所引用,在站点的统计信息中,出现的次数会较多,即节点入度大,而不具有导航性和推荐性的链接,如正文页面,可能只会被同级和上级的页面所引用,节点入度小。利用上述的分析,可以利用网站内导航和推荐页面和正文页面存在的统计规律对站点网页进行区分。
2.3 网站内的单个页面结构特征分析
根据文献9,将网页基于页面结构特征分为了首页式、列表式和正文式[9]。这三种结构的网页功能、作用完成不同