- 博客(8)
- 资源 (16)
- 收藏
- 关注
原创 总结和展望
第1章 总结和展望1.1. 总结随着Web网络的逐渐成熟,移动带宽的提高、云计算和物理网应用的丰富,越来越多的智能终端设备被接入到网络中,Web数据已经成为一个蕴含巨大价值的信息仓库。如何利用Web信息挖掘技术从"大数据"的Web中高效、智能的获取信息,成为人们越来越关心的问题。本文研究了Web信息挖掘的相关方法,形成了完善的主题的描述特征、网页特征和链接特
2013-03-30 12:22:35 670
原创 站点垂直挖掘模型的研究和实现
第6章 站点垂直挖掘模型的研究和实现王晓飞11(北京邮电大学模式识别实验室)0 引言在通过对结构挖掘和内容挖掘的理论研究和方法改进基础上,本章从实际应用的角度出发,分析具体的实际应用需求,设计和实现了基于结构挖掘和内容挖掘的站点垂直挖掘模型。站点垂直挖掘模型由一系列科学严谨的信息挖掘理论和方法构成,通过结构挖掘和内容挖掘,逐步将拥挤、充满噪声的无结构化站点信息转换简洁、扼要的结
2013-03-30 12:21:40 735
原创 矩阵运算中选择分块矩阵策略的研究
矩阵运算中选择分块矩阵策略的研究摘要:本文给出了分块矩阵的定义、性质以及在运算中的应用。利用分块矩阵可以降低矩阵运算的级数,使矩阵的结构更清晰明朗。本文通过对矩阵运算的研究,充分总结了在矩阵运算中选择分块矩阵的六大策略,为矩阵运算中何时何处选择分块提供了依据。关键词:矩阵分块特殊矩阵 分块策略中图分类号:O1-0数学理论Research on Strategies of Hyper
2013-03-30 12:20:44 4138
原创 基于语义和规则的Web网页细粒度信息抽取方法
基于语义和规则的Web网页细粒度信息抽取方法王晓飞11(北京邮电大学模式识别实验室)摘要:本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法。方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识和分割,形成语义上紧密相关的标识文本;然后,根据语义解释器,依次识别出文本中的属性项;最后利用
2013-03-30 12:20:06 3134
原创 基于URL特征的网站结构信息挖掘
基于URL特征的网站结构信息挖掘王晓飞11(北京邮电大学模式识别实验室)摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构,最后设计了根据URL层次树对URL进行网页分类方法。构建URL层次树,首先要根据网站的首页建立URL层次树的根节点,然后利用网络爬虫,将URL层次树添加枝叶,最后对形成的URL
2013-03-30 12:19:22 1634
原创 Web信息挖掘和主题特征研究
3.1 引言由于信息的爆炸增长,主题搜索引擎在特定的搜索领域,例如机票搜索、旅游搜索、生活搜索、小说搜索,有着更好的用户体验。主题搜索引擎作为未来搜索引擎主要发展趋势,在网络信息智能处理上还存在着仅能处理一种类型网页、提取的信息细化程度低、准确率与效率矛盾、人工干预较多、不支持增量信息处理等不足。基于主题特征的Web信息挖掘方法可以对特定领域的数据进行精确的抽取、高效的过滤,发
2013-03-30 12:18:25 1256
原创 基于URL特征的网站结构信息挖掘
基于URL特征的网站结构信息挖掘王晓飞11(北京邮电大学模式识别实验室)摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构,最后设计了根据URL层次树对URL进行网页分类方法。构建URL层次树,首先要根据网站的首页建立URL层次树的根节点,然后利用网络爬虫,将URL层次树添加枝叶,最后对形成的URL
2013-03-25 21:27:15 5345 3
原创 基于标题和正文依存树的中文网页正文抽取方法
基于标题和正文依存树的中文网页正文抽取方法 王晓飞1 (1. 北京邮电大学 信息与通信工程模式识别实验室,北京 100876) 摘 要: 正文抽取是许多数据挖掘技术的基础,其目的是为了从数据密集充满噪声的Web页面中,抽取最有价值的核心信息。传统基于统计的正文抽取方法无法解决正文简短、正文评价较长和正文为表格的网页。针对这些问题,本文通过对网页标题和网页正文位
2013-03-25 21:25:39 2531
刘备学Android
2016-02-19
站点挖掘总结
2013-03-30
站点垂直挖掘模型的研究和实现
2013-03-30
矩阵运算中选择分块矩阵策略的研究
2013-03-30
基于语义和规则的Web网页细粒度信息抽取方法
2013-03-30
基于URL特征的网站结构信息挖掘
2013-03-30
刀疤鸭之数据结构面试题
2012-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人