Context Extraction from HTML Document HTML文档的内容提取

网页内容提取的重要性不仅是内容的数量,还包括其他重要的方面,如:
(1)浏览任何网站:模式识别系统使用文档分析技术可以在很小的显示设备上展示网页,通过提取和总结网页内容。
(2)高速接入:网页的需要很快的更新
(3)带宽的使用:网页的更新应该降低网络拥堵
(4)简单配置:任何方式的提取对于SI和用户在已经存在的系统上是容易配置的
(5)快速开发:
(6)可移植
对网页有效内容抽取在无线网络方面很重要。有很多方法可以实现内容抽取,一种方法是将HTML按照它的结构分成区域。一旦区域定义了,基于内容分析的属性也可以得出。但是从相互独立的区域提取内容不是完全的解决方案。这些区域含有相关内容,同时它可能在显示区域内容时没有考虑到这一点。这个问题可以通过下面三种方法解决。
(1)邻域分析:这种方法基于临近位置进行关系分析。这些区域的原始顺序在某些情况下可以作为指示建立很强的关系。
(2)内容分类:从相互独立的区域中提取的内容可以被分解为不同的种类,使用临近位置内容的分类可以作为建立不同区域间逻辑地图的工具。
(3)第三种基于包含内容语法和矢量模型的使用自然语言处理技术。这种方法使用知识模型和信息检索技术来确定不同区域块之间的关系。

当不同区域块之间的关系确定之后,可以将内容建立一个意义明确和有效的模型,能够满足显示屏较小的需求。

下面为需要实现的过程:
(1)结构分析:分析每一个网页的结构;
(2)分解:基于每个提取的网页结构分解文档;
(3)内容分析:对半结构化文档进行内容分析得到当前分解的结构的一个摘要;
(4)DOC内容表:将所有分解文档的摘要拼接在一起作为整个文档的摘要,保存为一条Table of Content信息。
(5)TOC排序:TOC的顺序取决于分解文档的原始顺序,但是这种原始顺序经常被误认为最用意义或者最重要的信息。所以,分析每个分解文档块的内容,并且基于它们之间相互重要性重新排序,并显示出来。

这种方法基于网页结构分析提取网页内容,基于不同区域块的重要性和逻辑关系,对文档分类可以得到文档中有效的内容。这种文档分析的方法可以将内容连接为有意义的、可以理解的,并且可用的代表内容。
weixin028基于微信小程序小说阅读器设计+ssm后端毕业源码案例设计 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值