网页解析
yixiu00001
开心快乐是生活的真谛!
展开
-
爬虫的概念
一.基本概念 URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。 URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。 网页抓取:把URL地...原创 2011-12-22 21:12:28 · 67 阅读 · 0 评论 -
google云计算框架
一。概述 google包括三大核心技术:GFS(Goole文件系统),MapReduce(分布式计算系统),BigTable(分布式存储系统)。 1.GFS,底层,负责服务器、机器数据的存储。将大体积的数据库分成固定大小的数据块放到两到三个服务器上。当一个服务器发生故障时,可将数据迅速从另外一个服务器上恢复过来。 2.MapRdeuce,Google开发的编程工具,由于1TB的大规模数据集的...原创 2011-12-22 22:59:08 · 196 阅读 · 0 评论 -
网页内容抽取
信息抽取的中心是包装器(Wraper),包装器是一种软件过程,使用已经定义好的信息抽取规则,将网络爬虫搜集到的web网页上的信息数据抽取出来,转化为用特定格式描述的信息。包装器将特定的网站,紧密地与抽取的网页结构和标记语言联系起来。包装器的主要特点是能从不相关的文本中识别所要抽取的信息。缺点是包装器一般是按照一定的规则或模式来抽取数据,但是网页结构是复杂的和不规范的,一个包装器一般只针对一个信...原创 2012-01-03 00:17:07 · 158 阅读 · 0 评论 -
Context Extraction from HTML Document HTML文档的内容提取
网页内容提取的重要性不仅是内容的数量,还包括其他重要的方面,如: (1)浏览任何网站:模式识别系统使用文档分析技术可以在很小的显示设备上展示网页,通过提取和总结网页内容。 (2)高速接入:网页的需要很快的更新 (3)带宽的使用:网页的更新应该降低网络拥堵 (4)简单配置:任何方式的提取对于SI和用户在已经存在的系统上是容易配置的 (5)快速开发: (6)可移植 对网页有效内容...原创 2012-01-07 21:57:22 · 66 阅读 · 0 评论