网络数据获取
张某人ER
学习IT的学生
展开
-
搜索引擎爬虫工作原理
转载地址:http://www.chinaz.com/web/2013/0325/297115.shtml 搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即起此作用,它是搜索引擎系统中很关键也根基础的构件。这里主要介绍与网转载 2015-10-20 17:10:57 · 975 阅读 · 0 评论 -
垂直搜索架构(爬虫部分)
原文地址:http://my.oschina.net/figoisxjs/blog/127511 在垂直搜索的索引建立之前,我们需要到垂直网站上抓取资源并做一定的处理。垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范(否则用户体验也转载 2015-10-20 17:09:22 · 2988 阅读 · 0 评论