搜索引擎与网络爬虫
瑶琴遇知音
我是一名萌萌哒程序员
展开
-
实现简易Java网络爬虫
网络爬虫,即网络机器人或网页spider。通常用来爬取网页数据与信息。随着蜘蛛自主爬行得越来越远,其挖掘的数据也便越来越多。原创 2017-06-27 21:29:07 · 347 阅读 · 0 评论 -
Lucene学习笔记(3)
很多读者认为搜索完成后只要输出,整个过程就应该结束了。事实确实如此。不过输出的过程存在着以下几个问题1. 以何种顺序输出?2. 搜索结果是否全部输出?3. 以什么形式输出?下面,我们来一一解决。4. 排序4.1 自然排序关于自然排序前面已经提到,是根据相关度进行排序。所谓相关度,就是前文提到过的文档得分。注意:文档的得分在每次执行查找时都是不一样的,需要根据原创 2017-07-20 18:18:35 · 277 阅读 · 0 评论 -
Lucene学习笔记(4)
截止到现在,我们已经介绍完了全部的Lucene搜索过程,但似乎还遗忘了什么。没错,正是前面反复提到的分词以及它的StandardAnalyzer类。6. Lucene分析器6.1 分词所谓分词,就是将一段文本拆分成多个词。前面我们已经说过,在建立索引时,写入索引并能够被用户检索的是一个个的词条。词条就是通过分析器进行分词和相关处理后的文本单元。只有通过分词才可能让信息检索系统理解用户的原创 2017-07-21 23:03:32 · 266 阅读 · 0 评论 -
Lucene学习笔记(1)
搜索引擎是信息检索的工具,一个好的搜索引擎将为用户带来极大的便利。在目下大多数的网站、软件、app中都能看到搜索引擎的存在。有了搜索引擎,用户可以在网站等中快速获取信息。此外,搜索引擎常与网络爬虫配合使用。在Java中,最常使用的搜索引擎框架莫过于Lucene。下面,笔者将根据自己的亲身学习经历,谈谈学习Lucene的心得体会。开始之前,必须要先介绍几个概念。1. 基本概念1.原创 2017-07-18 15:15:29 · 498 阅读 · 0 评论 -
Lucene学习笔记(2)
在完成了文档预处理和索引的建立之后,就可以执行搜索操作了。本文将对Lucene搜索的二三事啰嗦一二。原创 2017-07-19 18:14:44 · 291 阅读 · 0 评论 -
那些年我们追过的Scrapy
熟悉Python的人肯定知道,相比于其他编程语言,Python编写爬虫高效简洁,有着得天独厚的优势。对于简单的爬虫小程序只需要使用Python的urllib和Requests两个库下载页面,BeautifulSoup解析页面即可。但对于一些较为复杂的问题,大型爬虫,尤其是多线程,分布式的爬虫问题,以上三个库显得心有余而力不足。于是,我们不得不去探索更高级的爬虫框架:Scrapy。在这里,...原创 2019-08-06 14:37:23 · 109 阅读 · 0 评论