《从Lucene到Elasticsearch:全文检索实战》学习笔记一

      今天,我主要给大家讲一下信息检索概念。

       信息检索:

       互联网时代的飞速发展使人们进入了信息爆炸时代,据统计全球的互联网用户已达到30亿,在各个网站及移动app在每个分钟

产生的数据量是巨大的,从而导致数据就具有了数据量巨大大,数据种类繁多,数据更新快等特点,这些数据具有很大的价值,无

数科学家和工程师提出了很多方法从这海量数据中获取我们想要的数据。例如:分类目录,搜索引擎。

      分类目录是将网站分类整理,按类别存放网站的目录及子目录,可以在各类目录中逐级浏览寻找相关的网站,分类目录中往往

还提供交叉索引,从而可以方便在相关的目录之间跳转和浏览,早期的门户网站,如雅虎,搜狐,新浪等,都是将不同来源的信息以

整齐划一的形式整理,储存并呈现给用户,用户根据信息来源,信息类型,关键字等方式筛选网站内容。

      搜索引擎是指自动从互联网搜集信息,经过数据组装呈现给互联网用户。现在,比较有代表性的搜索引擎公司有百度,谷歌。

我们现在更多是web搜索,是信息检索的一个分支,信息检索是从大规模非结构化的数据集合中找出用户需要的信息的过程。

      信息检索领域有一些常用的术语,它主要包含用户需求,查询,文档,文档集,文档编号,词条。一个完整的信息检索系统架

构图如下图所示,它主要包括信息采集,信息整理,用户查询三部分。

      

        信息采集是指通过网络爬虫自动爬取的,网络爬虫是按照某种规则自动抓取互联网的程序,通过爬虫程序可以将网页中的内容

进行深层的分析和挖掘,经过格式处理后就可以提取网页信息为创建索引做准备。

        信息检索系统整理信息的过程称为索引构建。它不仅要保存搜集起来的信息,还要按一定的规则的存储,这样就可以按规则很

块找到需要的信息。

         用户向信息检索系统发出查询请求,信息检索接受查询请求并向用户返回检索到的文档。信息检索系统每时每刻都要等待来自

大量用户的查询请求,它安装每个用户的要求检查自己的索引,在短时间内找到用户需要的数据,并返回给用户。

      

 

 

        

   

           

      

 

   

 

展开阅读全文

没有更多推荐了,返回首页