终于有人把搜索引擎讲明白了

导读:我们现在正处在一个信息过载的时代。

全世界每年产生1EB到2EB (1EB≈1018B)信息,相当于地球上每个人每年大概产生250MB信息。其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。Tom Landauer认为人的大脑只能存储约200MB信息,一生只能接触约6GB信息。

近些年,大数据技术的出现及发展、深度学习以及神经网络计算能力的提高,加速提高了我们对信息的处理能力,但是并没有缓解信息过载给我们造成的影响。搜索引擎成为我们获取信息的主要手段之一。

作者:刘宇 赵宏宇 刘书斌 孙明珠

来源:大数据DT(ID:hzdashuju)

01 什么是搜索引擎及搜索系统

信息检索(Information Retrieval,IR)是从文档集合中返回满足用户需求的相关信息的过程。它是一门研究信息获取(Acquisition)、表示(Representation)、存储(Storage)、组织(Organization)和访问(Access)的学科。

检索来自Retrieval,有些人把它翻译成获取,本义是获得与输入要求相匹配的输出。而搜索来自Search,指带有目的性地寻找。信息检索不仅仅是指搜索,信息检索系统(IR System)也不仅仅是搜索引擎。

从狭义上讲,信息检索就是指信息搜索(Information Search);从广义上讲,信息检索包含搜索引擎(Search Engine)、问答系统(Question Answering)、信息抽取(Information Extraction)、信息过滤(Information Filtering)、信息推荐(Information Recommending)等。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,将用户检索到的相关信息展示给用户,为用户提供检索服务。

搜索引擎包括4个接口,分别是搜索器、索引器、检索器和用户接口。

  • 搜索器的功能是在互联网中漫游,负责发现和搜集信息。

  • 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,输出用于表示文档以及生成文档库的索引表。

  • 检索器的功能是根据用户的查询在索引库中快速检出文档,并进行文档与查询的相关度评价,对将要输出的结果进行排序,实现某种用户相关性反馈机制。

  • 用户接口的功能是输入用户查询、显示查询结果、提供用户相关性反馈机制。

具体的搜索引擎架构示意图如图2-1所示。

▲图2-1 搜索引擎架构示意图</

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值