2021-09-12

第一章 搜索引擎概述

搜索引擎的概念

1.搜索引擎通常指的是收集了Internet上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。.
2.搜索引擎的历史
最早的搜索引擎是Archie和Gopher,后来出现了机器人(Robot)并开发了Spider 程
序,这样使得搜索引擎快速得到发展。比较著名的英文搜索引擎有Yahoo!. AltaVista、
Excite、Infoseek、Lycos、Aol等;中文的有Google、百度( Baidu)、北大天网、爱问(iask)、雅虎
(Yahoo!)、搜狗(Sogou)等。
搜索引擎至今已经经历了三代发展阶段:第一代搜索引擎出现于1994 年,主要特征为
集中式检索。第二代搜索引擎系统大约出现在1996年,大多采用分布式检索方案,即多个
微型计算机协同工作来提高数据规模、响应速度和用户数量。第三代搜索引擎系统出现在
1998年到2000年间,有以下几个特点:索引数据库的规模继续增大、开始出现主题搜索和
地域搜索、检索结果相关度评价成为研究的焦点。
3.发展趋势
搜索引擎的发展趋势主要包含以下几方面的技术:自然语言检索技术、目录与关键词
检索相结合技术.智能化与个性化检索技术、多媒体检索技术、本地化检索技术、交叉语言检
索技术、分布式体系结构、检索结果处理技术。
4.搜常引擎的分类
搜索引擎按其工作方式主要可分为4种,分别是全文搜索引擎、目录索引类搜索引擎、
元搜索引擎和分布式搜索引擎。
5.搜索引擎的关键技术
主要有信息收集和存储技术、信息预处理技术和信息索引技术。
6.当代主晏搜索引擎介绍

  1. Google 简体中文
    http:// www. google. com
    Google的使命是整合全球范围的信息,使人人皆可访问并从中受益。完成该使命的第
    一步就是Google的创始人LarryPage和SergeyBrin共同开发的全新的在线搜索引擎。
    该技术诞生于斯坦福大学的-一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google
    目前被公认为全球最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间返回相
    关的搜索结果。
    在访向Google主页时,可以使用多种语言查找信息、查看新闻标题、搜索超过10亿幅
    的图片,并能够细读全球最大的Usenet消息存档,其中提供的帖子超过10亿个,时间可以
    追溯到1981年。
    2)百度
    http:// www. baidu. com
    百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保
    K持快速增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮
    助广大网民快速地在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。
    3)雅虎搜索
    http://cn. yahoo. com/
    Yahoo!全球性搜索技术( Yahoo! Search Technology, YST)是一个涵盖全球120多亿
    网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38
    种语言,近10000台服务器,服务全球50%以上互联网用户的搜索需求。
    4)天网搜索
    http://e. pku. edu. cn
    天网搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发
    现”的研究成果,于1997年10月29日正式在CERnet上向广大Internet用户提供Web信
    息导航服务,受到学术界广泛好评。
    收录135万网页和9万新闻组文章,更新较快;功能规范;反馈内容完整,包括网页标
    题、日期、长度和代码;可在反馈结果中进- - 步检索;支持电子邮件查询、无分类查询。另外
    还提供北京大学、中国科院等FTP站点的检索。

第二章:

本章主要介绍了搜索引擎的基本结构、工作原理以及工作的过程。
1.搜索引擎的体系结构
搜索引擎主要由搜索器、索引器、检索器和用户接口组成。
搜索引擎系统结构的搜索器(Spider)俗称蜘蛛或网络爬虫,是一个自动收集网页的系
统程序,其功能是日夜不停地在互联网中漫游,搜集信息;索引器是理解搜索器所搜索的信
息,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据–定的相关
度算法进行大量复杂计算,得到每-一个网页针对页面内容中及超链接中每-一个关键词的相
关度,然后用这些相关信息建立网页索引数据库;检索器是根据用户的查询在索引库中快速
检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相
关性反馈机制;用户接口的作用是输人用户查询,显示查询结果,提供用户相关性反馈
机制。
2.搜索引擎的工作原理
可分为3步:从互联网.上抓取网页、建立索引数据库、在索引数据库中搜索排序。
(1)从互联网上抓取网页,称为网页搜集。就是利用能够从互联网上自动收集网页的
Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这
过程,并把爬过的所有网页收集回来。
(2)建立索引数据库,称为网页处理。就是由分析索引系统程序对收集回来的网页进
行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针
对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页
索引数据库。
(3)在索引数据库中搜索排序,就是当用户输人关键词搜索后,由搜索系统程序从网页
索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关
度早已算好,所以只需按照现成的相关度数值排序,相关度越高,网站排名越靠前。
为了完成查询服务,需要有相应的元素来进行表达,这些元素主要有原始网页文档、
URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其他-一些
指标(如重要程度、分类代码等)。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给
用户。
3.搜索引擎的数椐结构
搜索引擎的存储结构主要有顺序存储、链接存储、索引存储和散列存储。搜索引擎的信
息库包含每个网页的HTML文档,每个页面都通过Zlib算法进行压缩。文本索引需要按
照–定的次序来保存每个文档的信息,以便于信息的查找。不同搜索引擎采用的词典不一
样,现在的词典全部存放在内存中以便快速地查找。文档中的每个词对应一个采样,采样包
含该词在该文档中的位置、字体和大小写信息。前向索引是文档到词的索引,在处理文档的
时候以文档为单位建立这种索引比较方便。后向索引是词到文档的索引,主要目的是为了
提高文档检索的速度。
4.元搜索引擎
元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的
资源库为用户提供信息服务的系统。
元搜索引擎与独立搜索引擎的最大不同之处就在于它可以没有自己的资源库和机器
人,它充当的是-一个中间代理角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查
询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后
将整理抽取之后的查询结果提供给用户。这样由于信息源范围的扩大,不仅提高了检索效
率,也大大增加了找到所需信息的可能性。
元搜索引擎主要由3部分组成:请求提交代理、检索接口代理、结果显示代理。
元搜索引擎的主要技术指标有选择独立搜索引擎的策略、覆盖网络资源的广度、是否提
供足够的检索选项、对搜索结果的处理能力以及相关度指标。
5.个性化搜索引擎
个性化搜索引擎是一种通过机器主动学习用户兴趣,并根据用户兴趣帮助用户进行信.
息筛选的新–代智能化搜索引擎。个性化信息服务是针对用户提出的检索要求,根据用户
的兴趣在海量信息库中筛选提供符合用户的信息。
6.智能搜索引擎
智能搜索引擎是基于人工智能、融合专家系统、自然语言理解、用户模型、模式识别数
据挖掘及信息检索领域的知识和先进技术发展起来的。
智能搜索引擎的主要技术有智能代理技术、Web挖掘技术、自然语言理解技术和分布
式并行计算技术。

第三章

1.搜索引擎爬虫
网络爬虫,也称为蜘蛛程序(Spider)。网络爬虫是-一个自动提取网页的程序,是搜索引
擎的重要组成部分。爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网
上的网页。爬虫程序不可能抓取所有的网页,因为在抓取的同时,Web的规模也在增大,所
以一个好的爬虫程序–般能够在短时间内抓取更多的网页。
网络爬虫在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索
引擎数据容量的大小,而且网络爬虫的好坏直接影响搜索结果页中的死链接的个数。
在爬虫开始的时候,需要给爬虫输送-一个URL列表,这个列表中的URL地址便是爬
虫的起始位置,爬虫从这些URL出发,开始了爬行,一直不断地发现新的URL,然后再根据
策略爬行这些新发现的URL,如此永远反复下去。
对于网络爬虫来说,抓取下来网页包括各种格式,包括HTML.图片、DOC、PDF、多媒
体、动态网页及其他格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出
来。准确提取这些文档的信息,一-方面对搜索引擎的搜索准确性有重要作用,另一方面对于
网络爬虫正确跟踪其他链接有一定影响。
搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总.
会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务
器的资源都有浪费。
2.爬虫使用的关键枝术
网页重要性度量由链接欢迎度、链接重要度和平均链接深度这3个方面决定。
网络爬虫采取的抓取策略主要有深度优先策略、广度优先策略、不重复抓取策略、网页
抓取优先策略、最佳优先策略、网页重访策略和网页抓取提速策略。
Robots协议是Web站点和搜索引擎爬虫交互的一种方式,Robots.txt是存放在站点
根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁
止搜索引擎爬虫抓取网站的部分或全部内容。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值