摘要:这篇文章介绍了搜索引擎,了解搜索引擎的类型,搜索引擎的基本工作原理以及搜索引擎的特殊搜索命令。搜索引擎优化是网络营销的基石,用低廉的成本达到广泛的宣传效果。因此好的网络营销必须做好搜索引擎优化。
搜索引擎的多种类型
- 元搜索编辑:
元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 - 垂直搜索编辑:
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。 - 集合式搜索编辑:
集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。 - 门户搜索编辑:
门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。 - 免费链接编辑:
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
搜索类型由哪些部分组成
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
- 搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。 - 索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引,否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 - 检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 - 用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
搜索引擎的基本工作原理
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
搜索引擎的特殊搜索命令
搜索引擎中的常用语法:
- google的逻辑表达式
google支持逻辑运算,比如要搜索Discuz的论坛,就输入Discuz,当想排除官方网站时,我们就用“Discuz -Discuz.net”作为关键字。再比如我们要搜索与温州有关的内容,搜索“温州”时,约有28,200,000项结果;要排除政府机关类的网站,可以搜索“温州-gov.cn”(gov.cn域名是只能由政府机关注册的域名),约有6,950,000项结果;如果搜索与“温州”有关的政府机关类网站,可以搜索“温州
gov.cn”。 - 引号的用法
google会自动分析提取搜索关键字的一部分进行智能搜索,比如“黑鹰教程”和
黑鹰教程是完全不同的搜索结果。发现加上双引号后的搜索是完全匹配“黑鹰教程”这4字,不加引号则是可以再把搜索的词拆分了模糊匹配。 - OR的用法
学过英语的人都知道or,在google中也是一样的用法,我们要同时搜索google和baidu的最新情况是时,我们用“google OR baidu”,中间的OR要大写。 - intitle语法
这个语法很有用,是多数搜索引擎都支持的针对网页标题的搜索命令。比如:“intitle:管理员登录”,想找别人网站的后台地址都很方便了!找“intitle:淡然生活”,找到的是标题带有“淡然生活”的网页。 - inurl语法
这是要搜索网址中包含有指定字符串的语法。他的更精确的用法是:allinurl。 - intext语法
这个语法是搜索网页内的字符的,基本上和普通的搜索差不多,主要是和其他语法结合起来使用。比如:intitle:黑客intext:“教程”,这是在网页标题有“黑客”关键字并且在网页上有“教程”关键字的页面。 - filetype语法
这是搜索什么样的文件,比如老师要搜索生物ppt课件讲课,可以搜索“生物课件 filetype:ppt”,同样,还可以搜索“生物课件 filetype:doc”等。这个功能百度搜索也有。