网络蜘蛛的秘密

  
  经常去雅虎、搜狐等网站搜索信息的读者一定有这样的疑问:如此庞大的网页信息,到底是如何被这 些网站所收集到的呢?难道都是人工登记并整理的吗?当然不是。这些搜索引擎能够快速地找到如此之多的信 息,和网络蜘蛛的应用是分不开的。

  网络蜘蛛可以算得上是为 Internet 而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同 的站点中获取信息,舍网络蜘蛛之外,焉有他哉?

  一个典型的网络蜘蛛(例如雅虎)工作的方式,是查看一个页面,并从中找到相关信息 , 然后它再 从该页面的所有链接中出发,继续寻找相关的信息。以此类推,直至穷尽。很快地,就可以在数据库中获得成 千上万的页面和信息。这样的工作方式就如同一张向外发散的蜘蛛网,这正是 网络蜘蛛 这个名称的由来。

  接下来让我们看看如何建立一个网络蜘蛛。在此之前,我们先要了解几个概念。

一、基本原理

  我们可以用网络蜘蛛搜寻很多东西。事实上,现在有一些特别用途的商用网络蜘蛛,这些软件为它们的开 发者赚取了大把的钞票,比如 Altavista 科技的一份许可证,就价值 30 万美元。以下是一个网络蜘蛛的基础原 理:

   * 从各个消息来源收集信息

  从技术角度讲,一个网络蜘蛛应该可以不受限制地从任意来源获取信息。来源多多益善。

   * 准确度

  不管是谁,遇见这样的事情肯定都会崩溃 —— 搜索引擎向你返回了一百万个结果,可是,只有最后两个是 你需要的(这还算好的,如果是中间的两个呢?)。所以好的网络蜘蛛对其返回的结果应该有足够的准确度, 而且在有些情况下,还要有特定的功能,也就是说,只返回特定类型的信息 —— 比如 www.enfused.com 的专为 搜索游戏设计的网络蜘蛛,就只返回与游戏相关的东西。

   * 相对更新

  这依赖于你所使用的技术(下面我们会专门提到),网络蜘蛛应该找回更新后的信息,或者至少是比较新 的信息。如果网络蜘蛛总是找回一些几年前的陈芝麻烂谷子,那你一定会比系统先一步崩溃。

   * 相对快速

  这就不用多说了,如果没有足够的速度,那你的网络蜘蛛再怎么准确,也是白搭。


二、基本技术

  有好几种方法可以构建网络蜘蛛。第一种,称之为常规网络蜘蛛,只是简单地进行页面寻找,搜索并获得 你想要的东西。例如,用一个短语作为关键词进行搜索。第二种,特殊网络蜘蛛,只寻找页面的特定部分。这 种网络蜘蛛在某些特定场合很有用(比如,你只想获得某一个站点内的新闻标题)。

  常规网络蜘蛛是两者中相对简单的一种。首先,你不需要预先知道目标页面的情况。只需要在该页面中, 以及在与其链接的页面中,寻找你要的关键词就可以了。你还可以在功能中设定,忽略掉那些在同一站点下的 链接,从而保证每一个结果都来源于不同的站点。

  与之相对应,一个特定的网络蜘蛛通常要求你预先知道一些目标页面的情况,例如表格规划等。举个例子 ,如果你搜寻的是一个页面中的新闻标题,你应该先知道限定此标题的 HTML 标记。如此你才可以直接搜索页面 中正确的部分。在这种情况下,是否具备搜索该页面的所有链接的功能显得不是特别重要,因为你的网络蜘蛛 很可能在别的页面中无法找到标记,不能进行工作。

  运行网络蜘蛛的时间也有所不同:你可以预先运行,也可以实时运行。预先运行意味着当你的网络蜘蛛运 行时,所有搜集到的信息都存贮在一个数据库中,以备以后使用。很明显,如此你将不会获得最新的数据,但 是如果你经常运行网络蜘蛛,这个问题也不会有什么大碍。

  实时运行意味着你每次运行网络蜘蛛所获得的信息都不会被保存下来,你只能现找现用。例如,如果你在 站点设置了搜索功能,在实时状态下使用网络蜘蛛,则无论何时,只要有用户输入一个关键词并点下 发送 按钮,你的网络蜘蛛就将运行,而不是仅仅访问数据库。尽管这可以保证你的数据总是最新的,但是却不是大 多数站点的首选,因为网络蜘蛛本身运行和返回数据都需要时间 —— 而时间就是金钱呀!当然,所查找的资料 具有高度时间敏感性的时候例外。


三、构建网络蜘蛛

  那么如何用 ASP 构建网络蜘蛛呢?答案是: Internet transfer control (ITC) 。这个由 微软提供的控件,将使你能够通过 ASP 程序访问 Internet 资源。你可以用 ITC 搜寻 Web 页面,访问 FTP 服务器,甚 至可以发送邮件标题。在本文里,我们将着重讨论搜寻 Web 页面的功能。

  有几个缺陷必须先说明一下。第一, ASP 无权访问 Windows 的注册表,这就使某些 ITC 正常存储的常量和数 值不可用。通常你可以通过设置 ITC 不使用默认值 来解决这个问题,这就需要你在运行过程中指明每一 次的值。

  另一个更严重的问题是关于许可证书的。由于 ASP 不具备调用 License Manager (一项 Windows 中的功 能,可以保证组件和控件的合法使用)的功能,那么当 License Manager 检查当前组件的密钥密码,并将 其与 Windows 注册表进行比较后,如果发现它们不同,该组件将不会工作。因此,当你想把 ITC 配置到另一台没 有所需密钥的计算机上时,将导致 ITC 崩溃。解决的办法之一是将 ITC 捆绑到另一个 VB 组件中,由 VB 组件复制 ITC 的路径和工具,从而进行配置。这项工作很麻烦,但不幸的是,它是必不可少的。

  下面是一些例子:

  你可以用下面的编码建立 ITC

set Inet1 = CreateObject("InetCtls.Inet")
Inet1.protocol = 4 'HTTP
Inet1.accesstype = 1 'Direct connection to internet
Inet1.requesttimeout = 60 'in seconds
Inet1.URL = strURL
trHTML = Inet1.OpenURL 'grab HTML page

  现在 strHTML 保存着 strURL 指向的整个页面的 HTML 内容。要建立一个常规网络蜘蛛,你现在只需要调用 instr() 功能来看看你寻找的串是否在当前位置即可。你也可以按照 href 标记寻找,解析当前的 URL ,然后把它设置到 Internet 控件的属性中去,接着再继续打开另一个页面。用来查看所有链接的最 好方法是使用递归。

  要注意的是,尽管这种方法很易于实行,却不是非常准确和强大。今天的许多搜索引擎都可以进行额外的 逻辑检查,例如计算一个页面中某一短语重复的次数,相关字词的近似程度等,有些甚至可以用来判断所搜寻 的语段与上下文的关系。这些功能将留待我们的读者们自己去摸索。


四、特定网络蜘蛛

  相对的,一个特定网络蜘蛛要复杂一些。如我们早先提到的,一个特定网络蜘蛛会搜寻一个页面的特定部 分,因而要求预先知道该部分相关的情况。让我们先看看下面的 HTML

   <HTML><HEAD><TITLE>My News Page</TITLE><META Name=&quo t;keywords" Content="News, headlines"><META Name="descr iption" Content="The current news headlines."></HEAD> ;<BODY BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#FF3300 "VLINK="#CC0000" ALINK="#0000FF"><p><h3>Headlines&l t;/h3></p><!--put headlines here--><a href="/news/8094.asp ">Stocks prices fall</a><a href="/news/8095.asp">Ne w movies today</a><a href="/news/8096.asp">Bush and&nb sp;Gore to debate tonight</a><a href="/news/8097.asp"> Fall TV lineup</a><!--end headlines--></BODY></HTML>


  在这个页面内,我们只关心位于 “put headlines here” “end headlines” 两个标记之间的东西。你可以构建一个只返回该区域查找结果的功能设置:

Function GetText(strText, strStartTag, strEndTag)
dim intStart
intStart = instr(1, strText, strStartTag, vbtextcompare)
if intStart then
intStart = intStart + len(strStartTag)
intEnd = InStr(intStart + 1, strText, strEndTag, vbtextcompar e)
GetText = Mid(strText, intStart + 1, intEnd - intStart&n bsp;- 1)
else
GetText = " "
end if
End Function

  按照上面构建 ITC 控件的例子,你可以很容易地将 strHTML 中的 “ <!--put headlines here-->” “<!--end headlines-->” 作为参数传 送到 GetText 中。

  要注意,用于开始和结束的标记都不一定要是实际的 HTML 专用标记 —— 它们可以是你想使用的任何文本界 定符。在通常情况下,你不容易找到好的 HTML 标记来界定搜寻区域。你只能使用比较方便称手的标记 —— 例如 ,你的首尾标记可以分别如下:

strStartTag = "/td><td><font size=&q uot;2"><p><b><u>"
strEndTag = "<p></td></tr><tr><td><ums>&quo t;

  一定要确定搜索的是 HTML 页中比较独特的标识,这样你才可以准确地获得你需要的东西。你也可以按照你 所返回的文本部分中的链接进行搜寻,不过如果你不知道那些页面的格式,你的网络蜘蛛将无功而返。


五、保存信息

  在大多数情况下,你会要求将收集到的信息保存在一个数据库中,以备以后使用。你的需求也许包括很广 泛的内容,但是在此之前,你要记住以下几件事:

  在你的数据库中查找最新信息

  如果你经常使用网络蜘蛛去查找一个站点内的新闻标题,你要先确定比较新的标题已经存在于数据库内。 然后将其与网络蜘蛛返回的结果相比较,只添加更新过的部分。这样可以防止你保存一大堆重复数据。

  更新信息

  也许你根本就不想从外部向数据库中添加新信息。比如,如果你维护的是一个美国各州人口的网上索引, 你只需要在数据库内部更新 —— 你将不需要在表格内插入新的信息。

  保存所需信息
如果你在查找标题,要确定你也同时查找了该标题指向的链接,并将其保存下来。如果没有链接,你 也应该建立一个。例如,如果我从www.yoursite.com查找标题,并在www.mysite .com演示,而该标题与一篇在站点之外的文章有链接,那么我必须先保存http://www.you rsite.com这一链接,然后再保存其它链接到数据库内,这些链接才可以正常访问。


  六、结论

  我们已经简要介绍了如何构建一个比较完整的网络蜘蛛。所有的基本功能都已涉及。现在你需要做的就是 再在里面加上你自己的东西。

  这一类功能将被应用在一个COM对象或者一个独立的应用软件内。在ASP中设置这项功能非常方便, 但是你应该将你的编码移到另外的地方,以提高速度和安全性。而且这样也可以令其更容易被打包和传送。
[ 来自 ]http://www.stylecn.net/html/69/70/0606/227.htm
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值