将爬虫与大语言模型结合

在这里插入图片描述

摘要

Web自动化是一种重要技术,通过自动化常见的Web操作来完成复杂的Web任务,可以提高运营效率并减少手动操作的需要。

传统的实现方式,比如包装器,当面对新的网站时,面临着适应性和可扩展性的限制。

另一方面,由大型语言模型(LLM)赋能的生成型代理在开放世界场景中表现出较差的表现和可重用性。

在这项工作中,我们提出了一个面向垂直信息网页的爬虫生成任务,以及将自然语言模型(LLMs)与爬虫结合的范式,这有助于爬虫更高效地应对多变的网络环境。

我们提出了一种名为AUTOCRAWLER的两阶段框架,利用HTML的层次结构进行逐步理解。

通过自上而下和回溯操作,AUTOCRAWLER可以从错误的行为中学习,并持续精简HTML,以生成更好的动作。我们使用多个LLM进行了全面的实验,并展示了我们框架的有效性。

在这里插入图片描述

介绍

Web自动化是指通过程序化方式与基于网络的应用程序或网站交互的过程,以执行通常需要人工操作的任务。

Web自动化通过简化重复且耗时的任务,显著提高了各种在线流程的效率、准确性和可扩展性。

在传统网络自动化中,方法主要依赖于包装器,这是一些专门设计用于从特定网站或页面中提取数据的脚本或软件。这种方法是封闭世界场景的特征,自动化系统仅与预定义的、有限的网站或页面集合交互,并且不扩展到该指定域之外。因此,这些传统方法在适应性和可扩展性方面存在局限性,当遇到新的或改变的网站结构时,难以有效地运行。

在这些限制下,基于规则的封装器和自动生成的封装器( Bronzi等,2013年),尽管它们之间有所不同,但都共同依赖于为每个网站手动标注的示例。例如,已经使用了超过1,400个网页标注来进行信息抽取(Lockard等,2019年)。

LLMs的出现彻底改变了Web自动化,通过引入诸如规划、推理、反思和工具使用等高级能力。利用这些能力,Web自动化通过LLM构建生成型代理,这些代理可以自主浏览、解释并与Web内容交互。

这通过复杂的语言理解和决策过程有效地解决了开放世界的基于Web的任务。然而,尽管取得了这些进展,这一模式仍面临两个主要问题。

一方面,现有的web代理框架通常表现出较差的性能,成功率被提到为2.0(Deng等人,2023年,在开放世界的任务。

另一方面,这种方法遇到的一个重大弱点是它的可重用性不足。

这意味着这些代理即使在处理类似的任务时也过度依赖LLM,从而导致在管理大量重复和类似的网页时效率低下。

在这项工作中,我们提出了一个爬虫生成任务的垂直信息网页。该任务的目标是自动生成一系列预定义的规则或动作序列,以自动提取目标信息。

这个任务需要一个LLM生成爬虫的范例。与传统的包装器相比,这种范式可以根据不同的网站和任务需求快速调整。

这种灵活性使抓取器能够更有效地处理多样化和不断变化的网络环境。与生成式代理范式相比,它引入了中间规则来增强可重用性,并在处理类似任务时减少对LLM的依赖,从而在处理大量Web任务时提高效率。

尽管LLM具有强大的网页信息提取能力,但LLM的爬虫生成仍然存在以下挑战:

首先,LLM主要是在大量干净的高质量纯文本语料库上进行预训练,缺乏对HTML等标记语言的接触。因此,LLM对HTML中固有的复杂结构和语义的理解有限。

其次,HTML作为一种半结构化数据,包含结构化(标签和属性)和非结构化(文本内容)的元素,同时包含嵌套的多层信息。它增加了爬虫生成的复杂性。

第三,尽管LLM在理解文本内容方面表现出色,但他们在理解冗长的结构信息文档方面仍然存在不足。这表明在准确捕获和利用长HTML文档中固有的层次结构方面存在潜在的挑战。

因此,我们引入AUTOCRAWLER,一个两阶段的框架,旨在解决这些爬虫生成任务中的困难。AUTOCRAWLER的概述如图2所示。我们的框架利用HTML的层次结构进行渐进式理解。

我们提出了一种基于LLMs的启发式算法,该算法包含上下分治和回溯操作。首先,尝试逐步细化到DOM树中包含目标信息的特定节点,当执行失败时,则向上回溯DOM树。这个过程能够修正错误的执行,并逐步剔除HTML内容中与目标无关的部分,直到成功执行。

我们的贡献可概括如下:

  • 我们提出了网络爬虫生成任务和利用大型语言模型(LLMs)生成爬虫的范式,并对抽取效率进行了分析。
  • 我们引入了AUTOCRAWLER,这是一个两阶段框架,具有逐步理解能力,用于生成可执行的操作序列。
  • 全面的实验结果证明了我们框架在网页爬虫生成任务中的有效性。

在这里插入图片描述

AUTOCRAWLER

在本节中,我们解释了AUTOCRAWLER框架的开发,用于根据从半结构化的HTML中提取特定信息生成网络爬虫。我们的方法分为两个阶段:首先,我们采用了一种基于网页层级结构的渐进式生成框架;其次,我们基于从多个网页获取的结果建立了合成框架。整体框架如图2所示。

在这里插入图片描述

与生成XPath的包装器方法不同,我们将爬虫生成任务建模为行动序列生成任务。具体来说,我们生成一个行动序列Aseq,它由一组种子网页(即测试案例中生成序列的小部分网页)中的一系列XPath表达式组成。

在这里插入图片描述

n 代表动作序列的长度。我们在顺序使用解析器的方式执行XPath。在序列中,除了最后一个XPath表达式之外的所有 XPath 表达式都用于筛选网页,最后的表达式用于从筛选后的网页中提取相应的元素值。

然而,HTML内容组织为DOM树结构,这使得可以剔除无关的页面组件,因而限制DOM树的长度和高度,从而改善LLM生成的性能。

具体来说,我们执行的遍历策略由自顶向下和步回操作。

自上而下指的是从当前DOM树的根节点开始,逐步细化以找到包含目标信息的特定节点。反向推进指的是通过向上遍历DOM树,重新评估并调整选择标准,从而选择一个更可靠、更具有普遍适用性的节点作为定位目标信息更加一致、准确的定位基础。在每一步中,首先执行自上而下的操作,指导LLMs直接写出通向包含目标信息节点的XPath,并判断使用XPath提取出的值是否与其识别的值一致。如果执行失败,则采取反向推进操作,从中失败的节点后退,同时确保网页中包含目标信息,这一过程也是基于LLMs的导向。

尽管在递增生成过程中我们能够获取执行动作序列,但不同网页的目标信息具体位置和结构的差异仍然存在。这一过程可能在单个HTML页面中收集具有特定特征的XPath,但这种做法降低了动作序列的通用性。为了提高动作序列的重用性,我们提出引入综合阶段。具体实施如下:

  1. 随机选择ns个测试页面作为种子页面。
  2. 为每一个种子页面生成一个动作序列。
  3. 利用多个不同的动作序列从这些种子页面中提取信息。收集所有动作序列及其相应的结果,并从中挑选一个能够从所有种子页面中提取出全部目标信息的动作序列,作为最终的动作序列。

动作序列的长度依赖于大型语言模型(LLMs)的能力。为了全面探讨不同模型在理解网页结构方面的性能,我们研究了模型对步骤数量分布的影响。具体来说,我们收集了所有动作序列,并计算了不同LLMs与AUTOCRAWLER之间的平均步骤数。实验结果报告在表格3中。 我们注意到,具有更强LLMs的AUTOCRAWLER产生更短的动作序列。使用GPT4的AUTOCRAWLER平均需要1.57步,而使用Mistral 7B的AUTOCRAWLER平均需要3.82步。这一现象可以解释为更强大的模型具有更好的了解网页层次结构的能力,因此能够准确地输出更长、更深网页中的适当XPath,从而减少步骤的数量。

将HTML的长度定义为其HTML中词条的数量,其高度定义为表示HTML的DOM树的高。我们定义长度和高度的压缩比为原始网页的长度和高度与网页被AUTOCRAWLER精简后的长度和高度比值。

我们计算了在正确情况下,各个LLM的长度和高度压缩比,并据此对它们的性能进行了排名。图3显示了结果。令人感兴趣的观察是,长度和高度的压缩比都呈现出一个U形曲线。这种现象可以从两个方面进行解读:一方面,当LLM的性能强大时,它能在不返回并重新访问子DOM树的情况下生成正确的XPath;另一方面,当模型较弱时,它无法有效理解网页的层次结构,因此无法为网页生成可靠且有效的XPath。

自动爬虫中XPath的脆弱性 关于XPath的脆弱性,主要指的是XPath表达式在面对新的网页时,往往因为依赖特定信息的预测(如文本、@class等)变得无效或不准确地匹配目标元素。这种脆弱性在很大程度上依赖于XPath通过使用如文本信息这样的预测来指定具体信息。

我们主要关注基于文本特征生成XPath的重复使用性,因为这些文本信息来自于同一个网站(如@class就是一个生成稳定操作序列的好特性)。表4列出了依赖于文本的XPath表达式。我们旨在探索通过文本特征来生成XPath的具体情况再利用性。我们人工计算了不同类型预测(包含和等于)两种情况下的失效案例的比例。表5中的结果显示,较强的大型语言模型(LLM)的能力与使用自动爬虫时的失效案例比例呈下降趋势。然而,目前的前沿LLM GPT-4仍面临着XPath的脆弱性问题,这表明完全依赖LLM来生成可靠的XPath仍存在一定的差距。

在这里插入图片描述

Related Work

Web Automation with LLMs

许多研究探索了在网页模拟环境中开放世界的概念(Shi等人,2017;Yao等人,2023;Deng等人,2023;Zhou等人,2023),包涵了一系列涵盖现实生活场景的任务,比如在线购物、航班预订和软件开发等。当前的网页自动化框架主要致力于简化网络环境(Sridhar等人,2023;Gur等人,2023;Zheng等人,2024),并为计划和与网络交互制定策略(Sodhi等人,2023;Ma等人,2023)。然而,这些框架在重用性方面存在局限,代理在执行类似任务时对LLMs的依赖性过强,导致了效率低下。

DOM-based Web Extraction

这些方法利用了网页的层次结构。此类方法包括基于规则的方法(Zheng等,2008),学习封装器(即,一个DOM特定解析器,可以提取内容)(Gulhane等,2011;Kushmerick,1997;Dalvi等,2011)。现代策略采用了远距离监督,通过将现有知识库与web源进行匹配,以自动创建训练样本从而降低注释所需的努力(Lockard等,2018, 2019)。这种方法虽然大大减少了标注工作,但不可避免地会导致误删(即负样本)问题,因为是由于知识库的不完整性导致的(Xie等,2021)。

Conclusion

在这篇论文中,我们提出了一种名为“爬虫生成任务”的概念,该任务融合了LLM(Large Language Model)和爬虫的范例,以提升当前网络自动化框架的有效复用性。随后,我们提出了一个称为AUTOCRAWLER的两阶段渐进理解框架,旨在生成一个更加稳定和可执行的行动序列。全面的实验结果表明,AUTOCRAWLER在爬虫生成任务中能显著超越最佳基准。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

  • 9
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值