如何使用 Python 构建一个“谷歌搜索”系统？

最新推荐文章于 2024-08-19 10:38:10 发布

爬遍天下无敌手

最新推荐文章于 2024-08-19 10:38:10 发布

阅读量443

点赞数

版权

在这篇文章中，我将向您展示如何使用Python构建自己的答案查找系统。基本上，这种自动化可以从图片中找到多项选择题的答案。

有一件事我们要清楚，在考试期间不可能在互联网上搜索问题，但是当考官转过身去的时候，我可以很快地拍一张照片。这是算法的第一部分。我得想办法把这个问题从图中提取出来。

似乎有很多服务可以提供文本提取工具，但是我需要某种API来解决此问题。最后，Google的VisionAPI正是我正在寻找的工具。很棒的事情是，每月前1000个API调用是免费的，这足以让我测试和使用该API。

Vision AI

首先，创建Google云帐户，然后在服务中搜索Vision AI。使用VisionAI，您可以执行诸如为图像分配标签来组织图像，获取推荐的裁切顶点，检测著名的风景或地方，提取文本等工作。

检查文档以启用和设置API。配置后，您必须创建JSON文件，包含您下载到计算机的密钥。

运行以下命令安装客户端库：

pip install google-cloud-vision

然后通过设置环境变量GOOGLE_APPLICATION_CREDENTIALS，为应用程序代码提供身份验证凭据。

在运行代码时，您将看到JSON格式的响应，其中包括检测到的文本的规范。但我们只需要纯描述，所以我从响应中提取了这部分。

在Google上搜索问题

下一步是在Google上搜索问题部分来获得一些信息。我使用正则表达式（regex）库从描述（响应）中提取问题部分。然后我们必须将提取出的问题部分进行模糊化，以便能够对其进行搜索。

抓取的信息

我们将使用 BeautifulSoup 抓取前3个结果，以获得关于问题的一些信息，因为答案可能位于其中之一。

另外，如果您想从Google的搜索列表中抓取特定的数据，不要使用inspect元素来查找元素的属性，而是打印整个页面来查看属性，因为它与实际的属性有所不同。

我们需要对搜索结果中的前3个链接进行抓取，但是这些链接确实被弄乱了，因此获取用于抓取的干净链接很重要。

/url?q=https://en.wikipedia.org/wiki/IAU_definition_of_planet&sa=U&ved=2ahUKEwiSmtrEsaTnAhXtwsQBHduCCO4QFjAAegQIBBAB&usg=AOvVaw0HzMKrBxdHZj5u1Yq1t0en

正如您所看到的，实际的链接位于q=和&sa之间。通过使用正则表达式Regex，我们可以获得这个特定的字段或有效的URL。

在我们抓取这些URLs的内容之前，让我向您展示使用Python的问答系统。

问答系统

这是算法的主要部分。从前3个结果中抓取信息后，程序应该通过迭代文档来检测答案。首先，我认为最好使用相似度算法来检测与问题最相似的文档，但是我不知道如何实现它。

经过几个小时的研究，我在Medium上找到了一篇文章，用Python解释了问答系统。它有易于使用的python软件包能够对您自己的私有数据实现一个QA系统。

让我们先安装这个包：

pip install cdqa

我正在使用下面的示例代码块中包含的下载功能来手动下载经过预训练的模型和数据：

它的输出应该是这样的：

它打印出确切的答案和包含答案的段落。

基本上，当从图片中提取问题并将其发送到系统时，检索器将从已抓取数据中选择最有可能包含答案的文档列表。如前所述，它计算问题与抓取数据中每个文档之间的余弦相似度。

在选择了最可能的文档后，系统将每个文档分成几个段落，并将问题一起发送给读者，这基本上是一个预先训练好的深度学习模型。所使用的模型是著名的NLP模型BERT的Pytorch 版本。

然后，读者输出在每个段落中找到的最可能的答案。在阅读者之后，系统中的最后一层通过使用内部评分函数对答案进行比较，并根据分数输出最有可能的答案，这将得到我们问题的答案。

下面是系统机制的模式。

你必须在特定的结构中设置数据帧(CSV)，以便将其发送到 cdQA 管道。

但是实际上我使用PDF转换器从PDF文件目录创建了一个输入数据框。因此，我要在pdf文件中保存每个结果的所有抓取数据。我们希望总共有3个pdf文件(也可以是1个或2个)。另外，我们需要命名这些pdf文件，这就是为什么我抓取每个页面的标题的原因。

我总结一下算法：它将从图片中提取问题，在Google上搜索它，抓取前3个结果，从抓取的数据中创建3个pdf文件，最后使用问答系统找到答案。

如果你想看看它是如何工作的，请检查我做的一个可以从图片中解决考试问题的机器人。

以下是完整的代码：

有时它可能会混淆，但我认为总体来说是可以的。至少我可以用60%的正确答案通过考试。

欢迎开发者们在评论中告诉我你的看法！实际上，最好是一次遍历所有问题，但我没有足够的时间来做这件事，所以只好下次继续再做。

源码教程加群：850591259

爬遍天下无敌手

关注