爬虫
文章平均质量分 97
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
用 ChatGPT 网页爬虫发现隐藏的网络数据
动态网页使用 JavaScript 函数来管理 HTML 的状态。这些函数将实际的 HTML 与数据逻辑隔离开来。这意味着网站可能具有空的 HTML 结构,并且数据会在页面加载时由 JavaScript 渲染到 HTML 中。由于像 BeautifulSoup 这样的常规网络爬虫工具不支持 JavaScript,因此这些数据不会出现在 HTML 中,因此无法通过 HTML 解析来获取。原创 2024-03-02 09:15:08 · 1268 阅读 · 0 评论 -
使用 ChatGPT 简化 Web 抓取中的 JSON 解析
JMESPath 是一种用于搜索 JSON 文档的查询语言。它允许创建查询,从 JSON 数据集中过滤和提取特定的数据字段。在某种程度上,JMESPath 与 XPath 或 CSS 选择器 非常相似,但用于 JSON 数据。使用 Python 解析 JSON 的快速介绍请参阅我们完整的 JMespath 介绍,其中涵盖了关于这种小型路径语言的所有知识,并探索一个网络抓取示例在本文中,我们不需要自己理解或实现 JMESPath 选择器。原创 2024-03-02 09:12:45 · 1127 阅读 · 0 评论 -
使用 ChatGPT 和 XPath 或 CSS 选择器查找网页元素
要使用 ChatGPT 解析 HTML,我们将提示它进行解析,并提供一个示例的 HTML 文本。然后,它将识别元素并返回相应的 XPath 和 CSS 选择器。与使用 ChatGPT 代码解释器进行网页抓取不同,这种方法中,ChatGPT 仅解析 HTML 来返回选择器,我们将使用 BeautifulSoup 完成网页抓取过程。在我们使用 ChatGPT 解析 HTML 之前,让我们简要回顾一下 XPath 和 CSS 选择器在网页抓取中的应用。原创 2024-02-28 09:05:47 · 753 阅读 · 0 评论 -
使用 ChatGPT 代码解释器编写网络爬虫非常简单
在这个快速教程中,我们看了一下如何使用新的 ChatGPT 代码解释器功能生成 HTML 解析代码。我们看到,通过狭窄的提示和良好的 HTML 示例,可以获得良好的结果。虽然 ChatGPT 目前还不能令人信服地进行网页爬取,但新的代码解释器功能使其能够自我纠正和改进,使其成为启动新的 AI 动力网页爬取器的强大工具。原创 2024-02-28 09:03:41 · 2274 阅读 · 0 评论