Platon.AI-CSDN博客

原创下一代网络爬虫：AI agents

下一代网络爬虫是爬虫级 AI agents。由于现代网页的复杂性，现代爬虫都倾向于使用高性能分布式 RPA，完全和真人一样访问网页，采集数据。由于 AI 的成熟，RPA 工具也在升级为 AI agents。因此，网页爬虫的发展趋势是爬虫级 AI 智能体(AI agents)，或者我喜欢称为数字超人。

2024-01-19 17:05:12 4399

原创大规模 Web 数据采集的终极开源方案 - PulsarRPA

PulsarRPA 是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整，PulsarRPA 开发了一系列尖端技术来解决这些问题。

2022-10-02 09:32:05 4012 11

原创 PulsarAgents - 浏览器智能体军团，爬虫级智能体。基于RPA+AI+ML实现。任意规模网站自动采集，提取，聚类，标注，训练，预测

PulsarAgents - 浏览器智能体军团，爬虫级智能体。基于RPA+AI+ML实现。任意规模网站自动采集，提取，聚类，标注，训练，预测。100%自动化，将任意网站的网页，转变为业务直接使用的数据，譬如 Excel 表格，网页，或者 SQL 数据库。

2024-10-25 22:14:58 1051

原创如何快速读懂开源代码？

只有当你着手修改一个开源项目，你才能够快速懂得它。

2024-02-27 14:25:53 1017

原创一个人能做出什么开源项目？

高性能分布式 RPA，一个人高强度连续写了几年，感觉大脑每个细胞都激活了，根本停不下来。目前该项目仍然由我独自维护升级。可以操纵大规模浏览器集群，尤其适用于网络爬虫的各种场景：从 a, b, c 到大规模采集最复杂的站点，完整精确提取网页数据，支持使用 SQL 提取网页内容，从而降低管理复杂任务、复杂页面内容提取规则的难度。同时，我也独立开发了基于视觉模型和机器学习的自动网页数据提取算法。

2024-02-27 14:14:56 1041

原创 PulsarRPAPro-基于监督学习算法高精度提取网页数据

使用无监督学习+监督学习进行网页数据提取，我们将网页数据提取的人效提升了1000倍以上，提升了数据提取准确率，降低了人员技能要求，同时也不再需要频繁维护数据提取规则。

2024-01-19 16:54:02 618

原创 PulsarRPAPro-AI高速采集并自动提取网页数据

AI 爬虫指的是一组AI 智能体，也就是 AI agents，它能够像真人一样网上冲浪，阅读理解在线网页，输出结构化数据或者知识图谱。

2024-01-19 16:50:16 1489

原创 PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

PulsarRPA 是一款高性能分布式 RPA，像真人一样访问网站，和真人一样和页面进行交互，确保所有信息均完整呈现。PulsarRPA 可以采集任何人类可见数据、页面源代码中存在的数据、或者任何其他流经浏览器的数据流。在确保所有信息完整精确被采集的同时，PulsarRPA 保证总体性能、数据质量和总体拥有成本。

2024-01-19 16:16:25 1230

原创 PulsarRPA 教程 14 - REST服务

当 PulsarRPA 作为 REST 服务运行时，X-SQL 可用于随时随地采集网页或直接查询 Web 数据，无需打开 IDE。它就像是升级版的 Google 搜索框：将关键词查询升级为 SQL 查询。

2022-11-04 10:56:11 360 1

原创 PulsarRPA 教程 16 - 顶尖项目实战

Exotic Amazon 是采集整个 TOP 1 网站的完整解决方案，开箱即用，包含亚马逊大多数数据类型，它将永久免费提供并开放源代码。其他电商平台数据采集，其方法和流程基本类似，可以在该项目基础上修改调整业务逻辑即可，其基础设施解决了所有大规模数据采集面临的难题。

2022-11-04 10:54:56 1051 3

原创 PulsarRPA 教程 15 - 控制台

Exotic 可以从网站学习，自动生成所有提取规则，将 Web 当作数据库进行查询，完整精确地交付规模化的 Web 数据。

2022-11-04 10:51:36 550

原创 PulsarRPA 教程 13 - AI 自动提取

PlatonAI 的算法能够 100% 无人干预将网页变成数据 -- 不需要配规则，甚至也不需要机器学习训练，它是无监督机器学习驱动的，像人一样去阅读理解互联网。

2022-11-04 10:41:46 798

原创 PulsarRPA 教程 9 - 机器人流程自动化(RPA)

网络数据采集非常困难，网站经常变化并且变得越来越复杂，采集的数据通常不准确或不完整。Scrapy, requests 等，已经越来越不适应现代网页了。在这个背景下，浏览器自动化技术，以及 RPA 技术就是解决问题的良方，它代替人工访问网页，执行和人工同样的动作，采集人能够看到的一切数据。

2022-11-04 10:40:32 818

原创 PulsarRPA 教程 10 - WebDriver

WebDriver 定义了一个简洁的界面来访问网页并与之交互，所有的动作和行为都经过优化，尽可能地模仿真人，比如滚动、点击、键入文本、拖放等。

2022-11-04 10:39:41 691

原创 PulsarRPA 教程 11 - 大规模采集

大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整，PulsarRPA 开发了一系列尖端技术来解决这些问题。

2022-11-04 10:39:00 651

原创 PulsarRPA 教程 12 - X-SQL

PulsarRPA 开发了 X-SQL 来直接查询互联网，并将网页转换成表格和图表。X-SQL 扩展了 SQL 来管理 Web 数据：网络爬取、数据采集、数据提取、Web 内容挖掘、Web BI，等等。当 PulsarRPA 作为 REST 服务运行时，X-SQL 可用于随时随地采

2022-11-04 10:35:11 500

原创 PulsarRPA 教程 8 - 事件处理

事件处理机制提供了一种方法，可以在网页的整个生命周期中捕获和处理事件。

2022-10-31 12:40:59 389

原创 PulsarRPA 教程 7 - 连续采集

在 PulsarRPA 中，连续采集非常简单，只需要将链接提交到 UrlPool 就行了，采集循环会自动启动。而 PulsarRPA 的基础设施也会去确保数据质量、调度质量等核心问题。

2022-10-31 12:16:14 646

为解决网络数据管理、多源异构数据融合、网络数据挖掘、网络数据采集等问题，开发了一系列基础设施和前沿技术：支持高质量的大规模数据采集和处理，支持网络即数据库范式，支持浏览器渲染并将其作为数据采集的首要方法，支持 RPA 采集，支持退化的单一资源采集，并计划支持最前沿的信息提取技术，提供了人工智能网页提取的预览版本。）是大规模采集 Web 数据的终极开源方案，可满足几乎所有规模和性质的网络数据采集需要。

2022-10-31 12:04:47 1093

原创 PulsarRPA 教程 6 - Kotlin风格异步编程

Kotlin 处理异步代码的方法是使用协程，协程是可暂停计算的，即函数可以在某个点暂停执行，稍后再继续执行。协程的一个好处是，对于开发人员来说，编写非阻塞代码与编写阻塞代码本质上是一样的，编程模型本身并没有真正改变。

2022-10-31 12:03:40 413

原创 PulsarRPA 教程 5 - Java风格异步编程

PulsarRPA 丰富的 API 使得我们的绝大多数编程场景下，都能够使用一行代码解决“加载-解析-提取”。本文介绍如何使用 Java 风格的异步编程，来解决批量的网页采集问题。

2022-10-31 12:02:46 791

原创 PulsarRPA 教程 4 - URL

在 PulsarRPA 中，每个任务都被定义为某种形式的 URL，这些 URL 往往和一个加载参数一起出现，来精细控制一个采集任务，譬如数据过期，数据基本要求，任务截止日期，任务重试等。绝大多数情况下，一个数据采集任务可以用 **url arguments** 的形式来唯一确定，因此它可以很轻松地被拷贝、管理、存储、传输、并行化，以及沟通交流。

2022-10-31 12:01:47 514

原创 PulsarRPA 教程 3 - 数据提取

现代网页源代码变化非常频繁，但是一个网站的网页“看上去”不会变太多，从而保证一致的用户体验。这时候，从视觉特征去审视网页元素就特别有效。为了更好地从视觉特征和数字特征来看待网页，PulsarRPA 扩展了 CSS，从而可以从视觉特征和数字特征角度解决最复杂的现实问题。

2022-10-31 12:00:43 790

原创 PulsarRPA 教程 2 - 加载参数

PulsarRPA 使用简单的加载参数来精确描述一个采集任务，譬如数据生命周期，页面质量要求，任务截止日期，任务重试等。绝大多数情况下，一个数据采集任务可以用 url arguments 形式的文本来唯一确定，因此它可以很轻松地被复制、管理、存储、传输、并行化，以及沟通交流。

2022-10-31 11:58:59 723

原创 PulsarRPA 教程 1 - 基本用法

PulsarRPA 正确实现了两个方法：加载网页，提取数据。为了实现这个目标，PulsarRPA 增删近百万行代码，沉淀数十万行代码，开发了一系列尖端技术。PulsarRPA 实现网络即数据库范式，像对待内部数据库一样对待外部网络，如果需要的数据不在本地存储中，或者现存版本不满足分析需要，则系统会从互联网上采集该数据的最新版本。本课程介绍了加载数据和提取数据的基本 API，这些 API 出现在 PulsarSession 中。

2022-10-31 11:55:38 1881 7

原创数学工程是下一个竞争壁垒

数学工程是下一个竞争壁垒。“数学工程”不是“工程数学”，而是指工程化地组织数学工具创建、数学理论研究、数学成果商业化。越来越多的数学工具被尝试用来解决神经网络问题和人工智能问题，譬如流形、纤维丛、共形几何、压缩感知等等，也有人尝试发明新的数学工具来描述智能问题，譬如“自描述微积分”。由于可用的数据规模越来越大，可用的软件工具越来越多，挖掘数学工具解决实际问题的可能性越来越大。

2022-10-31 11:08:53 253

原创采集一次全网 40 亿网页的硬件支出的成本分析

采集全网一次的硬件支出大约是五百万人民币。今天，要采集一个网页的完整内容，至少需要用一个真实浏览器来访问它，还要不断和网页进行交互，等待所有数据完整加载，这就意味着单个网页的采集成本大大提高。

2022-10-20 14:27:34 401

原创网络爬虫和网络数据管理的常见问题集合

采集、分析和融合非隐私公开数据有利于行业发展、数据要素流通和技术进步。爬虫的难点在于数据规模、数据质量、综合性能、人力维护成本、硬件支出等，这些难题构成了总体拥有成本的难题。PulsarR 为解决网络数据管理、多源异构数据融合、数据采集等问题，开发了一系列基础设施和前沿技术。

2022-10-20 14:12:51 746

原创网络数据管理的应用场景，核心难题和解决方案

大规模提取 Web 数据、管理网络数据非常困难。网站经常变化并且变得越来越复杂，这意味着收集的网络数据通常不准确或不完整。PulsarRPA 为解决网络数据管理、多源异构数据融合、大规模数据采集等问题，开发了一系列基础设施和前沿技术，为该问题提供了全新的、完整的解决方案。

2022-10-17 13:27:31 769

原创学习网络爬虫和数据采集的一些建议

学习技术最好的方法是阅读源代码并动手写代码：阅读优秀成熟项目源代码和文档，跟随项目的示例程序和测试用例执行、修改、添加，最后尝试修改成熟项目的核心代码。

2022-10-17 12:15:35 845

原创柏拉图如何工作？

柏拉图是一款网络数据处理工具，它能够 100% 无人干预就能将网页变成数据 -- 不需要配规则，甚至也不需要机器学习训练，它是无监督机器学习驱动的。

2022-10-06 21:15:03 362

原创大规模网站数据采集的完整开源解决方案

在大规模数据采集场景下，往往面临诸多困难。现在，我们可以使用或者参考学习开放源代码的成熟解决方案 PulsarRPA。

2022-10-06 17:56:52 1787 4

weixin_48738961的博客