自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 下一代网络爬虫:AI agents

下一代网络爬虫是爬虫级 AI agents。由于现代网页的复杂性,现代爬虫都倾向于使用高性能分布式 RPA,完全和真人一样访问网页,采集数据。由于 AI 的成熟,RPA 工具也在升级为 AI agents。因此,网页爬虫的发展趋势是爬虫级 AI 智能体(AI agents),或者我喜欢称为数字超人。

2024-01-19 17:05:12 3040

原创 大规模 Web 数据采集的终极开源方案 - PulsarRPA

PulsarRPA 是大规模采集 Web 数据的终极开源方案,可满足几乎所有规模和性质的网络数据采集需要。大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整,PulsarRPA 开发了一系列尖端技术来解决这些问题。

2022-10-02 09:32:05 3332 11

原创 如何快速读懂开源代码?

只有当你着手修改一个开源项目,你才能够快速懂得它。

2024-02-27 14:25:53 856

原创 一个人能做出什么开源项目?

高性能分布式 RPA,一个人高强度连续写了几年,感觉大脑每个细胞都激活了,根本停不下来。目前该项目仍然由我独自维护升级。可以操纵大规模浏览器集群,尤其适用于网络爬虫的各种场景:从 a, b, c 到大规模采集最复杂的站点,完整精确提取网页数据,支持使用 SQL 提取网页内容,从而降低管理复杂任务、复杂页面内容提取规则的难度。同时,我也独立开发了基于视觉模型和机器学习的自动网页数据提取算法。

2024-02-27 14:14:56 868

原创 PulsarRPAPro-基于监督学习算法高精度提取网页数据

使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。

2024-01-19 16:54:02 456

原创 PulsarRPAPro-AI高速采集并自动提取网页数据

AI 爬虫指的是一组AI 智能体,也就是 AI agents,它能够像真人一样网上冲浪,阅读理解在线网页,输出结构化数据或者知识图谱。

2024-01-19 16:50:16 1156

原创 PulsarRPA - 适用于网络爬虫和 AI agents 的高性能分布式 RPA

PulsarRPA 是一款高性能分布式 RPA,像真人一样访问网站,和真人一样和页面进行交互,确保所有信息均完整呈现。PulsarRPA 可以采集任何人类可见数据、页面源代码中存在的数据、或者任何其他流经浏览器的数据流。在确保所有信息完整精确被采集的同时,PulsarRPA 保证总体性能、数据质量和总体拥有成本。

2024-01-19 16:16:25 716

原创 PulsarRPA 教程 14 - REST服务

当 PulsarRPA 作为 REST 服务运行时,X-SQL 可用于随时随地采集网页或直接查询 Web 数据,无需打开 IDE。它就像是升级版的 Google 搜索框:将关键词查询升级为 SQL 查询。

2022-11-04 10:56:11 240 1

原创 PulsarRPA 教程 16 - 顶尖项目实战

Exotic Amazon 是采集整个 TOP 1 网站的完整解决方案,开箱即用,包含亚马逊大多数数据类型,它将永久免费提供并开放源代码。其他电商平台数据采集,其方法和流程基本类似,可以在该项目基础上修改调整业务逻辑即可,其基础设施解决了所有大规模数据采集面临的难题。

2022-11-04 10:54:56 796 3

原创 PulsarRPA 教程 15 - 控制台

Exotic 可以从网站学习,自动生成所有提取规则,将 Web 当作数据库进行查询,完整精确地交付规模化的 Web 数据。

2022-11-04 10:51:36 427

原创 PulsarRPA 教程 13 - AI 自动提取

PlatonAI 的算法能够 100% 无人干预将网页变成数据 -- 不需要配规则,甚至也不需要机器学习训练,它是无监督机器学习驱动的,像人一样去阅读理解互联网。

2022-11-04 10:41:46 660

原创 PulsarRPA 教程 9 - 机器人流程自动化(RPA)

网络数据采集非常困难,网站经常变化并且变得越来越复杂,采集的数据通常不准确或不完整。Scrapy, requests 等,已经越来越不适应现代网页了。在这个背景下,浏览器自动化技术,以及 RPA 技术就是解决问题的良方,它代替人工访问网页,执行和人工同样的动作,采集人能够看到的一切数据。

2022-11-04 10:40:32 648

原创 PulsarRPA 教程 10 - WebDriver

WebDriver 定义了一个简洁的界面来访问网页并与之交互,所有的动作和行为都经过优化,尽可能地模仿真人,比如滚动、点击、键入文本、拖放等。

2022-11-04 10:39:41 574

原创 PulsarRPA 教程 11 - 大规模采集

大规模提取 Web 数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整,PulsarRPA 开发了一系列尖端技术来解决这些问题。

2022-11-04 10:39:00 490

原创 PulsarRPA 教程 12 - X-SQL

PulsarRPA 开发了 X-SQL 来直接查询互联网,并将网页转换成表格和图表。X-SQL 扩展了 SQL 来管理 Web 数据:网络爬取、数据采集、数据提取、Web 内容挖掘、Web BI,等等。当 PulsarRPA 作为 REST 服务运行时,X-SQL 可用于随时随地采

2022-11-04 10:35:11 392

原创 PulsarRPA 教程 8 - 事件处理

事件处理机制提供了一种方法,可以在网页的整个生命周期中捕获和处理事件。

2022-10-31 12:40:59 267

原创 PulsarRPA 教程 7 - 连续采集

在 PulsarRPA 中,连续采集非常简单,只需要将链接提交到 UrlPool 就行了,采集循环会自动启动。而 PulsarRPA 的基础设施也会去确保数据质量、调度质量等核心问题。

2022-10-31 12:16:14 502

原创 PulsarRPA 教程 - 目录

为解决网络数据管理、多源异构数据融合、网络数据挖掘、网络数据采集等问题,开发了一系列基础设施和前沿技术:支持高质量的大规模数据采集和处理,支持网络即数据库范式,支持浏览器渲染并将其作为数据采集的首要方法,支持 RPA 采集,支持退化的单一资源采集,并计划支持最前沿的信息提取技术,提供了人工智能网页提取的预览版本。)是大规模采集 Web 数据的终极开源方案,可满足几乎所有规模和性质的网络数据采集需要。

2022-10-31 12:04:47 787

原创 PulsarRPA 教程 6 - Kotlin风格异步编程

Kotlin 处理异步代码的方法是使用协程,协程是可暂停计算的,即函数可以在某个点暂停执行,稍后再继续执行。协程的一个好处是,对于开发人员来说,编写非阻塞代码与编写阻塞代码本质上是一样的,编程模型本身并没有真正改变。

2022-10-31 12:03:40 311

原创 PulsarRPA 教程 5 - Java风格异步编程

PulsarRPA 丰富的 API 使得我们的绝大多数编程场景下,都能够使用一行代码解决“加载-解析-提取”。本文介绍如何使用 Java 风格的异步编程,来解决批量的网页采集问题。

2022-10-31 12:02:46 673

原创 PulsarRPA 教程 4 - URL

在 PulsarRPA 中,每个任务都被定义为某种形式的 URL,这些 URL 往往和一个加载参数一起出现,来精细控制一个采集任务,譬如数据过期,数据基本要求,任务截止日期,任务重试等。绝大多数情况下,一个数据采集任务可以用 **url arguments** 的形式来唯一确定,因此它可以很轻松地被拷贝、管理、存储、传输、并行化,以及沟通交流。

2022-10-31 12:01:47 392

原创 PulsarRPA 教程 3 - 数据提取

现代网页源代码变化非常频繁,但是一个网站的网页“看上去”不会变太多,从而保证一致的用户体验。这时候,从视觉特征去审视网页元素就特别有效。为了更好地从视觉特征和数字特征来看待网页,PulsarRPA 扩展了 CSS,从而可以从视觉特征和数字特征角度解决最复杂的现实问题。

2022-10-31 12:00:43 639

原创 PulsarRPA 教程 2 - 加载参数

PulsarRPA 使用简单的加载参数来精确描述一个采集任务,譬如数据生命周期,页面质量要求,任务截止日期,任务重试等。绝大多数情况下,一个数据采集任务可以用 url arguments 形式的文本来唯一确定,因此它可以很轻松地被复制、管理、存储、传输、并行化,以及沟通交流。

2022-10-31 11:58:59 561

原创 PulsarRPA 教程 1 - 基本用法

PulsarRPA 正确实现了两个方法:加载网页,提取数据。为了实现这个目标,PulsarRPA 增删近百万行代码,沉淀数十万行代码,开发了一系列尖端技术。PulsarRPA 实现网络即数据库范式,像对待内部数据库一样对待外部网络,如果需要的数据不在本地存储中,或者现存版本不满足分析需要,则系统会从互联网上采集该数据的最新版本。本课程介绍了加载数据和提取数据的基本 API,这些 API 出现在 PulsarSession 中。

2022-10-31 11:55:38 1371 5

原创 数学工程是下一个竞争壁垒

数学工程是下一个竞争壁垒。“数学工程”不是“工程数学”,而是指工程化地组织数学工具创建、数学理论研究、数学成果商业化。越来越多的数学工具被尝试用来解决神经网络问题和人工智能问题,譬如流形、纤维丛、共形几何、压缩感知等等,也有人尝试发明新的数学工具来描述智能问题,譬如“自描述微积分”。由于可用的数据规模越来越大,可用的软件工具越来越多,挖掘数学工具解决实际问题的可能性越来越大。

2022-10-31 11:08:53 153

原创 采集一次全网 40 亿网页的硬件支出的成本分析

采集全网一次的硬件支出大约是五百万人民币。今天,要采集一个网页的完整内容,至少需要用一个真实浏览器来访问它,还要不断和网页进行交互,等待所有数据完整加载,这就意味着单个网页的采集成本大大提高。

2022-10-20 14:27:34 238

原创 网络爬虫和网络数据管理的常见问题集合

采集、分析和融合非隐私公开数据有利于行业发展、数据要素流通和技术进步。爬虫的难点在于数据规模、数据质量、综合性能、人力维护成本、硬件支出等,这些难题构成了总体拥有成本的难题。PulsarR 为解决网络数据管理、多源异构数据融合、数据采集等问题,开发了一系列基础设施和前沿技术。

2022-10-20 14:12:51 618

原创 网络数据管理的应用场景,核心难题和解决方案

大规模提取 Web 数据、管理网络数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整。PulsarRPA 为解决网络数据管理、多源异构数据融合、大规模数据采集等问题,开发了一系列基础设施和前沿技术,为该问题提供了全新的、完整的解决方案。

2022-10-17 13:27:31 540

原创 学习网络爬虫和数据采集的一些建议

学习技术最好的方法是阅读源代码并动手写代码:阅读优秀成熟项目源代码和文档,跟随项目的示例程序和测试用例执行、修改、添加,最后尝试修改成熟项目的核心代码。

2022-10-17 12:15:35 657

原创 柏拉图如何工作?

柏拉图是一款网络数据处理工具,它能够 100% 无人干预就能将网页变成数据 -- 不需要配规则,甚至也不需要机器学习训练,它是无监督机器学习驱动的。

2022-10-06 21:15:03 226

原创 大规模网站数据采集的完整开源解决方案

在大规模数据采集场景下,往往面临诸多困难。现在,我们可以使用或者参考学习开放源代码的成熟解决方案 PulsarRPA。

2022-10-06 17:56:52 1420 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除