在之前的一篇文章中,我们使用RPA自动登录了艺赛旗社区,接下来要介绍的就是使用RPA,不写代码爬取文章信息。
一、提出问题
在登录的状态下,获取当前账号所发文章的标题、评论数以及浏览数,在不写代码的情况下实现。
二、问题分析
程序猿的解决思路是编写爬虫程序,依次爬取:
- 查找规律设置当前账号帖子页的URL
- 在帖子页依次获取每篇文章的URL
- 爬取每篇文章的标题、评论数以及浏览数
如若使用RPA,不写代码也是能够实现的,我们先分析普通用户在界面的操作流程:
- 点击账号头像进入个人主页的帖子页
- 点击每篇文章链接,进入该文章页面获取文章的标题、评论数以及浏览数
- 点击页码进入下一个帖子页,再获取每篇文章的信息
根据这个流程,我们便可以通过RPA进行模拟,在不编写代码的情况下爬取文章信息。
三、解决问题
Step 1、进入帖子页
鼠标点击当前账号头像进入个人主页的帖子页
Step 2、获取文章的信息
因为每个帖子页最多的文章数量为30篇,所以直接设置循环30次&#x