之前写爬虫一直都是用的 Scrapy,强大而高效,直到后来接触了 RPA,呃,还是蛮适合新手的。
1、获取文章标题和链接
获取文章标题直接用“获取文本”就可以了。
但获取链接,就需要使用“获取控件 html”这个组件,然后使用正则表达式了。
import re
message = '<a class="ft-a-title" href="https://support.i-search.com.cn/article/1587024373494" rel="bookmark" data-type="0" data-id="1587024373494">艺赛旗RPA控制台与机器人的建议
</a>'
res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
url = re.search(res_url ,message).group(