TagUI RPA 抓取豆瓣电影TOP250

马车6

已于 2023-06-25 15:05:34 修改

阅读量169

点赞数 1

文章标签： rpa 开源

于 2023-06-25 10:52:04 首次发布

本文链接：https://blog.csdn.net/weixin_48164718/article/details/131372111

版权

该内容描述了一个简单的爬虫程序，用于从豆瓣电影TOP250列表中提取每部电影的名称、年代、国籍和类型。通过循环遍历250部电影（每页25部，共10页），使用XPATH选取相关HTML元素，然后将数据保存到CSV文件中。

摘要由CSDN通过智能技术生成

目标：

获取电影名称、年代、国籍、类型，见下图红框

思路：

1、获取每页网址，通过循环方式实现，共10页，每页25条数据；

2、获取每一页的中，电影名称、年代、国籍、类型，通过XPATH实现

代码：

注意代码中变量 `card` ,两边的不是单引号，是键盘左上角，1前面的键，我开始搞错了！

// 把cmd设置成UTF-8
run cmd /c chcp 65001

// 豆瓣电影TOP250  读取名称 年代  多页
// 思路：一是通过循环获取所有页面的网址；二是循环获取每个页面中所需内容;三是通过XPATH绝对路径实现
dump title,year1 to movie250.csv
for (n=0; n<=100; n=n+25)  //爬取所有 n<=225,25是每页25条数据
    https://movie.douban.com/top250?start=`n`&filter=
    wait 2
    //25是每页25条数据，循环25次
    for card from 1 to 25
        //读取电影名称到变量 title
        read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1] to title
        //显示电影名称
        show /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1]
        //读取年代、国籍、类型到变量 year1
        read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[2]/p[1]/text()[2] to year1
        //合并
        titlerow = [title,year1]
        write `csv_row(titlerow)` to movie250.csv