TagUI RPA 抓取豆瓣电影TOP250

该内容描述了一个简单的爬虫程序,用于从豆瓣电影TOP250列表中提取每部电影的名称、年代、国籍和类型。通过循环遍历250部电影(每页25部,共10页),使用XPATH选取相关HTML元素,然后将数据保存到CSV文件中。
摘要由CSDN通过智能技术生成

目标:

获取电影名称、年代、国籍、类型,见下图红框

思路:

1、获取每页网址,通过循环方式实现,共10页,每页25条数据;

2、获取每一页的中,电影名称、年代、国籍、类型,通过XPATH实现

代码:

注意代码中变量  `card` ,两边的不是单引号,是 键盘左上角,1前面的键,我开始搞错了!

// 把cmd设置成UTF-8
run cmd /c chcp 65001

// 豆瓣电影TOP250  读取名称 年代  多页
// 思路:一是通过循环获取所有页面的网址;二是循环获取每个页面中所需内容;三是通过XPATH绝对路径实现
dump title,year1 to movie250.csv
for (n=0; n<=100; n=n+25)  //爬取所有 n<=225,25是每页25条数据
    https://movie.douban.com/top250?start=`n`&filter=
    wait 2
    //25是每页25条数据,循环25次
    for card from 1 to 25
        //读取电影名称到变量 title
        read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1] to title
        //显示电影名称
        show /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1]
        //读取年代、国籍、类型到变量 year1
        read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[2]/p[1]/text()[2] to year1
        //合并
        titlerow = [title,year1]
        write `csv_row(titlerow)` to movie250.csv

结果:

 

 比Python简单,供伙伴们学习交流!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值