目标:
获取电影名称、年代、国籍、类型,见下图红框
思路:
1、获取每页网址,通过循环方式实现,共10页,每页25条数据;
2、获取每一页的中,电影名称、年代、国籍、类型,通过XPATH实现
代码:
注意代码中变量 `card` ,两边的不是单引号,是 键盘左上角,1前面的键,我开始搞错了!
// 把cmd设置成UTF-8
run cmd /c chcp 65001
// 豆瓣电影TOP250 读取名称 年代 多页
// 思路:一是通过循环获取所有页面的网址;二是循环获取每个页面中所需内容;三是通过XPATH绝对路径实现
dump title,year1 to movie250.csv
for (n=0; n<=100; n=n+25) //爬取所有 n<=225,25是每页25条数据
https://movie.douban.com/top250?start=`n`&filter=
wait 2
//25是每页25条数据,循环25次
for card from 1 to 25
//读取电影名称到变量 title
read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1] to title
//显示电影名称
show /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[1]/a/span[1]
//读取年代、国籍、类型到变量 year1
read /html/body/div[3]/div[1]/div/div[1]/ol/li[`card`]/div/div[2]/div[2]/p[1]/text()[2] to year1
//合并
titlerow = [title,year1]
write `csv_row(titlerow)` to movie250.csv
结果:
比Python简单,供伙伴们学习交流!