【数据采集平台】教程-列表页采集

使用教程——列表页采集

当前版本

测试版

列表页采集

功能

采集列表类型页面。列表类型是指:一个页面中只包含多条采集信息的页面,例如豆瓣影评列表:https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P , 这样的页面往往包含了分页信息,需要进行分页采集。

使用

打开“配置中心” > “新建爬虫” > “列表页类型” 菜单,进入爬虫配置界面:

基本配置:
是否必填说明示例
爬虫名字任意字符,不可与以有的爬虫名称重复豆瓣影评采集
采集源采集的网站名称豆瓣
源页面要采集的源链接,必须为规范的url,且必须包含一个页变量https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P
起始页起始页码1
结束页结束页码10
页增量页码的增量,默认为1,针对于某些以非页数参数分页的,而是用数据起始位置分页的情况,例如豆瓣影评列表就是如此20
线程数一个爬虫所启用的线程数,最大值为31
允许JS启用JS可以采集动态网页,但是采集速度将会变慢,默认不启用不启用
描述任意值,对爬虫的表述这是一个微信文章爬虫

基本配置完成后,点击“下一步”进行采集规则配置。

页变量说明:

页变量是为了自动分页采集而要求的,页变量必需为“{变量名}”的形式,变量名可以任意,系统将自动替换变量为页码。

举例:

《流浪的地球》豆瓣影评列表第二页的URL为:https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P ,这里的start=20即为分页参数,20表示当前页的第一条数据的偏移量为20。设置页变量为page,则符合规范的url如下:https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P

页增量说明:

页增量是针对于某些以非页数参数分页的,而是用数据起始位置分页的情况。例如上边举例的

配置规则:
是否必填说明示例
字段code采集字段唯一标识,同一个爬虫中的字段code不可重复title
字段标题采集字段唯的名称文章标题
采集规则采集规则,使用css选择器,很重要。.div > .title
采集类型TEXT:采集文本内容,HTML:采集HTML内容,ATTR:采集属性值,当选择ATTR时,下面的属性值必填TEXT
属性值当采集类型为ATTR时必填,其他情况不填href
非空字段是否为非空字段,若是,则当该字段为空时,数据将不会被保存
去重字段是否是去重字段,若是则会更具该字段进行去重,重复的数据将不会被保存
配置完成

采集规则配置完成后,点击“下一步”,选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫,需要在“数据采集” > “状态管理” 中找到刚配置的爬虫,点击“启动”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勇敢牛牛_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值