【数据采集平台】教程-列表页采集

最新推荐文章于 2023-09-16 13:09:47 发布

勇敢牛牛_

最新推荐文章于 2023-09-16 13:09:47 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签：数据采集

本文链接：https://blog.csdn.net/wxgxgp/article/details/87892902

版权

14 篇文章 1 订阅

订阅专栏

使用教程——列表页采集

测试版

采集列表类型页面。列表类型是指：一个页面中只包含多条采集信息的页面，例如豆瓣影评列表：https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P ，这样的页面往往包含了分页信息，需要进行分页采集。

打开“配置中心” > “新建爬虫” > “列表页类型” 菜单，进入爬虫配置界面：

项	是否必填	说明	示例
爬虫名字	是	任意字符，不可与以有的爬虫名称重复	豆瓣影评采集
采集源	是	采集的网站名称	豆瓣
源页面	是	要采集的源链接，必须为规范的url，且必须包含一个页变量	https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P
起始页	是	起始页码	1
结束页	是	结束页码	10
页增量	是	页码的增量，默认为1，针对于某些以非页数参数分页的，而是用数据起始位置分页的情况，例如豆瓣影评列表就是如此	20
线程数	是	一个爬虫所启用的线程数，最大值为3	1
允许JS	否	启用JS可以采集动态网页，但是采集速度将会变慢，默认不启用	不启用
描述	否	任意值，对爬虫的表述	这是一个微信文章爬虫

基本配置完成后，点击“下一步”进行采集规则配置。

页变量说明：

页变量是为了自动分页采集而要求的，页变量必需为“{变量名}”的形式，变量名可以任意，系统将自动替换变量为页码。

举例：

《流浪的地球》豆瓣影评列表第二页的URL为：https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P ，这里的start=20即为分页参数，20表示当前页的第一条数据的偏移量为20。设置页变量为page，则符合规范的url如下：https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P

页增量说明：

页增量是针对于某些以非页数参数分页的，而是用数据起始位置分页的情况。例如上边举例的

项	是否必填	说明	示例
字段code	是	采集字段唯一标识，同一个爬虫中的字段code不可重复	title
字段标题	是	采集字段唯的名称	文章标题
采集规则	是	采集规则，使用css选择器，很重要。	.div > .title
采集类型	是	TEXT：采集文本内容，HTML：采集HTML内容，ATTR：采集属性值，当选择ATTR时，下面的属性值必填	TEXT
属性值	否	当采集类型为ATTR时必填，其他情况不填	href
非空字段	否	是否为非空字段，若是，则当该字段为空时，数据将不会被保存	否
去重字段	否	是否是去重字段，若是则会更具该字段进行去重，重复的数据将不会被保存	否

采集规则配置完成后，点击“下一步”，选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫，需要在“数据采集” > “状态管理” 中找到刚配置的爬虫，点击“启动”。

关注