Windows环境下自动化爬虫搭建及数据清洗(Kettle)
根据业务需求,需要对Amazon电商平台中某个店铺下所有的SKU信息进行监控,数据更新周期为每天。
所使用的爬虫框架为scrapy,大致任务是从数据库中获取当前店铺的所有产品的ASIN,随后进行拼接产品url,爬取主要内容为产品星级、Rating数量、Reviews数量、大类排名及小类排名等。
自动化爬虫搭建步骤:
1.在爬虫脚本目录下构建autorun.bat,用于后续启动爬虫脚本,scrapy crawl 后面跟着的是spider文件里的name的值
2.按下Win+R,并且输入taskschd.m
原创
2021-05-10 16:08:48 ·
897 阅读 ·
3 评论