使用scrapy框架+selenium自动化去爬取今日头条的内容
使用scrapy框架+selenium自动化去爬取今日头条的内容第一次写博客,结构可能会有点混乱。使用scrapy框架也是我玩爬虫的第一个实战项目当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。spider段代码其中值得注意的点有两个,1个是path里的chrome驱动路径设置为自己的chrome驱动路径,第2个是if循环中的判断条件self.num==5,这个是控制爬取文章列表那个浏览器的下滑阈值,有些时候报出list index out of range则需要下调阈值,这个是具体情况具体分
原创
2021-03-04 16:23:49 ·
893 阅读 ·
2 评论