爬虫
池边的树
你有多渴望 你有多付出
展开
-
mac配置python+selenium+chromedriver
1、安装selenium pip install selenium 2、下载chromedriver chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html 根据chrome版本下载对应的chromedriver 下载后解压为chromedriver文件 3、将chromedriver移...原创 2019-02-22 14:12:33 · 1166 阅读 · 0 评论 -
scrapy设置headers,cookies
scrapy中有三种方式设置headers,cookies setting中设置cookie middlewares中设置cookie sipder文件中重写start_requests方法 这里记录第三种,重写start_requests方法,这里以豆瓣网为例 一、设置请求头headers 在start_request中新增 headers = { 'User-Agent'...原创 2019-02-23 19:16:44 · 13814 阅读 · 2 评论 -
scrapy框架实现豆瓣爬取热门短评
最近流浪地球的话题非常热,于是我想做一篇关于流浪地球的影评分析。首先要获取数据,于是这两天学习了一下scrapy框架并简单地实现了豆瓣热门点评的爬取。 思路是这样: 获取评论页面 查看评论页面,根据页面能提供的内容确定爬取数据指标 分析评论页面,查看所需数据所在位置 实现单页面抓取 实现单页面存储 完善代码,爬取所有页面 一、获取评论页面 1、进入豆瓣电影网页,在搜索框中输入流浪地...原创 2019-02-25 15:59:15 · 1723 阅读 · 0 评论