python爬虫
zupzng
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫之pipelines(数据库和json)
数据存储第一种:本地jsonimport jsonclass JsonPipeline(object): def __init__(self): self.file = open('job.json','w',encoding='utf-8') def process_item(self, item, spider): line = json....原创 2018-04-22 00:13:44 · 735 阅读 · 0 评论 -
scrapy爬虫之pipelines图片下载
利用scrapy提供的专门处理下载的Pipeline(文件和图片下载),此原理与抓取页面原理一样,因此下载过程支持异步和多线程,下载十分高效。首先:定义存储文件的路径(settings中定义IMAGES_STORE变量) 如 IMAGES_STORE = './images' ,也可以用绝对路径from scrapy.pipelines.images import Image...原创 2018-04-22 16:45:20 · 588 阅读 · 0 评论 -
scrapy爬虫之爬取拉勾网职位信息
一.编写Itemimport scrapyclass LagouItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() positionId = scrapy.Field()#职位ID,作为辨识字段插入数据库 city = scrapy.F...原创 2018-04-21 16:34:17 · 451 阅读 · 0 评论 -
scrapy爬虫之反反爬虫措施
1.禁用Cookie部分网站会通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。在Scrapy中,默认是打开cookie的 (#COOKIES_ENABLED = False)设置为:COOKIES_ENABLED = False (cookie启用:no),对于需要cookie的可以在请求头中headers加入cookieclass LagouspiderSp...原创 2018-04-21 19:02:38 · 3211 阅读 · 0 评论