![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 71
包括Python爬虫,scrapy爬虫框架,java爬虫
王轩12
微信:Hao15206939743
QQ:2990069499
展开
-
scrapy中多个spider文件和多个items.py以及多个管道文件之间的对应
文章目录scrapy中多个spider文件和多个items.py以及多个管道文件之间的对应scrapy中多个spider文件和多个items.py以及多个管道文件之间的对应原创 2021-04-21 10:15:30 · 2184 阅读 · 3 评论 -
scrapy爬虫创建文件夹
scrapy爬虫创建文件遇到这样的目录时,需要按照对应的标题,创建不同的文件夹,将爬取的数据分门别类# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport os原创 2021-03-09 20:22:09 · 749 阅读 · 0 评论 -
selenium
文章目录seleniumselenium简介selenium的作用和工作原理安装和使用seleniumselenium简介selenium的作用和工作原理安装和使用pip install selenium安装driver1.获取浏览器版本原创 2021-03-05 18:07:43 · 1656 阅读 · 0 评论 -
scrapy
文章目录3.4 scrapy.Request的更多参数参数解释pipelines管道在settings配置文件中启用可以设置多个管道,数值越小,越先执行,值设置为1000以内import jsonclass MyspiderPipeline(object): def __init__(self): self.file = open('itcast.json','w') def process_item(self, item, spider): # 字典数据序列化原创 2021-03-05 18:07:15 · 480 阅读 · 0 评论 -
scrapy常见问题
文章目录scrapy常见问题dont_filter:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求scrapy如何使用多个items模型类scrapy常见问题dont_filter:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])dont_filter:默认为Fals原创 2021-03-05 18:06:35 · 413 阅读 · 0 评论 -
Scrapy爬虫模板——csvfeed
Scrapy爬虫模板——csvfeedscrapy startproject mycsvscrapy genspider -lscrapy genspider -t csvfeed mycsvspider "iqianyue.com"原创 2020-04-01 21:14:34 · 233 阅读 · 0 评论 -
Scrapy爬虫模板——XMLFeedSpider分析XML源
Scrapy爬虫模板——XMLFeedSpider分析XML源我们经常使用XMLFeedSpider去处理RSS订阅信息,什么是RSS呢?RSS是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容),面对扑面而来的新闻,不用再花费大量的时间冲浪和从新闻网站下载,只要通过下载或购买一种小程序,这种技术被称为简易信息聚合(RSS:Really Simple Syndication)。R...原创 2020-03-31 16:34:51 · 279 阅读 · 0 评论 -
爬虫之谷歌开发者工具介绍
爬虫之谷歌开发者工具介绍原创 2020-03-23 14:47:17 · 226 阅读 · 0 评论 -
scrapy入门之创建爬虫项目+scrapy常用命令
windows下载安装scrapy进入cmd模式,输入:pip install Scrapy也可以使用:pip install scrapy==1.1.0rc3 来安装对应版本的scrapy常见问题pip版本需要升级python -m pip install --upgrade pip创建一个scrapy 爬虫首先要使用scrapy 来创建一个爬虫项目,在cmd窗口进入用来存储新...原创 2020-03-24 22:20:25 · 16969 阅读 · 0 评论 -
编码解码问题.decode(encoding='gbk', errors='ignore')
编码解码问题在一次请求一个网页的过程中,遇到一个问题,代码如下:这是解决了问题之后的代码import urllib.requestheaders={'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'}request = urll...原创 2020-03-21 21:45:07 · 16019 阅读 · 0 评论 -
反爬
根据爬取行为进行反爬通过js实现跳转来反爬通过蜜罐陷阱来获取爬虫ip或代理进行反爬蜜罐陷阱:例如在网页中加入一个陷阱url,在利用网页属性将其隐藏,此时我们是看不到有这个url的爬虫程序在爬取时会获取这个url,并发起请求,此时网站管理人员只需要检查哪些IP访问了这个url,就可以断定哪些是爬虫。通过假数据进行反爬阻塞任务队列例如网页生成大量的垃圾url,阻塞网络IO例如在网页中放入一个十几个G的蓝光电影运维平台综合统计基于数据加密进行反爬图片验证码...原创 2021-02-07 18:19:56 · 1007 阅读 · 0 评论 -
jsonpath语法规则
文章目录jsonpath安装 pip install jsonpath使用jsonpath安装 pip install jsonpath使用from jsonpath import jsonpathret = jsonpath(a,'jsonpath语法规则')最常用语法: $ 根节点(最外层大括号). 子节点.. 内部任意位置,子孙节点from jsonpath import jsonpathdata={'key1':{'key2':{'key3':{'key4'原创 2021-02-03 21:30:47 · 530 阅读 · 0 评论 -
scrapy.Request和scrapy.FormRequest
scrapy.Request和scrapy.FormRequestscrapy爬虫注意点(1)—— scrapy.FormRequest中formdata参数–记一次严重的错误:在爬取艺龙网站的酒店信息时,遇到需要向服务器发送post请求的,用scrapy.Request怎么也请求不出来,但是requests模块就可以请求出来。解决办法是:我把 scrapy.Request 换成了 scrapy.FormRequest 就可以请求出来数据了,yield scrapy.FormRequest(原创 2020-11-14 16:13:32 · 873 阅读 · 0 评论 -
scrapy.Request请求地址返回400,但是用单独request模块请求同样的url返回正常
scrapy.Request请求地址返回400,但是用单独request模块请求同样的url返回正常出现的错误是:4002020-11-12 11:13:22 [scrapy.core.engine] DEBUG: Crawled (400) <POST http://hotel.elong.com/ajax/tmapilist/asyncsearch> (referer: http://hotel.elong.com/search/list_cn_0101.html)2020-11-12原创 2020-11-12 11:35:39 · 1715 阅读 · 3 评论 -
scrapy爬虫保存为csv或json文件
scrapy爬虫保存为csv或json文件导出为json或scv格式执行爬虫文件时添加-o选项即可scrapy crawl 项目名 -o *.csvscrapy crawl 项目名 -o *.json对于json文件,在setting.js文件里添加,设置编码格式,否则会乱码:FEED_EXPORT_ENCODING=‘utf-8’示例:from scrapy import cmdline cmdline.execute('scrapy crawl baidu -o baidu.csv'原创 2020-10-20 15:51:49 · 2053 阅读 · 0 评论