爬虫
xiaogeldx
这个作者很懒,什么都没留下…
展开
-
Queue 爬斗图啦
文章目录单线程单线程#!/usr/bin/env python# -*- coding: utf-8 -*-""" __title__ = 'test2' __author__ = '30905' __mtime__ = '2019/12/23 14:02' # code is far away from bugs with the god animal protectin...原创 2019-12-30 19:51:02 · 150 阅读 · 0 评论 -
scrapy框架(五)(未整理完)
下载中间件下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架他是一个轻量级的底层系统,用来全局修改scrapy的request和responsescrapy框架中的下载中间件,是实现特殊方法的泪scrapy系统自带的中间件被放在DOWNLOADER_MIDDLEWARES_BASE设置中用户自定义的中间件需要在DOWNLOADER_MIDDLE...原创 2019-01-23 01:24:31 · 209 阅读 · 0 评论 -
scrapy(四)
RequestScrapy.http.ResquestScrapy.http.Resquest类是scrapy框架中request的基类,它的参数如下:url(字符串)-此请求的urlcallback(callable)-回调函数method(string)-此请求的http方法,默认为getmeta(dict)-Request.meta属性的初始值body(str或Unicod...原创 2019-01-22 01:11:11 · 236 阅读 · 0 评论 -
Scrapy框架(一)
框架简介Scrapy是纯Python开发的一个高效,结构化的网页抓取框架Scrapy是一个为了爬取网站数据,提取结构型数据而编写的应用框架最初是为了页面抓取(更确切来说,网络抓取)所设计的,也可以应用在获取API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫Scrapy用途广泛,可以用于数据挖掘,监测和自动化测试Scrapy使用了Twi...原创 2019-01-20 00:51:20 · 410 阅读 · 0 评论 -
urllib,urllib3,爬虫一般开发流程
urlliburllib是一个用来处理网络请求的Python标准库,包含四个模块urllib.requests:请求模块,用于发起网络请求urllib.parse:解析模块,用于解析URLurllib.error:异常处理模块,用于处理request引起的异常urllib.robotparse:用于解析robots.txt文件urllib.request模块request...原创 2019-01-10 08:40:19 · 2483 阅读 · 0 评论 -
网页解析
beautiful soupBeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间官方中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful的安装也是非常方便的,pip安装即可pi...原创 2019-01-15 12:42:16 · 825 阅读 · 0 评论 -
scrapy(六)(未整理完)
媒体管道媒体管道特性媒体管道都实现了以下特性:避免重新下载最近下载的媒体指定存储位置(文件系统目录,Amazon S3 bucket,谷歌云存储bucket)将所有下载的图片转换为通用格式(JPG)和模式(RGB)生成缩略图检查图像的宽度/高度,进行最小尺寸过滤自定义图片管道案例他的工作流是这样的:在爬虫中,你可以返回一个item,并将所需的url放入file_u...原创 2019-01-25 01:51:39 · 112 阅读 · 0 评论 -
scrapy框架(三)
CrawlSpider创建CrawlSpider命令:scrapy genspider -t crawl hr.tencent hr.tencent.comurl就是想要爬去的网址注意:分析本地文件时一定要带上路径,scrapy shell默认当做url创建完hr_tencent.py文件的代码如下:import scrapyfrom scrapy.linkextractors i...原创 2019-02-17 23:00:59 · 135 阅读 · 0 评论 -
认识爬虫 http
HTTP与HTTPS应用架构互联网的飞速发展是商业经济推动的,目前几乎所有的商业应用都是基于互联网的,他们一般采用c/s架构,b/s架构或者m/s架构c/s即client server 客户端 服务端b/s即browser server 浏览器 服务端m/s即moblie server 移动端 服务端HTTP协议目前互联网上90%的网络传输都是基于http协议HTTP是Hyp...原创 2019-01-08 01:01:57 · 319 阅读 · 0 评论 -
scrapy框架(二)
Scrapy shellScrapy shell是用来调试scrapy项目代码的命令行工具启动的时候预定义了scrapy的一些对象作用:调试设置shellscrapy的shell是基于运行环境中的Python解释器shell本质上就是通过命令调用shell,并在启动的时候预定义需要使用的对象scrapy允许通过在项目配置文件“scrapy.cfg”中进行配置来制定解释器shel...原创 2019-01-17 23:52:05 · 213 阅读 · 0 评论 -
抓包工具 fiddler
HTTP代理所谓的http代理其实就是代理客户机的http访问,主要代理浏览器访问页面代理服务器是介于浏览器和web服务器之间的一台服务器,有了它之后浏览器不是直接到web服务器去取回网页而是向代理服务器发出请求,Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器利用socket开发一个简易版HTTP代理服务器import socketimpo...原创 2019-01-12 00:10:34 · 845 阅读 · 0 评论 -
requests库的使用
简介Requests是一个优雅而简单的Python HTTP库,专为人类而构建Requests是有史以来下载次数最多的Python软件包之一,每天下载量超过400000次之前的urllib作为Python的标准库,因为历史原因,使用方式可以说是非常的麻烦而复杂的,而且官方文档也十分的简陋,常常需要去查看源码相反,Requests的使用方式非常的简单,直观,人性化,让程序员的精力完全从库的...原创 2019-01-11 02:36:53 · 6591 阅读 · 0 评论