爬虫
埋首沉迷.
有意义就是好好活,好好活就是做有意义的事
展开
-
scrapy框架基础
scrapy框架基础一、Scrapy Shell1.简介Scrapy Shell是用来调试Scrapy项目代码的命令行工具,启动的时候预定义了Scrapy的一些对象Scrapy Shell的作用:调试2.设置Scrapy 的shell是基于运行环境中的python 解释器shell,本质上就是通过命令调用shell,并在启动的时候预定义需要使用的对象scrapy允许通过在项目配置文件...原创 2019-11-29 15:35:23 · 836 阅读 · 2 评论 -
scrapy框架入门
scrapy框架入门一、Scrapy框架介绍1.框架简介Scrapy是纯Python开发的一个高效,结构化的网页抓取框架Scrapy使用了Twisted 异步网络库来处理网络通讯Scrapy是为了爬取网站数据,提取结构性数据而编写的应用框架Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试2.模块安装scrapy支持Python2.7和python3.4以上版本pyth...原创 2019-11-29 15:34:24 · 440 阅读 · 2 评论 -
User-Agent
User-AgentUser Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识,通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计0.User-Agent池MY_USER_AGENTS = [ ...原创 2019-11-29 15:32:45 · 869 阅读 · 0 评论 -
fiddler抓包工具
fiddler抓包工具一、fiddler1.安装Fiddler官方网站下载安装:https://www.telerik.com/fiddlerFiddler在官网上有提供非常详细的文档和教程,可直接查阅官网文档2.配置抓包工具抓取HTTPS的包的时候跟HTTP的直接转发是不同的,所以需要配置HTTPS的证书:Tools》options》HTTPS》勾上所有选项》勾选上下方出现的两个选项...原创 2019-11-29 15:31:30 · 364 阅读 · 0 评论 -
requests库
requests库一、简介1.简介Requests是一个优雅而简单的Python HTTP库,是有史以来下载次数最多的Python软件包之一,作者是Kenneth Reitz2. 安装pip install requests3.官方文档中文文档:http://cn.python-requests.org/zh_CN/latest/英文文档:http://docs.python-re...原创 2019-11-29 15:26:32 · 217 阅读 · 0 评论 -
urllib库
urllib库一、urllib简介urllib 是一个用来处理网络请求的python内置标准库,它包含4个模块urllib.request:HTTP请求模块,用于模拟浏览器发起网络请求urllib.parse:解析模块,用于解析URLurllib.error:异常处理模块,用于处理request引起的异常urllib.robotparser:用于解析robots.txt文件,应用较少...原创 2019-11-29 15:25:00 · 5058 阅读 · 0 评论 -
网络编程
网络编程一、网络模型1.osi 七层网络模型OSI模型,即开放式通信系统互联参考模型,是国际标准化组织(ISO)提出的一个试图使各种计算机在世界范围内互连为网络的标准框架,简称OSI。这是一种事实上被TCP/IP 4层模型淘汰的协议,在当今世界上没有大规模使用具体七层数据格式功能连接方式典型设备应用层用户的应用程序和网络之间的接口计算机表示层协商数据...原创 2019-11-29 15:23:50 · 297 阅读 · 0 评论 -
爬虫基础
爬虫基础一、HTTP基本原理1.应用架构c/s 即 client server 客户端 服务端b/s 即 browser server 浏览器 服务端m/s 即 moblie server 移动端 服务端2.URI和URLURI中文是统一资源标志符,URL中文是统一资源定位符URI包含URL和URN,URN用得非常少,URN只命名资源而不指定如何定位资源,发送http请求时,...原创 2019-11-29 15:10:30 · 224 阅读 · 0 评论