什么是爬虫
就是一个自动向服务器请求数据的并提取程序
按F12或者单击鼠标右键,点审查元素,在Elements由网站源代码
爬虫的基本流程
1.发送请求
通过http库向目标站点发送请求,及发送一个Request,请求包括header等信息,等待服务器响应
2.获取响应内容
如何服务器响应,就会返回一个Response,Response返回的内容就是页面要获取的内容
3.解析内容
得到的内容,可能是HTML,可以用正则表达式或网页解析库进行分析。可能是json,可以直接转换为json对象解析,可能是二进制文件,可以做保存或进一步处理
4.保存数据
保存数据多种多样,可以是文本,也可以是数据库,或者是特定的文本形式
什么是requests,response
你的电脑发送个服务器叫做resques
服务器做出处理发送个你的电脑叫做response
在打开审查元素是,点击network,在进行刷新,你可以看到一些你的电脑与服务器的一些交互内容(请求头,响应头,IP地址的信息)
request
请求方式
- 主要有get,post,另外还有head,put,delete等等
- get与post主要的不同在于:
- get:一个信息会显示在URL后面,赛选比较方便
post:数据在一个dateform内,需要进行验证与提交,比较安全 - URL请求:URL全称(统一资源定位符)如果一张网页,一张图片,一
- 段视频都可以用一个URL来确定
请求头:包含请求的头部信息,如User-Agent,Host,cookies等信息
请求体:请求时额外携带数据,如表单提交的表单数据(from data)
一般来说get方式下是不会携带如何数据的
如以下
Request URL: https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_92