我的第二篇爬虫博客《爬虫简介二》

最新推荐文章于 2021-10-31 16:31:44 发布

金法杖

最新推荐文章于 2021-10-31 16:31:44 发布

阅读量410

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54113688/article/details/113281605

版权

HTTP的请求和响应

General 全部的

1.Request URL 请求的地址

2.Request Method 请求的方式（get post）

3.Response Headers 服务器的响应

Request Headers 服务器的请求

1.Host：（主机和端口号）对应的网址

2.Connection：（链接类型）

3.User-Agent：用户代理

4.Accept：（传输文件的类型）

5.referer：（页面的跳转处）

6.Cookie：（记录了用户相关的信息）

7.Query String Paramerers 请求地址的的参数

在这里插入图片描述

爬虫简介

什么是爬虫？简单一句话就是，代替人去模拟浏览器进行网页操作

为什么需要爬虫？为其他程序提供数据源

企业获取数据的方式？

1.公司自有的数据

2.第三方平台获取的数据

免费平台：百度指数

付费平台：数据堂

3.爬虫爬取的数据

python做爬虫的优势

1.PHP：对多线程、异步支持不太好

2.Java：代码量大、代码笨重

3.C/C++：代码量大，难以编写

4.Python：支持模块多、代码简介、开发效率高（scrapy框架）

爬虫的分类

1.通用网络爬虫例如：百度雅虎谷歌

2.聚焦网络爬虫：根据既定的目标有选择的抓取某一特定主题内容

几个概念

1.URL组成部分

URL:全球统一资源定位符

https://new.qq.com/omn/TWF20200/TWF2020032502924000.html

https：网络协议

new.qq.com：主机名，可以理解为一台主机名叫new.qq.com，这台主机在qq.com域名下

TWF2020032502924000.html:访问资源的路径

anchor：锚点，前端中用来做页面定位的

注意：在浏览器中请求一个URL，浏览器会对这个URL进行一个编码。（除英文字母、数字和部分标识，其他的全部用%加十六进制码进行编码）例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search

%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

2.User-Agent 用户代理

作用：记录了你浏览详细的信息包括：操作系统内核浏览器版本等例如： Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36

反反爬的第一步

3.referer 页面的跳转处

表明当前的这个网址从哪个URL过来的

反反爬

4.Status Code状态码

200：请求成功

301：永久重定向

302：临时重定向

404：请求失败

500：服务器内部请求

5.Cookie 记录了服务器相关的用户信息

http协议是无状态的什么是无状态？服务器无法判断用户的身份

Cookie实际上是一小段文本信息（key-value格式）

反反爬

作用：反爬模拟登录

抓包工具

1.Elements：元素网页源代码，提取数据和分析数据（有些特殊处理过的所以并不是都是准确的）

2.Console：控制台（打印信息）不多用

3.Sources：信息来源（整个网站加载的文件）也不多用

4.Net Work：网络工作（信息抓包）能够看到很多的网页请求

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我的第二篇爬虫博客《爬虫简介二》

HTTP的请求和响应General 全部的1.Request URL 请求的地址2.Request Method 请求的方式（get post）3.Response Headers 服务器的响应Request Headers 服务器的请求1.Host：（主机和端口号）对应的网址2.Connection：（链接类型）3.User-Agent：用户代理4.Accept：（传输文件的类型）5.referer：（页面的跳转处）6.Cookie：（记录了用户相关的信息）7.Query Stri
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。