爬虫基础知识

- 白鹿 -

已于 2022-09-17 17:29:46 修改

阅读量134

点赞数

分类专栏： python 爬虫文章标签：爬虫服务器 python

于 2021-04-20 11:55:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55742843/article/details/115900291

版权

python 爬虫专栏收录该内容

19 篇文章 3 订阅

订阅专栏

这里写目录标题

1：什么是爬虫
- 1.1：爬虫的模仿
2：为什么写爬虫
- 2.1：企业获取数据的方式
3：使用python做爬虫的优势
- 3.1：网站的语句
4：爬虫的分类
5：爬虫的几个常见概念
- 5.1：GET和POET请求
- 5.2：URL
6：其它知识

1：什么是爬虫

用来代替人去模拟浏览器进行操作的程序
总的来说就是使用程序来模拟人去网络上获取数据

1.1：爬虫的模仿

1：写的更接近人的实际行动
2：注意反反爬
3：添加请求头
4：注意节奏，爬取的速度太快的话会被网站网站封IP

2：为什么写爬虫

1：爬虫可以为其他的程序提供数据
2：可以在短时间内获取大量的数据
3：用于数据分析
3：Al、人工智能

2.1：企业获取数据的方式

1：公司自己用的
2：第三方平台购买的（百度制数–>免费）
3：爬虫开发程序员

3：使用python做爬虫的优势

1：支持的模块多
2：代码简介
3：开发效率高（scrapy框架）

3.1：网站的语句

site：可以观看一个网站收录了多少的数据

4：爬虫的分类

通用爬虫：百度
聚焦爬虫：爬虫开发要做的就是聚焦爬虫

5：爬虫的几个常见概念

5.1：GET和POET请求

GET和POST都是爬虫的一种请求方法
GET请求：只会从服务器获取数据，但是不会对服务器产生干扰，其参数可以在URL上看到
POST请求：会向服务器发送请求（登录，上传文件），会对服务器产生影响，它的参数不会出现在URL上

5.2：URL

URL：全球统一资源定位符
如：https://www.jianshu.com/writer#/notebooks/49957068/notes/86631582
https：协议
www.jianshu.com：域名（host）
余下的：访问资源的路径，
但是该URL省略了端口号443

6：其它知识

6.1：User-Agent

用户代理，反反爬的第一步
定义在一个字典中，User为键，Agent为值

6.2：header

头的意思，有请求头，和响应头

6.3：cookie

记录用户的相关信息
HTTP本身是无状态的，服务器无法判断用户的身份，cookie实际就是一段记录用户的文本信息
使用字典来保存cookie，键为cookie，值为文档字符串
cookie只是用来记录客户端的信息，在写爬虫的时候先别加，不行的时候再加

6.4：refer

表明当前的url是从那个地方过来的，是一种反反爬的技术

6.5：状态码(code)

200：表示请求成功
404：表示请求失败
301：永久重定向，如京东的网址
302：临时重定向

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。