【爬虫1】爬虫和反爬虫介绍

Jacob.Dev

已于 2022-04-13 19:31:24 修改

阅读量247

点赞数

分类专栏：爬虫干货知识文章标签：爬虫 python

于 2022-04-13 19:19:30 首次发布

本文链接：https://blog.csdn.net/weixin_47459990/article/details/124155483

版权

爬虫干货知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

@Author：Yakup
@Date：2021/5/10
@E-mail：spider1123@126.com
@Software：Visual Studio Code

1、爬虫简介

什么是爬虫？

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫的价值：

实际应用
就业

爬虫究竟是合法还是违法的？

在法律中是不被禁止的
具有违法风险
善意爬虫、恶意爬虫

爬虫带来的风险可以体现在如下2方面：

爬虫干扰了被访问网站的正常运营
爬虫抓取了受到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢？

时常优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私、商业机密等敏感内容需要及时停止爬取或传播

爬虫在使用场景中的分类

通用爬虫：
- 抓取系统重要组成部分，抓取的是一张页面数据。
聚焦爬虫：
- 是建立在通用爬虫的基础之上，抓取的是页面中特定的局部内容
增量式爬虫：
- 检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

反爬机制

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

1）UA检测（User-Agent检测）：

门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（爬虫），则服务器端就很有可能拒绝该次请求。

2）Headers反爬虫：Cookie、Referer、User-Agent

3）IP限制：网站根据IP地址访问频率进行反爬,短时间内进制IP访问

4）Ajax动态加载：从url加载网页的源代码后,会在浏览器执行JavaScript程序,这些程序会加载更多内容

5）对查询参数加密

6）对响应内容做处理

7）js加密时间戳加密算法等等

反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关数据

1）UA伪装（User-Agent伪装）：

让爬虫对应的请求载体身份标识伪装成某一款浏览器

2）抓取动态加载数据

从网页控制台–>Network分析获取ajax动态请求链接及请求方式、响应数据等

3）限制爬取的速度 --> time.sleep

4）使用代理ip隐藏身份

代理服务 - 快代理 / 讯代理 / 芝麻代理 / 蘑菇代理 / 云代理

洋葱路由 - 国内需要翻墙才能使用（不推荐）

yum -y install tor
useradd admin -d /home/admin
passwd admin
chown -R admin:admin /home/admin
chown -R admin:admin /var/run/tor
tor

robots.txt协议

君子协议。规定了网站中哪些数据可以被爬虫，哪些数据不可以被爬虫。

查看网站的robots.txt协议，如

www.taobao.com/robots.txt

http & https 协议

http协议

概念：就是服务器和客户端进行数据交互的一种形式。（超文本传输协议）

常用的请求头信息

User-Agent：请求载体的身份标识（载体—>如浏览器）
Connection：请求完毕后，是断开连接还是保持连接

常用的响应头信息

Content-Type：服务器端响应回客户端的数据类型

https协议

表示安全的超文本传输协议

数据加密方式：

对称密钥加密
非对称密钥加密
证书密钥加密