python爬虫基本反爬

休眠键盘

已于 2022-12-28 17:48:14 修改

阅读量1.9k

点赞数

文章标签： python 爬虫开发语言

于 2022-12-28 17:14:50 首次发布

本文链接：https://blog.csdn.net/weixin_73513579/article/details/128469988

版权

本文介绍了Python爬虫的基本反爬措施，包括设置User-Agent、添加休眠时间以模拟人为操作、处理大批量数据时避免IP被封，以及如何使用代理IP。设置User-Agent可以避免服务器识别为非浏览器请求，而休眠时间可以防止短时间内大量请求。当IP被封禁时，可以考虑使用代理IP来继续爬取。

摘要由CSDN通过智能技术生成

一最基本的User-Agentyan验证

如果通过程序向目标网站发送请求且不设置任何请求参数，服务器得到请求会识别为非人为通过浏览器请求，这种情况下大可能会被浏览器拒绝请求。（请求状态码非200，服务器拒绝访问）

设置请求头headers-UA参数：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

基本的headersUA参数。

如果我们需要请求大批量的数次，使用同一个浏览器和同一个环境设备，User-Agent基本不会变的。一些网站服务器反爬手段敏感强度高，也会拒绝访问。

在python中可以使用一个第三方库获取UA数值：

进入终端输入： pip install faker.

安装完成后实例对象：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

休眠键盘

关注关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
python爬虫基本反爬

爬虫反爬，学习者需要注意点。
复制链接

扫一扫

python爬虫，记录一次字体反爬的过程

weixin_42866931的博客

12-03

345

之前听说过这种比较厉害的手段，昨天算是领教到了，弄了大半天原理，寻找映射关系，看了好些个案例，有汽车之家，58同城，猫眼电影等案例。其实，思路是大致一样的，寻找映射关系，总会有不变的地方。先看下网站源码和显示的区别。每次刷新源码的数字都会变化，但是显示的数据是不变的。查看后发现是base64加密，自定义了字体，转换了数字，0-9，对应不一样的数字。下图就是自定义的字体的字符串，直接复制到最后括号")“之前，以”="号结束。然后通过fonttools工具转换成字体文件（.ttf，woff）等文件形式

Python爬虫——反爬

weixin_30906425的博客

04-08

517

反爬概述网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。他们根据ip访问频率，浏览网页速度，账户登录，输入验证码，flash封装，ajax混淆，js加密，图片等技术，来应对网络爬虫。防的一方不惜成本，迫使抓的一方在...

1 条评论您还未登录，请先登录后发表或查看评论

最全一次Python爬虫实战，解决反爬问题！_多多防爬，2024年最新一线互联网公司java面试

2401_84140628的博客

05-13

1170

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

python“反反爬虫”

sunshine2304的博客

02-27

1188

反爬虫的方式有：不返回网页、返回数据非目标网页、增加获取数据的难度。

Python反反爬虫的方法有哪些？

07-18

1555

使用穿云API可以有效地解决一些反爬虫难题，特别是对于那些具有高度复杂的反爬虫机制的网站。通过使用穿云API，我们可以将反爬虫的难度转移到云端，极大地降低了本地程序的复杂性和资源消耗。通过合理设置这些参数，可以绕过简单的反爬虫检测。通过分析关键词和问题的提出，本文将详细介绍常见的反反爬虫技术，如动态网页爬取、用户代理轮换、请求头伪装、验证码识别等，并探讨如何应用穿云API来增强爬虫程序的稳定性和智能化。反爬虫机制通常会检测爬虫程序的用户代理信息，通过定期更换用户代理，可以减少被识别为爬虫的概率。

Python爬虫这六个最常见的反爬虫小技巧，你一定要知道!

世上本无鬼

09-16

1221

想要成为Python开发工程师，一定要掌握相应的反爬技术，爬虫不仅会占用大量的网站流量，造成有真正需求的用户无法进入网站，同时也可能会造成网站关键信息的泄漏，虽然是这么说，但是当我自己去爬取一些网站，真香，所以只要不干违法的，爬虫是真的很有趣。下面为大家提供几种可行的反爬虫方案: 1、通过user-agent来控制访问 user-agent能够使服务器识别出用户的操作系统及版本、cpu类型、浏览器类型和版本。很多网站会设置user-agent白名单，只有在白名单范围内的请求才能正常访问。所以在我们的爬虫代

python 爬虫反爬策略

01-20

Python爬虫与反爬策略是网络爬虫领域中不可或缺的一部分，因为随着网站对数据安全性和隐私保护的加强，很多网站开始采用各种手段防止被爬虫抓取数据。下面，我们将详细探讨这些反爬策略以及相应的应对方法。 1. **...

python爬虫 - 反爬之登陆状态二次验证.pdf

11-27

Python爬虫在面对网站的反爬机制时，经常会遇到登录状态的二次验证问题。这个问题主要涉及到网站如何确保爬虫程序无法轻易模拟用户登录并获取数据。在这个案例中，我们将深入探讨一个特定的反爬策略，它涉及到登录后...

Python爬虫基础知识和反爬机制（案例）

12-27

Python爬虫基础知识和反爬机制（案例） Python爬虫基础知识和反爬机制（案例） Python爬虫基础知识和反爬机制（案例） Python爬虫基础知识和反爬机制（案例） Python爬虫基础知识和反爬机制（案例） Python爬虫基础...

一个python爬虫反爬机制及具体实例

最新发布

06-11

### Python爬虫反爬机制详解及具体实例在进行网络数据抓取时，经常会遇到网站为了保护自身资源而设置的各种反爬措施。本篇文章将详细介绍常见的反爬机制，并通过一个具体的Python爬虫示例来展示如何有效应对这些...

python cookie反爬处理的实现

12-16

在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长且不是动态变化自动处理使用session机制使用场景:动态变化的cookie ...

python爬虫的一个常见简单js反爬详解

09-19

主要介绍了python爬虫的一个常见简单js反爬详解我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,需要的朋友可以参考下

Python 反爬虫与反反爬虫

小嗷犬的博客

09-08

2788

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到自己的猎物（所需要的资源），那么它就会将其抓取下来。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的链接，那么它就可以爬到另一张网上来获取数据。

反-反爬虫：用几行代码写出和人类一样的动态爬虫

weixin_33810006的博客

09-19

161

可能是最全的 Python 反爬虫及应对方案了

m0_59162248的博客

05-26

8995

爬虫是 Python 的一个常见应用场景，很多练习项目就是让大家去爬某某网站。爬取网页的时候，你大概率会碰到一些反爬措施。这种情况下，你该如何应对呢？本文梳理了常见的反爬措施和应对方案。

Python爬虫有哪些常见的反爬手段？

naer_chongya的博客

06-20

2395

Python爬虫作为一种自动化程序，对于一些需要大量抓取数据的场景非常有用。但是由于网站担心被爬虫非法获取数据，常会采取多种反爬手段，以阻挡或限制爬虫的工作。下面将介绍一些常见的反爬技术及相应的应对方法。

python 常见的反爬虫策略（转）

Zsanfeng的博客

10-10

2574

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站，不同网站的使用的验证码也不同，在最开始使用简单验证码，识别数字，但是随着反爬的不断发展，慢慢设计出了更多复杂的验证码，比如：内容验证码、滑动验证码、图片拼接验证码等等。js加密的原理：服务器响应给浏览器的js文件，可以动态的生成一些加密参数，浏览器会根据js的计算得到这些参数，在请求中带入进来，如果请求中没有这些参数，那么服务器就任务请求无效。网上有很多打码平台，通过注册账号，调用平台接口，进行验证码的验证。

Python中常见的反爬机制及其破解方法总结

2301_80240808的博客

12-02

2068

一、常见反爬机制及其破解方式二、调用三方API接口数据（天行数据）三、OCR（光学文字识别）库四、第三方打码平台（超级鹰打码平台）五、通过接码平台接收手机验证码(隐私短信平台) 仅提供参考思路，网站在不断更新

Python反爬之破解动态页面（一）

Fourierrr_的博客

04-13

2042

前言可能很多同学看到关于动态页面的反爬（比如基于Ajax的网页）第一反应就是selenium+headless browser，这个方法好是好，然而是基于真实的浏览器，虽然没有界面，但是也占用很多内存。小型的测试用selenium的确不错，但是一旦业务量大起来了，需求复杂了，甚至需要分布式爬虫操作时，这个方法对于内存的开销实在受不了。那么有不用selenium的方法吗？当然有，今天就教大家硬刚基于...

python爬虫反反爬

09-09

为了应对爬虫被网站的反爬虫机制所阻止的情况，可以采取一些反反爬的方法。其中一种常见的方法是模拟浏览器行为，使用Python库如Selenium或Pyppeteer来自动加载动态内容，并提取所需数据。这种方法可以绕过一些简单的反爬虫机制。另外，还可以设置合适的请求头信息，包括User-Agent和Referer等字段，以模拟真实浏览器的请求。同时，可以使用代理IP来隐藏真实IP地址，避免被封禁。此外，可以使用随机延时和随机访问顺序来模拟人类的行为模式，降低被识别为爬虫的概率。此外，还有一些高级的反反爬技术，例如使用验证码识别技术来自动解决验证码，或者使用分布式爬虫架构和多个账号来进行数据采集，以减少被反爬虫机制发现的可能性。总之，针对Python爬虫被反爬虫机制所阻止的情况，可以采取上述方法进行反反爬处理，提高爬取数据的成功率。