连个字体反爬都搞不定？你还说你会爬虫？看完这篇就会了。

爬遍天下无敌手

已于 2022-02-17 11:45:20 修改

阅读量295

点赞数 1

分类专栏：程序员 Python 文章标签：爬虫 python 前端

于 2022-02-17 11:44:42 首次发布

本文链接：https://blog.csdn.net/weixin_43881394/article/details/122980021

版权

本文详细讲解了如何应对网站的字体反爬策略，通过分析网页源码、字体文件，利用fontTools库，解析汉字与特殊字符的对应关系，实现数据的正确抓取。案例展示了从需求分析到数据替换的完整过程。

摘要由CSDN通过智能技术生成

随着互联网的发展，Python的崛起，很多网站经常被外面的爬虫程序骚扰，有什么方法可以阻止爬虫吗？

阻止爬虫也就称之为反爬虫，反爬虫涉及到的技术比较综合，说简单也简单，说复杂也复杂，看具体要做到哪种保护程度了。

针对于不同的网站，它的反爬措施不一样，常见的反爬有User-Agent、ip代理、cookie认证,js加密等等，与之对应所保护的数据也不一样。比如某宝某猫等电商网站，那么店铺信息用户信息就比较重要了，像是某眼电影网站，它对于电影评分，票房等信息做了反爬处理。

我们今天的采集目标网站是某论坛，当对其文章的文本数据进行采集时，但是发现有字体反爬措施，就是有的文本数据被替换了。

一、需求分析

我们是需要爬取论坛文本数据，如下图所示：

部分网页源码展示：

我们发现文本数据是在网页源码里面的。

二、发起请求

import requests
url = "https://club.autohome.com.cn/bbs/thread/665330b6c7146767/80787515-1.html"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.7

最低0.47元/天解锁文章

爬遍天下无敌手

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
连个字体反爬都搞不定？你还说你会爬虫？看完这篇就会了。

随着互联网的发展，Python的崛起，很多网站经常被外面的爬虫程序骚扰，有什么方法可以阻止爬虫吗？阻止爬虫也就称之为反爬虫，反爬虫涉及到的技术比较综合，说简单也简单，说复杂也复杂，看具体要做到哪种保护程度了。针对于不同的网站，它的反爬措施不一样，常见的反爬有User-Agent、ip代理、cookie认证,js加密等等，与之对应所保护的数据也不一样。比如某宝某猫等电商网站，那么店铺信息用户信息就比较重要了，像是某眼电影网站，它对于电影评分，票房等信息做了反爬处理。我们今天的采集目标网站是某论
复制链接

扫一扫

专栏目录