在爬取“安居客”网站时,本人主要遇到了2个问题:
1.网页数字加密
在浏览器里点击检查后,网页中显示数字的地方,在源代码中显示为加密后的乱码。
2.爬取部分内容后,requests无法访问报错。
这个报错,我在网上搜索了很多解决办法没有用(应该是访问过多,ip被封的原因)
解决方法
1.解密
(1)安装并倒入这几个库
from io import BytesIO
from fontTools.ttLib import TTFont
import base64
(2)从网页源代码中找到用于解码的代码
图中从bs4,之后到’)之间的内容,采用正则方式
import re
bs64_str = re.findall("charset=utf-8;ba