python爬虫实战—爬取大众点评评论(加密字体)
1.首先打开一个店铺找到评论
2.分析网页
查看到下面有些字体经过加密处理 刷新页面会发现 每一次加密的字体是不一样的
3.发送请求获取数据
查看网页源代码 查看所有css 发现这个css就是我们想要用的文件 那么现在我们就要用代码来获取到这个css文件的url Cookie自行更换
代码实现:
class DownComment:
def __init__(self):
# 爬取数据cookie user—agent
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6"
") AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
"Cookie": 'fspop=test; _lxsdk_cuid=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _lxsdk=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _hc.v=686b52bb-73c6-234a-0599-c881b393882d.1598238311; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1598238354; cityid=838; default_ab=index%3AA%3A3; switchcityflashtoast=1; s_ViewType=10; ll=7fd06e815b796be3df069dec7836c3df; ua=dpuser_7474971098; ctu=4cc4b902d60a40f51447c2d6d386233260a8f2e43bf520fb73056aa472dfbb35; aburl=1; Hm_lvt_dbeeb675516927da776beeb1d9802bd4=1598270129; Hm_lpvt_dbeeb675516927da776beeb1d9802bd4=1598270129; cy=1; cye=shanghai; dper=627d6236bc87ce08b3d5c48661e5572f504bcf9938fee451ebd4566d8234bc5b1ad10791c702986d1398b6a838a4e550619d42c3d68d02b0f53cf4ed5c38702b47d41ef5f7e7d368892b8be8a46b2eb844582afbcc419e5e28df0a92c1df589e; uamo=17643530928; dplet=7731f44d071e7840935794d1a9ae35d4; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1598342331; _lxsdk_s=1742497507a-072-c5-68e%7C%7C766'
}
# 爬取大众点评的url
self.url = None
# 页面返回的text
self.text = None
# css文件的内容
self.css_content = None
# css文件的url
self.css_url = None
# 取出的字体文件的内容
self.svg_content = None
# 用来存储每一个字的映射关系的列表
self.font_d_l = list()
# 用来存储坐标映射
self.position_l = list()
# 字体位置
self.position_list = list()
# 数据
self.data = list()
def down_css(self):
"""
获取css文件
:return:
"""
# 请求返回的text
self.text = requests.get(self.url, headers=self.headers).text
# 使用xpath取出所有link中的链接
x = etree.HTML(self.text)
css_list = x.xpath('//link/@href')
self.css_url = 'https:' + str(re.findall('//s3plus\.meituan\.net.+?\.css', ' '.join(css_list))[0])
4.继续分析我们需要的东西
打开这个css文件 发现上一个页面加密的字体的类 在这个css文件中可以用查找到 后面有对应的坐标
5.尝试在css中找寻字体文件
查询css文件中 有没有我们想要的字体文件 command + f 或者 ctrl
+f 查询 发现文件中有三个字体文件 分别打开三个文件的url 发现只有一个字体映射文件是正确的
6.找出正确的字体文件
打开三个字体文件的url 发现正确的就是最多的 也就是最大的一个文件 我们不能凭着url来判断哪个字体文件更大 所以要访问 根据返回的数据 来判断正确的文件是哪个 接下来就要访问url来获取字体文件的内容 然后将最大的字体文件内容存储起来 方便替换
def down_svg(self):
"""
下载字体文件
:return:
"""
# css请求返回的text
self.css_content = requests.get(self.css_url, headers=self.headers).text
# 使用正则取出
svg_list = re.findall(r"background-image: url\((.+?)\);", self.css_content)
svg_url = ["https:{}".format(svg) for svg in svg_list]
# 下载最大的svg文件
length_d_l =