python爬虫实战—爬取大众点评评论(加密字体)
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771
查看到下面有些字体经过加密处理 刷新页面会发现 每一次加密的字体是不一样的
查看网页源代码 查看所有css 发现这个css就是我们想要用的文件 那么现在我们就要用代码来获取到这个css文件的urlCookie自行更换
代码实现:
class DownComment:
def __init__(self):
# 爬取数据cookie user—agent
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6"
") AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
"Cookie": 'fspop=test; _lxsdk_cuid=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _lxsdk=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _hc.v=686b52bb-73c6-234a-0599-c881b393882d.1598238311; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1598238354; cityid=838; default_ab=index%3AA%3A3; switchcityflashtoast=1; s_ViewType=10; ll=7fd06e815b796be3df069dec7836c3df; ua=dpuser_7474971098; ctu=4cc4b902d60a40f51447c2d6d386233260a8f2e43bf520fb73056aa472dfbb35; aburl=1; Hm_lvt_dbeeb675516927da776beeb1d9802bd4=1598270129; Hm_lpvt_dbeeb675516927da776beeb1d9802bd4=1598270129; cy=1; cye=shanghai; dper=627d6236bc87ce08b3d5c48661e5572f504bcf9938fee451ebd4566d8234bc5b1ad10791c702986d1398b6a838a4e550619d42c3d68d02b0f53cf4ed5c38702b47d41ef5f7e7d368892b8be8a46b2eb844582afbcc419e5e28df0a92c1df589e; uamo=17643530928; dplet=7731f44d071e7840935794d1a9ae35d4; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1598342331; _lxsdk_s=1742497507a-072-c5-68e%7C%7C766'
}
# 爬取大众点评的url
self.url = None
# 页面返回的text
self.text = None
# css文件的内容
self.css_content = None
# css文件的url
self.css_url = None
# 取出的字体文件的内容
self.svg_content = None
# 用来存储每一个字的映射关系的列表
self.font_d_l = list()
# 用来存储坐标映射
self.position_l = list()
# 字体位置
self.position_list = list()
# 数据
self.data = list()
def down_css(self):
"""
获取css文件
:return:
"""
# 请求返回的text
self.text = requests.get(self.url, headers=