python爬虫实战---爬取大众点评评论

最新推荐文章于 2024-08-05 16:50:32 发布

Python新世界

最新推荐文章于 2024-08-05 16:50:32 发布

阅读量1.1w

点赞数 10

文章标签： python Python编程编程语言

本文链接：https://blog.csdn.net/weixin_46089319/article/details/108268057

版权

本文介绍了一个Python爬虫实战项目，详细讲解如何爬取并解密大众点评评论中的加密字体，包括分析网页、获取加密CSS文件、找出正确的字体映射、建立字体与坐标的关系，并最终将解密后的评论保存到CSV文件。

摘要由CSDN通过智能技术生成

python爬虫实战—爬取大众点评评论（加密字体）

1.首先打开一个店铺找到评论

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

2.分析网页

查看到下面有些字体经过加密处理刷新页面会发现每一次加密的字体是不一样的
在这里插入图片描述

3.发送请求获取数据

查看网页源代码查看所有css 发现这个css就是我们想要用的文件那么现在我们就要用代码来获取到这个css文件的urlCookie自行更换
代码实现：

class DownComment:

    def __init__(self):
        # 爬取数据cookie user—agent
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6"
                          ") AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
            "Cookie": 'fspop=test; _lxsdk_cuid=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _lxsdk=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _hc.v=686b52bb-73c6-234a-0599-c881b393882d.1598238311; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1598238354; cityid=838; default_ab=index%3AA%3A3; switchcityflashtoast=1; s_ViewType=10; ll=7fd06e815b796be3df069dec7836c3df; ua=dpuser_7474971098; ctu=4cc4b902d60a40f51447c2d6d386233260a8f2e43bf520fb73056aa472dfbb35; aburl=1; Hm_lvt_dbeeb675516927da776beeb1d9802bd4=1598270129; Hm_lpvt_dbeeb675516927da776beeb1d9802bd4=1598270129; cy=1; cye=shanghai; dper=627d6236bc87ce08b3d5c48661e5572f504bcf9938fee451ebd4566d8234bc5b1ad10791c702986d1398b6a838a4e550619d42c3d68d02b0f53cf4ed5c38702b47d41ef5f7e7d368892b8be8a46b2eb844582afbcc419e5e28df0a92c1df589e; uamo=17643530928; dplet=7731f44d071e7840935794d1a9ae35d4; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1598342331; _lxsdk_s=1742497507a-072-c5-68e%7C%7C766'
        }
        # 爬取大众点评的url
        self.url = None
        # 页面返回的text
        self.text = None
        # css文件的内容
        self.css_content = None
        # css文件的url
        self.css_url = None
        # 取出的字体文件的内容
        self.svg_content = None
        # 用来存储每一个字的映射关系的列表
        self.font_d_l = list()
        # 用来存储坐标映射
        self.position_l = list()
        # 字体位置
        self.position_list = list()
        # 数据
        self.data = list()


    def down_css(self):
        """
        获取css文件
        :return:
        """
        # 请求返回的text
        self.text = requests.get(self.url, headers=