看不懂别做爬虫-----python爬虫实战---大众点评评论

最新推荐文章于 2024-04-24 13:35:29 发布

置顶

VIP文章 Lemon_.

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量4.3k

点赞数 8

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44173603/article/details/108228722

版权

python爬虫实战—爬取大众点评评论（加密字体）

1.首先打开一个店铺找到评论

2.分析网页

查看到下面有些字体经过加密处理刷新页面会发现每一次加密的字体是不一样的
在这里插入图片描述

3.发送请求获取数据

查看网页源代码查看所有css 发现这个css就是我们想要用的文件那么现在我们就要用代码来获取到这个css文件的url Cookie自行更换
代码实现：

class DownComment:

    def __init__(self):
        # 爬取数据cookie user—agent
        self.headers = {
   
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6"
                          ") AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
            "Cookie": 'fspop=test; _lxsdk_cuid=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _lxsdk=1741e6d406ec8-07a55a88376aea-31657305-13c680-1741e6d406ec8; _hc.v=686b52bb-73c6-234a-0599-c881b393882d.1598238311; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1598238354; cityid=838; default_ab=index%3AA%3A3; switchcityflashtoast=1; s_ViewType=10; ll=7fd06e815b796be3df069dec7836c3df; ua=dpuser_7474971098; ctu=4cc4b902d60a40f51447c2d6d386233260a8f2e43bf520fb73056aa472dfbb35; aburl=1; Hm_lvt_dbeeb675516927da776beeb1d9802bd4=1598270129; Hm_lpvt_dbeeb675516927da776beeb1d9802bd4=1598270129; cy=1; cye=shanghai; dper=627d6236bc87ce08b3d5c48661e5572f504bcf9938fee451ebd4566d8234bc5b1ad10791c702986d1398b6a838a4e550619d42c3d68d02b0f53cf4ed5c38702b47d41ef5f7e7d368892b8be8a46b2eb844582afbcc419e5e28df0a92c1df589e; uamo=17643530928; dplet=7731f44d071e7840935794d1a9ae35d4; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1598342331; _lxsdk_s=1742497507a-072-c5-68e%7C%7C766'
        }
        # 爬取大众点评的url
        self.url = None
        # 页面返回的text
        self.text = None
        # css文件的内容
        self.css_content = None
        # css文件的url
        self.css_url = None
        # 取出的字体文件的内容
        self.svg_content = None
        # 用来存储每一个字的映射关系的列表
        self.font_d_l = list()
        # 用来存储坐标映射
        self.position_l = list()
        # 字体位置
        self.position_list = list()
        # 数据
        self.data = list()


    def down_css(self):
        """
        获取css文件
        :return:
        """
        # 请求返回的text
        self.text = requests.get(self.url, headers=self.headers).text
        # 使用xpath取出所有link中的链接
        x = etree.HTML(self.text)
        css_list = x.xpath('//link/@href')
        self.css_url = 'https:' + str(re.findall('//s3plus\.meituan\.net.+?\.css', ' '.join(css_list))[0])

在这里插入图片描述

4.继续分析我们需要的东西

打开这个css文件发现上一个页面加密的字体的类在这个css文件中可以用查找到后面有对应的坐标
在这里插入图片描述

5.尝试在css中找寻字体文件

查询css文件中有没有我们想要的字体文件 command + f 或者 ctrl
+f 查询发现文件中有三个字体文件分别打开三个文件的url 发现只有一个字体映射文件是正确的在这里插入图片描述

6.找出正确的字体文件

打开三个字体文件的url 发现正确的就是最多的也就是最大的一个文件我们不能凭着url来判断哪个字体文件更大所以要访问根据返回的数据来判断正确的文件是哪个接下来就要访问url来获取字体文件的内容然后将最大的字体文件内容存储起来方便替换

    def down_svg(self):
        """
        下载字体文件
        :return:
        """
        # css请求返回的text
        self.css_content = requests.get(self.css_url, headers=self.headers).text
        # 使用正则取出
        svg_list = re.findall(r"background-image: url\((.+?)\);", self.css_content)
        svg_url = ["https:{}".format(svg) for svg in svg_list]

        # 下载最大的svg文件
        length_d_l =

最低0.47元/天解锁文章

Lemon_.

关注

8
点赞
踩
86

收藏

觉得还不错? 一键收藏
14
评论
看不懂别做爬虫-----python爬虫实战---大众点评评论

爬取大众点评评论首先打开一个店铺找到评论查看到下面有些字体经过加密处理刷新页面会发现每一次加密的字体是不一样的查看网页源代码查看所有css 发现这个css就是我们想要用的文件那么现在我们就要用代码来获取到这个css文件的urlclass DownComment: def __init__(self): # 爬取数据cookie user—agent self.headers = { "User-Agent": "Mozi
复制链接

扫一扫