python使用正则表达式多次（二次）匹配内涵吧多页数据

最新推荐文章于 2023-05-30 15:00:37 发布

十三先生po

最新推荐文章于 2023-05-30 15:00:37 发布

阅读量971

点赞数

分类专栏：爬虫文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_55579895/article/details/120422071

版权

完善了一些问题:

编码问题：使用cchardet模块获取编码格式，并将赋予该格式实参，成为类的一个属性
有一些奇怪的编码如“……”：第二次使用正则匹配将这些编码按照规律找不来，使用sub方法替换

# 获取内涵吧多页 段子内容
from typing import Type
import requests
import re
from user_agent import headers
import cchardet

# 完善的一些问题:
# 1 编码问题：使用cchardet模块获取编码格式，并将赋予该格式实参，成为类的一个属性
# 2 有一些奇怪的编码如“&hellip;&hellip;”：第二次使用正则匹配将这些编码按照规律找不来，使用sub方法替换

class Neihan(object):
    '''内涵吧数据获取'''
    def __init__(self):
        self.url = 'https://www.neihanba.com/dz/'  
    #     self.proxies = {
    #     'http':'182.84.144.66:3256'
    # }
        # 匹配规则
        '''第一次数据匹配'''
        self.con = re.compile('<div class="f18 mb20">(.*)</div>')
        '''第二次数据匹配（用于第二次数据处理）'''
        self.con2 = re.compile('&(

最低0.47元/天解锁文章

十三先生po

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python使用正则表达式多次（二次）匹配内涵吧多页数据

完善了一些问题:编码问题：使用cchardet模块获取编码格式，并将赋予该格式实参，成为类的一个属性有一些奇怪的编码如“……”：第二次使用正则匹配将这些编码按照规律找不来，使用sub方法替换# 获取内涵吧多页段子内容from typing import Typeimport requestsimport refrom user_agent import headersimport cchardet# 完善的一些问题:# 1 编码问题：使用cchardet模块获取编码格式，并将赋予
复制链接

扫一扫