完善了一些问题:
- 编码问题:使用cchardet模块获取编码格式,并将赋予该格式实参,成为类的一个属性
- 有一些奇怪的编码如“……”:第二次使用正则匹配将这些编码按照规律找不来,使用sub方法替换
# 获取内涵吧多页 段子内容
from typing import Type
import requests
import re
from user_agent import headers
import cchardet
# 完善的一些问题:
# 1 编码问题:使用cchardet模块获取编码格式,并将赋予该格式实参,成为类的一个属性
# 2 有一些奇怪的编码如“……”:第二次使用正则匹配将这些编码按照规律找不来,使用sub方法替换
class Neihan(object):
'''内涵吧数据获取'''
def __init__(self):
self.url = 'https://www.neihanba.com/dz/'
# self.proxies = {
# 'http':'182.84.144.66:3256'
# }
# 匹配规则
'''第一次数据匹配'''
self.con = re.compile('<div class="f18 mb20">(.*)</div>')
'''第二次数据匹配(用于第二次数据处理)'''
self.con2 = re.compile('&(