发现搜狐号作者栏目下是可以获取json数据的,然后直接输出,获得了内容页。发现内容页的图片是加密的。
F12,断点调式。便看出是AES加密,知道加密方法了。直接调用CryptoJS库解密就可以了!
加密模块AES ECB pkcs7 key是www.sohu.com6666
用python实现AES解密:
代码复制粘贴即可用
import base64
from Crypto.Cipher import AES
class EncryptDate:
def __init__(self, key):
self.key = key.encode('utf-8') # 初始化密钥
self.length = AES.block_size # 初始化数据块大小
self.aes = AES.new(self.key, AES.MODE_ECB) # 初始化AES,ECB模式的实例
# 截断函数,去除填充的字符
self.unpad = lambda date: date[0:-ord(date[-1])]
def pad(self, text):
"""
#填充函数,使被加密数据的字节码长度是block_size的整数倍
"""
count = len(text.encode('utf-8'))
add = self.length - (count % self.length)
entext = text + (chr(add) * add)
return entext
def encrypt(self, encrData): # 加密函数
res = self.aes.encrypt(self.pad(encrData).encode("utf8"))
msg = str(base64.b64encode(res), encoding="utf8")
return msg
def decrypt(self, decrData): # 解密函数
res = base64.decodebytes(decrData.encode("utf8"))
print(res)
msg = self.aes.decrypt(res).decode("utf8")
print(msg)
return self.unpad(msg)
text = 'Password0313!' # 待加密文本
key = '123' # 密钥
eg = EncryptDate(key) # 这里密钥的长度必须是16的倍数
res = eg.encrypt(text) # 加密函数
print(res)
res = eg.decrypt(res) # 解密函数
print(res)
然后集成到火车头,就可以正常按采集当前作者下所有文章了
原文来源:99资源库