前言
网抑云评论区个个都是人才,这里的人说话又好听,我超喜欢这里的。
把评论抓取下来方便练习网抑,又练习了爬虫,一举两得
好,网抑开始
分析
首先,第一步肯定是打开网抑云网页,找到一首歌
歌曲下面的内容为评论,我们要获取的就是评论。
查看网页源代码,看看评论是否存在于源代码中,经过搜索,发现评论内容并不存在于源代码中,这时就需要使用浏览器的F12开发者工具了。
选项调到network,重新加载网页,寻找和评论相关的数据,发现在get链接中存在评论内容
再观察该链接的Headers
根据信息写出第一版脚本
import requests
import json
url = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="
data = {
'params': 'HpF+XPoFUsMj/Na79aMOIkUiRv988lVYmEFtskIGIkapDFKGQ1cMZ1thM+z+wOOjD9T7xHEn1RIprG/4Hig1JnjoE9b6ba34O1EQOZdk1/SojzFWmCjyOFF1SQILZC7lDoQiLR8fI76PiH0fzNWUyD7rjZnsgU7zt8GD+EvfLZGjUrjn+VCy8f9htBU3wJKNsFDq8qXe6k/8lTDrwxbQfFustll3Zfd5NpVHO77vTprn3lz5RWVPutlZsvc7NxPeMIyTt5tABjg7FlawpX8j2TiGt0HjukQXagnu8Ev/4J8Ox+2Oar3hnA0W3G0riUJaZQi5xlxhdTxtcPP4wtLzfsJOi8V2B5DhTFjQo53ujC0=',
'encSecKey': '1d1d8553270497244b0952974b1f46de6f5a746c5a931b3be0b565a15bcaccf5d9a03d6a709d925b9812d044ff49137601edf698bb1a89b5eb3fbf22af18fbc3b88b9fb3de52d5ca4dbd7cd384a8d7a403735dc688513d4f05aa4522f8bb63f28055db77d15fbdbec3f3d5f751920b9f0ef91f7cd15c551a52e18c47fcf5a12d'
}
headers = {
'referer': 'https://music.163.com/song?id=1404722668',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
res = requests.post(url, data = data, headers = headers)
#print(res.json())
comments_obj = json.loads(res.text)
for i in range(0,20):
nickname = comments_obj['data']['comments'][i]['user']['nickname']
content = comments_obj['data']['comments'][i]['content']
print(nickname + ':' + content + '\n')
获取到的评论内容
做到这时候突然发现好像有什么不对,回头再看看Preview返回的内容,只有20条评论,对比一下网页中显示的,每页显示的评论数正好是20
那么问题来了,我们要怎么获取所有的评论呢,点下一页看一看。
转到post提交的数据,发现和第一次的有些不同
经过对比,数据果然发生了改变
推测发送的数据params和encSecKey会通过服务器进行校验解密然后返回数据,在这之间一定会有加密过程存在,开始通过Initiator调用栈进行分析
首先跟踪最上层
设置断点
刷新网页,不断运行,直到断到https://music.163.com/weapi/comment/resource/comments/get
链接上
查看data数据,发现是params和encSecKey拼接形成的
进行栈回溯查找,发现u0x.be1x中含有疑似原始数据
经过不断尝试,发现在执行window.asrsea
这个函数前数据属于未加密状态,执行后变为加密数据
原始数据内容
csrf_token: "0fa785ecaed03aee0c1b9d20497d5a92"
cursor: "-1"
offset: "0"
orderType: "1"
pageNo: "1"
pageSize: "20"
rid: "R_SO_4_1404722668"
threadId: "R_SO_4_1404722668"
加密后数据
"params=vSIU7AHhdAImi%2FIDffKGZld9LLIMjY2L5qaO9LhutSLsRUdeXTmVzXzQ0o9rrO8OIpRQ36VDqF2T%2FhjcaL8lJmTX2mNTZ3jwlVfyUlqyUbPJ8eZ6HsBRV%2FhhCL08g2q%2BfnM9B6uXgUu%2F8Jg9Br2aDgxF0j7oQqyObKxSDzzHipCwaUpkHUqgWRfDFD7z2Fm%2FpMENZafgNS3DIEu6yfqb8Z8cJdmGokVX6PbfyfZmmnlk%2FYmLEYZyGHloKJTALpl%2FlhO17KtIOgYI3o6SmPvUFV7sKM9bF%2B6reMWNSRVlfcw69vx94j%2Fjmm74Opomn%2BqXAQaM1sLSfGUCNh5XL6xioG33ew%2FrRgFFwzF%2Fexbe%2BfQ%3D&encSecKey=36c1ac512ec8e631949ebdaec4852dbe0e752d6b4f7f748e7561034e18cf0368fff53ea1e7ace3fc8134521062294cb96f30243bd71c3fe044097a2f4daeff2da95b68d1fe843685a88d7dbb35871f200d70b57ef43cde2d14f72c41ecf703635d806f7cc2d9fc95113fac08f53869183692bc28bc89455eb35d9b31acdcf8d1"
找到了原始数据和被加密的数据,那么就来看一下它的加密函数是怎么实现的
搜索windows.asrsea函数,看看是怎么实现的
windows.asrsea = d
,发现和上面的a,b,c,d函数有关,下面来分析一下
#获取一个随机数
function a(a) {
var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
for (d = 0; a > d; d += 1)
e = Math.random() * b.length,
e = Math.floor(e),
c += b.charAt(e);
return c
}
#对数据进行AES加密
function b(a, b) {
var c = CryptoJS.enc.Utf8.parse(b)
, d = CryptoJS.enc.Utf8.parse("0102030405060708")
, e = CryptoJS.enc.Utf8.parse(a)
, f = CryptoJS.AES.encrypt(e, c, {
iv: d,
mode: CryptoJS.mode.CBC
});
return f.toString()
}
function c(a, b, c) {
var d, e;
return setMaxDigits(131),
d = new RSAKeyPair(b,"",c),
e = encryptedString(d, a)
}
function d(d, e, f, g) {
var h = {}
, i = a(16); #i是一个随机数
return h.encText = b(d, g), d = 原始数据,g是定值
h.encText = b(h.encText, i),
h.encSecKey = c(i, e, f),
h
}
四个参数
d: "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
e: "010001"
f: "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
g: "0CoJUm6Qyw8W8jud"
e,f,g三个参数都是定值,唯一有变动的就是d
function d(d, e, f, g) {
var h = {}
, i = a(16); #i是一个随机数
return h.encText = b(d, g), d = 原始数据,g是定值
h.encText = b(h.encText, i),
h.encSecKey = c(i, e, f),#i是定值,encSecKey就是定值
h
}
分析函数d,只要i不变,encText和encSecKey就会是一个确定的值,当i = xhuWOhpLu26crPWm时
encSecKey: "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText: "7i800NiAyzVreefGPMN7V+JWPvpswF2/db5DDJ6bDnCYaXRcNgMw2e9F/Ry5KVk/WyfOfK2JfPQvwbvQK1K3LWl2eSzZ09SVR+LAYGIfMnwl5aV6h9QFkX4vYLsSL+Qf4TQ53O971Gu/owtcITkqzn3Sspl1rQlJo1dKpomVMLvInvtCACpK5aYyn8TnVmesBH/2ZtylwdRxMAanTloa24ApRPtObxocitUN9ws4afN8DdnTYI+T4iND/72MfSu4/8+j/ttl7AYW10ZW66UrJzeoidZK570pgOXRGl0CAv4FfX/Gt4MC5NOJTmUV/NnbsE433nxqj20ZC+aw5wGFd2EqiYQN51LtuhZaLRs01SY="
encSecKey = c(i, e, f),i = xhuWOhpLu26crPWm ,encSecKey 就为下面的值
encSecKey = "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText是进行了两次AES加密得到的值,我们先用代码实现一下看看是否能根据传入的数据得到上述encText的值
在使用python AES加密的时候踩了坑:
1.不知道AES加密后的数据还需要使用base64进行编码
2.AES要加密的数据不足16位补位方式不同的问题
查找了一些文章帖子问题才得以解决
https://www.52pojie.cn/thread-1166953-1-1.html
https://blog.csdn.net/baidu_36831253/article/details/95630076
https://blog.csdn.net/BigBoy_Coder/article/details/106815637
根据分析逻辑,最后得到了确定的encText
代码如下:
from Crypto.Cipher import AES
from binascii import b2a_hex, a2b_hex
from base64 import b64encode
import json
def to_16(data):
pad = 16 -len(data) % 16
data += chr(pad) * pad
return data
data = {
'csrf_token': '',
'cursor': '-1',
'offset': '0',
'orderType': '1',
'pageNo': '1',
'pageSize': '20',
'rid': 'R_SO_4_1303289043',
'threadId': 'R_SO_4_1303289043' }
data1 = "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
def encrypt(data, key):
key = key.encode('utf-8')
mode = AES.MODE_CBC
iv = b"0102030405060708"
#iv = iv.encode('utf-8')
data = to_16(data)
cryptos = AES.new(key, mode, iv)
encrypt_data = cryptos.encrypt(data.encode('utf-8'))
b64_data = str(b64encode(encrypt_data), "utf-8")
return b64_data
def main():
key_g = "0CoJUm6Qyw8W8jud"
#jdata = json.dumps(data)
ecrypt_tmp_data = encrypt(data1, key_g)
#print(ecrypt_tmp_data)
key_i = "xhuWOhpLu26crPWm"
ecrypt_data =encrypt(ecrypt_tmp_data, key_i)
print(ecrypt_data)
if __name__ == '__main__':
main()
通过上述分析,我们已经可以构建data数据,然后发送加密的data数据到服务器,就会请求下来我们想要的评论内容了。
ps:很多请求的post数据都是通过windows.asrsea加密的
总结
文章主要记录分析思路和还原过程中遇到的问题,代码就不放了(ps:主要是嫌麻烦懒的写了)