爬虫之混淆

本文介绍了一种在爬虫中处理JavaScript混淆代码的技巧,通过读取`f2.js`文件,使用`re`模块和`subprocess`调用`nodepart.js`函数,实现对特定模式(如`D9(*)`)的匹配并进行反混淆替换。
摘要由CSDN通过智能技术生成

混淆是爬虫中经常遇到的,在这里记录一种遇到混淆可以用的方法。

混淆的开头一般都是一个列表,一个函数,把经过混淆的名称带入这个函数可以得到原来的名称。利用这一点可以反混淆。

import re
import subprocess


def exec_value(hex_string):
    res = subprocess.check_output(f"node part.js {hex_string}")
    char_string = res.decode('utf-8').strip()
    return char_string
print(exec_value(0x306))

def run():
    with open("./f2.js", mode='r', encoding='utf-8') as f1, open("./d.js", mode='w', encoding='utf-8') as f2:
        for line in f1:
            if not line:
                f2.write(line)
                continue
            match_list = re.findall(r"(D9\((.*?)\))", line)
            for total, arg in match_list:
                real_value = exec_value(arg)
                line = line.replace(total, f'"{real_value}"')
            f2.write(line)


if __name__ == '__main__':
    run()

在这段代码中使用时需要修改的

1js文件f2是读取的需要反混淆的js文件

2.正则表达式

3.js文件part.js是那个混淆的列表和可以还原的函数。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值