爬虫获取失信被执行人信息

失信被执行人信息

失信被执行人信息分两部分:
个人信息出生月份及日期四位数是掩码展示,本博文爬取的是原始的掩码信息,如果想要进一步获取到不含掩码的个人身份信息,也不难,只是工作量大点而已

  1. 月份是01-12,日期根据月份拼接,需要额外365或者366次校验
  2. 根据身份证号码规则
    1. 将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ;
    2. 将这17位数字和系数相乘的结果相加;
    3. 用加出来和除以11,看余数是多少;
    4. 余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3 2;
      校验合格后的身份证信息传入进行二次验证,有效减少请求量

组织机构代码明文展示

代码实现:

# 处理请求地址
def url_num(n):
    return "https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=6899&query=%E8%80%81%E8%B5%96&pn=" + str(n*10) + "&rn=10&ie=utf-8&oe=utf-8&format=json"

# 请求报文头
header = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Host": "sp0.baidu.com",
"Referer": "https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%A4%B1%E4%BF%A1%E8%A2%AB%E6%89%A7%E8%A1%8C%E4%BA%BA&oq=%25E5%25A4%25B1%25E4%25BF%25A1%25E4%25BA%25BA%25E5%2591%2598&rsv_pq=9efd8d970001d440&rsv_t=d4a5qIxeOOLmND3RbsmCZd1aIVVsGkSbXjRz9KKpqlj4SCwtPAklEOUMF04&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=21&rsv_sug1=23&rsv_sug7=100&bs=%E5%A4%B1%E4%BF%A1%E4%BA%BA%E5%91%98",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
}

# 返回json格式,转为字典,字典列表中递归取值
for j in data_dict['data'][0]['result']:
	print(j["_update_time"], j["age"], j["areaName"],j["areaNameNew"],j["cardNum"],j["caseCode"],j["courtName"],j["disruptTypeName"],j["duty"],j["gistId"],j["gistUnit"],j["iname"],j["performance"],j["publishDate"],j["sexy"])
	csv_writer.writerow([j["_update_time"], j["age"], j["areaName"],j["areaNameNew"],j["cardNum"],j["caseCode"],j["courtName"],j["disruptTypeName"],j["duty"],j["gistId"],j["gistUnit"],j["iname"],j["performance"],j["publishDate"],j["sexy"]])

坑:

  1. IndexError: list index out of range
    请求过于频繁了,设置等待,或者启用代理,把当前的请求url重新放到请求池里

  2. 注意去重,每次响应,有大量重复,浪费内存或者频繁IO浪费时间

其他没有了,还是很简单的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值