知网专利爬虫

知网专利爬虫

最近需要爬取知网专利的数据,时间限定为2014年。一番折腾以后,发现知网反爬虫非常严重。

几经研究,最后还是鼓捣了出来。

项目GitHub地址

知网专利检索结果列表页反爬虫非常严格,仔细抓包分析以后,发现每次请求必须携带:

  1. 严格的headers
  2. Cookies(变化的)

而且列表table是js加载出来的,单独请求获取不到数据,需要请求里面嵌套的特定的url才可以取得数据,具体url可以通过firefox或google浏览器分析网络请求,不是第一个url!!!分析第一个url的response可以发现里面是没有专利列表数据的,带数据的是下面的某个url(找很大的几十kb的url),然后直接请求这个url即可获得专利列表数据了。

知网验证码问题
  1. 可以通过换浏览器解决
  2. 可以通过机器学习解决(需要获取大量数据进行训练)

仅作学习交流,不做商业使用。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值