知网专利爬虫
最近需要爬取知网专利的数据,时间限定为2014年。一番折腾以后,发现知网反爬虫非常严重。
几经研究,最后还是鼓捣了出来。
知网专利检索结果列表页反爬虫非常严格,仔细抓包分析以后,发现每次请求必须携带:
- 严格的headers
- Cookies(变化的)
而且列表table是js加载出来的,单独请求获取不到数据,需要请求里面嵌套的特定的url才可以取得数据,具体url可以通过firefox或google浏览器分析网络请求,不是第一个url!!!分析第一个url的response可以发现里面是没有专利列表数据的,带数据的是下面的某个url(找很大的几十kb的url),然后直接请求这个url即可获得专利列表数据了。
知网验证码问题
- 可以通过换浏览器解决
- 可以通过机器学习解决(需要获取大量数据进行训练)
仅作学习交流,不做商业使用。