写在前面:
1、工具只是工具能够帮你快速实现代码构造,但是也会出错,一定要仔细观察和浏览器的headers有什么不同,按照浏览器的来。
2、请求时,一定要设置时间间隔,并且使用代理ip,不然容易封掉ip(ip的切换自行找办法)
1.工具快速发送请求
网址:爬虫工具-爬虫分析工具-猿人学爬虫工具http://tool.yuanrenxue.com/
选择要发送请求的链接
复制代码到程序
2.获取当前论文的作者、作者单位、论文标题。(按照第一步发送请求)
数据自己通过json或者正则提取
3.获取引用文献的url链接
如果没有你想要的,就去实现第四步,如果不需要太多,第三步就足够了
该链接需要拼接,https://d.wanfangdata.com.cn/thesis/Y3660451,拼接后是这样(具体要怎么实现多看浏览器的headers)
4.获取引证文献的内容(作者,作者单位)
data里面的id是个变量,每次都不一样,他的获取看第三步的关键参数