利用爬虫自动计算知网文献引用次数的杰卡德相似性指数

一。背景介绍

    Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数,值为0表示无相关性,值为1表示完全一致。对于两篇论文a和b来说,如果用A表示a的被引用次数,用B表示b的被引用次数,则AB的杰卡德相似指数为:

    从而,如果需要得到AB的杰卡德相似指数,我们只需要知道A、B以及a和b的共引用次数,其中A或者B可以通过知网的这个页面查看:

1.jpg

获取a和b的共引用次数比较麻烦,需要选中两篇文献再进行分析得出,如下图所示:

2.jpg

3.jpg

如果需要求得文献数目比较少,手动点击也是ok的,可是如果需要对某个数据集(例如给定的100篇文献)来进行求解,则会异常麻烦,这时候就需要用到咱们的爬虫技术咯~~

二。代码介绍

    开发工具组合采用的是pycharm+requests组合进行爬虫,另外还用了pandas+chardet以及python自带的一些库。首先F12打开前端代码,找到我们需要的数据,然后用以下函数获取该数据:

4.png

之后,再对数据进行加工处理既可以完成。

最后,欢迎有爬虫需求的小伙伴或者擅长爬虫的小伙伴关注我们的微信公众号联系我们。

公众号:320科技工作室

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CAE320

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值