Python的文献计量分析流程实现--含代码

代码在jupyterNotebook中运行成功,过程中需要的包,已经安装完毕,每一代码格代表一个单元的代码,如需Pycharm运行,适当修改代码

# 导入数据
import pandas as pd
WXdata=pd.read_excel('C:\\Users\\qingfeng\\Desktop\\PyDm_data.xlsx',sheet_name='WXdata') # 读取PyDm_data.xlsx文件下的WXdata表
university=pd.read_excel('C:\\Users\\qingfeng\\Desktop\\PyDm_data.xlsx','university'); # 教育部官网提供了中国全部高等院校校名信息,此处读取PyDm_data.xlsx文件下的university表
fund=pd.read_excel('C:\\Users\\qingfeng\\Desktop\\PyDm_data.xlsx','fund'); # 将从中国知网获取的基金名称信息整理成列表
# fund.基金名称.head()  # 显示该表下名为基金名称这一列的数据,默认前5行,主要用来检测数据是否正确读入
# 定义函数,该函数主要用来分解信息,content为待处理内容,separator为拆分节点
def list_split(content,separator):  #分解信息函数
    new_list=[]
    for i in range(len(content)):
        new_list.append(list(filter(None,content[i].split(separator)))) # 此处采用了Python内置对象filter过滤器,对,后的数据实施,前的执行操作
    return new_list
# 将WXdata['Organ']中的信息,采用分号separator,将信息分解开,以此获得学校信息名称,最后得出排名前10的学校名称
organ= list_split(WXdata['Organ'],';')
# 获得学校信息名称之后,统计学校计量
data1=pd.DataFrame([[i,search_university(organ,i)] for i in university['学校名称']])
data1.rename(columns={
   0:'学校名称',1:'频数'},inplace=True)
data1.sort_values(by='频数',ascending = False)[:10]
# 同样上述方法,获取基金的计量信息,返回排名前10的基金
jijin=list_split(WXdata['Fund'].dropna(axis=0,how='all'</
  • 7
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值