Python科研数据分析专题之描述性统计

保姆级教程 | Pandas科研数据分析专题(四)

数据的描述性统计

Sim_Jackson | 2023

  • 经常出现的数据描述性统计表格,在研究论文中多出现在<数据与变量>章节,描述所获得的数据。

实证类论文

  • [1] 付志刚,沈慧娟,王伟,傅国彬,周路军.机构投资者调研行为动机:推高股价,抑或拉升业绩?[J].投资研究,2021,40(10):88-102.

    描述:

“运用python软件对数据进行整理,并得到上述变量的描述性统计如表2所示。在整个样本时内,不同时间段的累积收益率出现较大的差异,其中机构投资者调研1季度后,股价平均上涨1.2324,半年后,股价平均上涨-0.7610,说明呈现下降,1年后股价平均上涨 0.6440,而 2年后至 3年后股价又呈现下跌的趋势。这说明机构投资者调研后,股价仍先上升后下跌、再上升再下跌的波动特征。”

机构投资者调研平均每季达到 2.3637 次,对应标准差为 1.1456,其中最小达到 0.6931,最大达到6.7935。 说明机构投资者对不同股票的关注度存在差异,其中某些股票可能正处于当时热点板块,则关注度较高;有些股票虽然业绩较好,可能并不是热点,关注度可能会比较小。

在这里插入图片描述

时间序列分析类论文

  • [2] 范丽伟,董欢欢,渐令.基于滚动时间窗的碳市场价格分解集成预测研究[J/OL].中国管理科学:1-14[2023-01-17].
    在这里插入图片描述
# 导入需要的第三方库
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')
dir_ = r'D:\科研论文\Python\数据分析'
os.chdir(dir_)
files = os.listdir(dir_) # 将该地址下的文件都列出来
files # finaldata为填补完缺失值之后的数据
['data.xlsx', 'finaldata.csv', 'google.csv', 'reaseach_data.xlsx']
# 数据读取
df = pd.read_csv(files[1]) # 1即为第2个,'finaldata.csv'
df
timeX1X2X3X4X5X6X7X8X9X10
02020-01-026985.473257.851527.10000096.8161.1812.472.1344972
12020-01-037344.883234.851548.75000096.9163.0414.022.1184765
22020-01-067769.223246.281573.10000096.6262.8313.852.1574614
32020-01-078163.693237.181567.85000096.9662.6913.792.1673517
42020-01-088079.863253.051571.95000097.3459.9813.452.15105357
....................................
7522022-12-2316796.953844.821789.400408104.3279.3520.875.12446512
7532022-12-2716717.173829.251789.400408104.2079.8721.655.2147580
7542022-12-2816552.573783.221803.350000104.5378.8622.144.71504018
7552022-12-2916642.343849.281813.750000103.9778.7121.444.56516744
7562022-12-3016602.593839.501789.400408103.4980.5121.674.43425325

757 rows × 11 columns

df.describe()
X1X2X3X4X5X6X7X8X9X10
count757.000000757.000000757.000000757.000000757.000000757.000000757.000000757.000000757.000000757.000000
mean28911.7898413861.1272921789.40040897.44554867.22635424.8501594.12241153.76882448.17701528.348745
std17146.077185551.471131100.9473886.09484024.5659888.7537012.13661127.31059220.30189723.541417
min4970.7900002237.4000001474.25000089.41000012.93000012.1000001.4400004.00000010.0000000.000000
25%11601.4700003401.2000001733.55000092.71000045.52000019.3700002.48000028.00000031.00000011.000000
50%23336.0000003915.5900001790.45000096.08000068.22000023.1400003.62000063.00000047.00000023.000000
75%43160.9300004319.9400001857.350000100.35000085.03000027.9900005.60000075.00000062.00000043.000000
max67566.8300004796.5600002067.150000114.150000124.77000082.6900009.760000100.000000100.000000100.000000
释义:
count:样本量
mean:平均值
std:标准差
min:最小值
25%:1/4分位数
50%:中位数
df1 = df.drop(columns = 'time')
collst=df1.columns
collst
Index(['X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'X7', 'X8', 'X9', 'X10'], dtype='object')
# 偏度
print("偏度统计结果为:")
for col in collst:
    print(col,round(df1[col].skew(),2))
偏度统计结果为:
X1 0.36
X2 -0.47
X3 -0.36
X4 0.87
X5 0.07
X6 2.55
X7 0.77
X8 -0.53
X9 0.41
X10 0.82
# 峰度
print("峰度统计结果为:")
for col in collst:
    print(col,round(df1[col].kurt(),2))
峰度统计结果为:
X1 -1.17
X2 -0.5
X3 0.2
X4 -0.18
X5 -0.75
X6 10.53
X7 -0.48
X8 -1.06
X9 -0.52
X10 0.19
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值