这次作业练习收获挺多,难的不是练习题,而是在计算前的数据预处理。本来以为可以很快解决的,还是花了些力气,看来还是要多练习~
chapter7-14题
晨星公布了1208家企业的股票信息数据(晨星官网,2012年10月24日)。这些股票中的40只组成一个样本,存放在数据文件Morningstar.csv 中,利用Morningstar数据集回答下列问题。
1.求晨星股票中达到最高评级5星的股票所占比率的点估计。
2.求晨星股票中商业风险评级高于平均水平的股票所占比率的点估计。
3.求晨星股票中评级不高于2星的股票所占比率的点估计。
数据预处理
import pandas as pd
import numpy as np
##读取数据
ms = pd.read_csv("/myfile/个人事务/数据分析学习/商务与经济统计/数据文件/第7章/Morningstar.csv",sep=",")
ms.head(10)
星级和风险水平都是字符串的形式,为了方便计算先转换成数值型
ms_star = ms["Morningstar Rating "]
# 将星级中的数字提取出来
## 自定义函数将字符串中的数字提取出来
def star_rated(star_str):
star_num = filter(str.isdigit, star_str)
star_num = list(star_num)
s = int(star_num[0])
return s
star = [star_rated(i) for i in ms_star]
ms["star"] = star
# 将风险水平用数值进行替换
## Average = 0,Above Average = 1,Below Average = -1
def risk_num(risk_str):
if risk_str