matplotlib数据分析
数据可视化也是数据科学中非常重要的一节,面对繁杂的数据我们很难理出头绪,但是画出数据的分布图就不一样了,数据的内在规律清晰可见,尤其是在向领导汇报工作的时候,如果你拿的是一张张表格那基本可以断定你要鸡鸡了,相反,如果你带着一份精美的数据分析图表,不加薪怪你老板没眼光!!
上代码,这里的数据使用的还是上节的数据!友情提示,我们的数据长这样!
我们的任务是看下商铺评分数据分布!先上代码,再看结果
import matplotlib.pyplot as plt
plt.hist(data["商铺评分"])
plt.show()
在此看到的就是“商铺评分”数据直方图分布!接下来就是针对直方图的美化!
增加了参数bins的设置,这样直方图的条数更多了!
import matplotlib.pyplot as plt
plt.hist(data["商铺评分"], bins = 30)
plt.show()
从上图可以看出,有少量的数据分布在0.7附近,区别于大多数数据,因此可以判定,这部分数据为异常值!接下来考虑怎样将这部分值滤掉!
import matplotlib.pyplot as plt
data = data[data["商铺评分"]>0.7] # 数据过滤
plt.hist(data["商铺评分"], bins = 60)
plt.show()
将异常数据过滤后可以看出数据基本分布在0.97左右!!!