ggplot后续1
绘制点图+线图
from ggplot import *
#内置数据
print(meat.head())
#绘图
p = ggplot(meat, aes(x='date', y='beef')) + \
geom_point() + \
geom_line() + \
scale_x_date(labels='%Y-%m') #格式化输出
print(p)
绘制以上散点的线性回归
#stat_smooth 统计的平滑线
#参数
#method 平滑线的类型
#lm线性回归 ma折线回归 loess曲线回归
#linetype 线的类型 solid dashed dotted dashdot
#size 线宽
#color 线及轮廓的颜色
#alpha 不透明度
#window 统计计算时的滑动窗
#内置数据
print(meat.head())
#绘图
p = ggplot(meat,aes(x="date",y="beef"))\
+geom_point()\
+stat_smooth(method="lm",linetype="dashed",size=3,color="red",alpha=.7)\
+scale_x_date(labels="%Y-%m")\
+labs("x","y","title")
print(p)
异常信息:
解决办法:
改源码,
新版的pandas 没有rolling_mean方法
只有Series/DataFrame对象具有rolling方法
将错误的源码部分改为
y.rolling(1).mean()
结果:
绘制以上点的曲线回归
p = ggplot(meat,aes(x="date",y="beef"))\
+geom_point()\
+stat_smooth(method="loess",linetype="dashed",color="g",size=3,alpha=.3,window=2)\
+scale_x_date(labels="%Y-%m")\
+labs("x_date","y_beef","title")
print(p)
频率分布直方图
geom_histogram()
统计一列数据
参数:
x,待统计的Series对象
bins,分的数据区间
linetype,轮廓线的类型
color,轮廓线的颜色
size,轮廓线的宽度
fill,内部填充颜色 会覆盖轮廓线的颜色
alpha,内部填充的不透明度
#分组填充颜色
#控制颜色这一列, 必须时str类型
p = ggplot(diamonds, aes(x='price', fill='clarity')) + geom_histogram()
print(p)
练习:
使用titanic.csv 数据,绘制年龄的直方图,按照是否幸存填充颜色
链接:数据集
提取码:c777