##用R分析白葡萄酒
数据:葡萄酒http://archive.ics.uci.edu/ml/datasets/Wine+Quality
用R分析白葡萄酒:
w=read.csv('winequality-white.csv',header=T) #读入数据
head(w) #看前几行数据
w[,12]=factor(w[,12]) #因子化
summary(w) #看数据的总结(分位数、均值、中位数)
names(w)#共有4898个观测,12个变量
[1] “fixed.acidity” “volatile.acidity” “citric.acid”
[4] “residual.sugar” “chlorides” “free.sulfur.dioxide”
[7] “total.sulfur.dioxide” “density” “pH”
[10] “sulphates” “alcohol” “quality”
名词解释:1-固定酸度2-挥发性酸度3-柠檬酸4-残糖5-氯化物6-游离二氧化硫7-总二氧化硫8-密度9酸碱度10-硫酸盐11-酒精 12-质量(分数在0到10之间)
葡萄酒质量的分布情况:
普通的葡萄酒比好的或差的葡萄酒多得多(如图所示:分数为6的葡萄酒数量最多,低分和高分的葡萄酒数量都很少,最低分为3,最高分为9)
summary(w1$quality)
chlorides(氯化物) 与白葡萄酒质量得分:
3-9分分别用’red’,‘blue’,‘green’,‘black’,‘purple’,‘yellow’,'orange’颜色表示
图显示:氯化物中等含量时(大约0.047左右)质量得分较高。
httchlorides(氯化物) 与白葡萄酒质量得分
酒精度与质量得分:
3-9分分别用’red’,‘blue’,‘green’,‘black’,‘purple’,‘yellow’,'orange’颜色表示
大部分白葡萄酒的质量都落在5-7间。
看较低浓度的白葡萄酒,绿色部分(5分)占比比较大;看较高浓度的白葡萄酒,紫色占比较大,且黄色占比也比低浓度的白葡萄酒大
counts=table(w1$quality,w1$alcohol)
barplot(count