第一章 绪论
第一章的内容较少,大部分是简单介绍
1.大数据的4V特点
- 体量大
- 产生速度快而时效性高
- 类型繁多:结构化、非结构化的数据全都混杂在一起
- 高度真实而价值密度低
2.制定目标
可验证、可量化
3.性能评价
空模型问题&P11思考题
关于准确率为65%的“是否是山鸢尾”的二分类模型,
观点一:如果整个数据集中150朵花全都判断为是山鸢尾,那么错误率是2/3,准确率是1/3,二分类模型的准确率65%高于空模型的准确率1/3,所以这个二分类的模型是可以接受的;
观点二:如果整个数据集中150朵花全都判断为不是山鸢尾,那么正确率是2/3,错误率是1/3,二分类模型的准确率65%低于空模型的准确率2/3,所以这个二分类的模型是不能接受的;
其实这里有两个空模型:
对于发病率:
1)建立一个对所有数据都判断为健康的模型,正确率99.9%
2)建立一个对所有数据都判断为不健康的模型,正确率0.1%
我们可以知道,第一种是最优空值模型,所以我们选择第一种作为我们最终的空模型。
对于iris:
1)建立一个对所有数据都判断为setosa的模型,正确率33.3%
2)建立一个对所有数据都判断为非setosa的模型,正确率66.7%
我们可以知道,第二种是最优空值模型,所以我们选择第二种作为我们最终的空模型。
第二章 问题与目标
问题抽象:
分类 (eg类型1/类型2)
预测 (eg疾病早期预警)
排序或打分:基于某一特征/特征组合对实体进行排序/打分
关联化 :在众多实体特征中寻找有相互关联的特征以便互相替代,从而实现特征的相互“解释”或数据降维;而对于非关联的特征则需要予以保留,以实现对样本的全面描述。
(eg找出销售业绩不好的原因,即找出与销售业绩关联密切的因素)
特征提取:基于实体的众多特征,构造最反应目标的,或最能指示某种分类或排序的复合特征。
聚类:分组->同组中有高相似度
注意:分类vs聚类 排序vs关联化
P15 思考题
二战期间,为了提高战斗机在战场上的生存率,同盟国决定为战斗机装上更厚的装甲,以防被敌方击落。但是,为了不过多增加战斗机重量(重量太重影响灵活性并增加油耗),最好只给部分部位增加装甲。军方的需求是要确定对战斗机的哪个部位增加装甲。请问:从数据科学的观点,这是一个什么问题?
A.分类 B.预测 C.排序 D.关联化
又到了大学新生入学的时间。你作为学生会中的老干部,很荣幸领到了一项为新生匹配舍友的任务,每四个新生同住一间宿舍。有无穷活力的你,决定利用你所了解的数据科学来实现自动匹配,让个性、爱好相似的人成为舍友。请问,从数据科学的观点,这是一个什么问题?
A.分类 B.特征提取 C.关联化 D.聚类
一位葡萄酒经销商找到你,想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问,从数据科学的观点,这是一个什么问题?
A.预测 B.分类 C.特征提取 D.关联化