数据科学导论

第一章 绪论

第一章的内容较少,大部分是简单介绍

1.大数据的4V特点

  1. 体量大
  2. 产生速度快而时效性高
  3. 类型繁多:结构化、非结构化的数据全都混杂在一起
  4. 高度真实而价值密度低

2.制定目标

可验证、可量化

3.性能评价

空模型问题&P11思考题

关于准确率为65%的“是否是山鸢尾”的二分类模型,

观点一:如果整个数据集中150朵花全都判断为是山鸢尾,那么错误率是2/3,准确率是1/3,二分类模型的准确率65%高于空模型的准确率1/3,所以这个二分类的模型是可以接受的;
观点二:如果整个数据集中150朵花全都判断为不是山鸢尾,那么正确率是2/3,错误率是1/3,二分类模型的准确率65%低于空模型的准确率2/3,所以这个二分类的模型是不能接受的;

其实这里有两个空模型:

对于发病率:

1)建立一个对所有数据都判断为健康的模型,正确率99.9%

2)建立一个对所有数据都判断为不健康的模型,正确率0.1%

我们可以知道,第一种是最优空值模型,所以我们选择第一种作为我们最终的空模型。

对于iris:

1)建立一个对所有数据都判断为setosa的模型,正确率33.3%

2)建立一个对所有数据都判断为非setosa的模型,正确率66.7%

我们可以知道,第二种是最优空值模型,所以我们选择第二种作为我们最终的空模型。

第二章 问题与目标

问题抽象:

分类 (eg类型1/类型2)

预测 (eg疾病早期预警)

排序或打分:基于某一特征/特征组合对实体进行排序/打分

关联化 :在众多实体特征中寻找有相互关联的特征以便互相替代,从而实现特征的相互“解释”数据降维;而对于非关联的特征则需要予以保留,以实现对样本的全面描述。

                (eg找出销售业绩不好的原因,即找出与销售业绩关联密切的因素)

特征提取:基于实体的众多特征,构造最反应目标的,或最能指示某种分类或排序的复合特征。

聚类:分组->同组中有高相似度

注意:分类vs聚类 排序vs关联化

P15 思考题

二战期间,为了提高战斗机在战场上的生存率,同盟国决定为战斗机装上更厚的装甲,以防被敌方击落。但是,为了不过多增加战斗机重量(重量太重影响灵活性并增加油耗),最好只给部分部位增加装甲。军方的需求是要确定对战斗机的哪个部位增加装甲。请问:从数据科学的观点,这是一个什么问题?

A.分类 B.预测 C.排序 D.关联化

又到了大学新生入学的时间。你作为学生会中的老干部,很荣幸领到了一项为新生匹配舍友的任务,每四个新生同住一间宿舍。有无穷活力的你,决定利用你所了解的数据科学来实现自动匹配,让个性、爱好相似的人成为舍友。请问,从数据科学的观点,这是一个什么问题?

A.分类 B.特征提取 C.关联化 D.聚类

一位葡萄酒经销商找到你,想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问,从数据科学的观点,这是一个什么问题?

‍A.预测 B.分类 C.特征提取 D.关联化

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值