数据科学导论

plumage531

已于 2022-06-08 16:52:49 修改

阅读量1.3k

点赞数

文章标签：机器学习人工智能

于 2022-06-08 15:11:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56402231/article/details/125184538

版权

第一章绪论

第一章的内容较少，大部分是简单介绍

1.大数据的4V特点

体量大
产生速度快而时效性高
类型繁多：结构化、非结构化的数据全都混杂在一起
高度真实而价值密度低

2.制定目标

可验证、可量化

3.性能评价

空模型问题&P11思考题

关于准确率为65%的“是否是山鸢尾”的二分类模型，

观点一：如果整个数据集中150朵花全都判断为是山鸢尾，那么错误率是2/3，准确率是1/3，二分类模型的准确率65%高于空模型的准确率1/3，所以这个二分类的模型是可以接受的；
观点二：如果整个数据集中150朵花全都判断为不是山鸢尾，那么正确率是2/3，错误率是1/3，二分类模型的准确率65%低于空模型的准确率2/3，所以这个二分类的模型是不能接受的；

其实这里有两个空模型：

对于发病率：

1）建立一个对所有数据都判断为健康的模型，正确率99.9%

2）建立一个对所有数据都判断为不健康的模型，正确率0.1%

我们可以知道，第一种是最优空值模型，所以我们选择第一种作为我们最终的空模型。

对于iris：

1）建立一个对所有数据都判断为setosa的模型，正确率33.3%

2）建立一个对所有数据都判断为非setosa的模型，正确率66.7%

我们可以知道，第二种是最优空值模型，所以我们选择第二种作为我们最终的空模型。

第二章问题与目标

问题抽象：

分类（eg类型1/类型2）

预测（eg疾病早期预警）

排序或打分：基于某一特征/特征组合对实体进行排序/打分

关联化：在众多实体特征中寻找有相互关联的特征以便互相替代，从而实现特征的相互“解释”或数据降维；而对于非关联的特征则需要予以保留，以实现对样本的全面描述。

（eg找出销售业绩不好的原因，即找出与销售业绩关联密切的因素）

特征提取：基于实体的众多特征，构造最反应目标的，或最能指示某种分类或排序的复合特征。

聚类：分组->同组中有高相似度

注意：分类vs聚类排序vs关联化

P15 思考题

二战期间，为了提高战斗机在战场上的生存率，同盟国决定为战斗机装上更厚的装甲，以防被敌方击落。但是，为了不过多增加战斗机重量（重量太重影响灵活性并增加油耗），最好只给部分部位增加装甲。军方的需求是要确定对战斗机的哪个部位增加装甲。请问：从数据科学的观点，这是一个什么问题？

A.分类 B.预测 C.排序 D.关联化

又到了大学新生入学的时间。你作为学生会中的老干部，很荣幸领到了一项为新生匹配舍友的任务，每四个新生同住一间宿舍。有无穷活力的你，决定利用你所了解的数据科学来实现自动匹配，让个性、爱好相似的人成为舍友。请问，从数据科学的观点，这是一个什么问题？

A.分类 B.特征提取 C.关联化 D.聚类

一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？

‍A.预测 B.分类 C.特征提取 D.关联化

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据科学导论

关于准确率为65%的“是否是山鸢尾”的二分类模型，观点一：如果整个数据集中150朵花全都判断为是山鸢尾，那么错误率是2/3，准确率是1/3，二分类模型的准确率65%高于空模型的准确率1/3，所以这个二分类的模型是可以接受的；观点二：如果整个数据集中150朵花全都判断为不是山鸢尾，那么正确率是2/3，错误率是1/3，二分类模型的准确率65%低于空模型的准确率2/3，所以这个二分类的模型是不能接受的；......
复制链接

扫一扫

plumage531 CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

133万+: 周排名

93万+: 总排名

1470: 访问

: 等级

15: 积分

4: 粉丝

0: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

最新文章

矩阵链乘 UVa442 Python实现

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。