数据科学之数据分析杂谈

最新推荐文章于 2022-08-15 07:45:00 发布

季夏p

最新推荐文章于 2022-08-15 07:45:00 发布

阅读量223

点赞数

分类专栏：数据科学方法论专栏文章标签：数据挖掘机器学习大数据人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44047403/article/details/116667106

版权

数据科学方法论专栏专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据科学是从非学科原理角度从事物的结果和事物的表现出发，基于实验数据了解规律认知规律应用规律的学科，是一类工具和方法。

数据应用一：有监督问题

在有监督的问题下，是否给一定量有标签的数据和无穷大的算力就可以得到完美模型？

几个反例：

数据无法提供足够的规律

例如给到数据

1 2 3 label：A

1 2 3 label：B

1 2 4 label：C

求问1 2 3 预测值？

在这种情景下数据无法给到足够的规律，再复杂的模型也无法识别出没有的东西

反推：数据的重要性》》》》模型模型重要性，数据是够有足够的规律直接决定了是否需要高级模型和大规模算力，如果有效数据的缺失将会直接导致问题无解或者在当前算力水平下无解。高级别模型可以减少对算力的依赖，可以挖掘更加复杂的数据规律。

数据label有随机性

例如股价预测

众多股价预测方法，针对历史股价进行预测，几乎拥有全部的公开已知信息但是预测准确率都很低。

当模型把握了全部的数据规律，也无法做到准确的预测，因为本身就具有随机性。

例如模型：

1 2 3 A

1 3 2 A

1 2 3 C

求问 1 2 3 预测值？

数据的规律非常的少或者非常复杂，在当前数据规模和模型能力和算力下不可解

现实应用中，算力属于恒定量，模型和输入的数据是可以控制的

在算力一定的情况下，只有蕴含更多规律的数据和更能捕捉规律的模型能够实现更好的效果。

数据应用二：因果分析

计量回归模型

回归模型可以揭示变量间在统计学意义上的后验因果关系

A/B Test

A/B Test是统计学上有设计的因果

数据应用三：知识挖掘

无监督学习是知识挖掘的重要分支之一。

未知问题：知识挖掘和问题挖掘->因果推断->有监督应用（预测/分类）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

季夏p CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

123万+: 周排名

225万+: 总排名

2917: 访问

: 等级

23: 积分

1: 粉丝

1: 获赞

2: 评论

17: 收藏

私信

关注

热门文章

分类专栏

数据科学方法论专栏 1篇

最新评论

随机森林Python实现
qq_36237433: 学术成果|基于随机森林的邻里环境对点对点(P2P)住宿的影响 https://mp.weixin.qq.com/s/QYdBymSTooSbol8vjkhNrQ
随机森林Python实现
qq_51795676: 可以发下文件数据吗，看不懂

大家在看

最新文章

随机森林Python实现

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。