浅谈数据挖掘

weixin_48826751

已于 2022-04-01 14:29:17 修改

阅读量1.4k

点赞数

文章标签：数据挖掘大数据

于 2022-03-22 12:47:25 首次发布

本文链接：https://blog.csdn.net/weixin_48826751/article/details/123657405

版权

1.什么是数据挖掘？

数据挖掘是寻找数据中隐含的知识，并用于科研或产生商业价值

2.为什么要进行数据挖掘？

（1）海量数据——难以用人工的方式进行统计归纳。
（2）维度众多——例如美团外卖所涉及的维度，包括菜品文字、图片、价格、折扣，用户浏览时间、下单时间、下单价格、交易处理等
（3）问题复杂。传统的统计学方法难以解决问题

3.数据挖掘的应用

（1）分类问题
比较适合一些确定的场景。
例如新浪微博某用户发布了一条动态，则根据数据挖掘自动将该动态分配到娱乐/时事/知识等其他板块
（2）聚类问题
比较适合一些不确定的场景。
例如在沙滩上捡起的石头，根据石头的大小尺寸，自动将石头归类到大石头、中石头、小石头的类别中
（3）回归问题
回归问题最大的特点是生成的结果是连续的。这里涉及到回归方法，回归方法是构建一个模型去拟合已知的数据（也即自变量），然后预测因变量的结果。
例如利用回归的方法预测今年公司的盈利情况
（4）关联问题
例如淘宝主页面时，有个猜你喜欢，即根据你日常的浏览购物习惯关联到特定的商品。

如何判断一个问题是分类问题还是聚类问题
分类问题和聚类问题均有特征值和目标值两种属性，例如一种动物发出汪汪的叫声，那么叫声就属于它的特征值，根据该特征值，把该动物归类到狗这一物种，则狗就属于目标值
了解以上概念，那么1.如果该问题没有明确的目标值，则被归为聚类问题，使用无监督学习来完成。
2.如果有明确的目标值，例如男女、老幼，则被归为分类问题，使用监督学习来完成。

4.数据挖掘怎么做？

（1）业务理解，明白你的数据挖掘要解决什么问题
（2）数据理解，在业务理解的基础上，对自己要处理哪些数据有所了解
（3）数据准备，通过各种方式整理到自己所需的数据
（4）构建模型，选用各种各样的算法模型来处理数据
（5）评估模型
（6）模型部署，评估模型完成后，对需要长期运行的模型进行服务部署

weixin_48826751

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈数据挖掘

1.什么是数据挖掘？数据挖掘是寻找数据中隐含的知识，并用于科研或产生商业价值2.为什么要进行数据挖掘？（1）海量数据——难以用人工的方式进行统计归纳。（2）维度众多——例如美团外卖所涉及的维度，包括菜品文字、图片、价格、折扣，用户浏览时间、下单时间、下单价格、交易处理等（3）问题复杂。传统的统计学方法难以解决问题3.数据挖掘的应用（1）分类问题比较适合一些确定的场景。例如新浪微博某用户发布了一条动态，则根据数据挖掘自动将该动态分配到娱乐/时事/知识等其他板块（2）聚类问题比较适合一些不
复制链接

扫一扫