浅谈数据挖掘

1.什么是数据挖掘?

数据挖掘是寻找数据中隐含的知识,并用于科研或产生商业价值

2.为什么要进行数据挖掘?

(1)海量数据——难以用人工的方式进行统计归纳。
(2)维度众多——例如美团外卖所涉及的维度,包括菜品文字、图片、价格、折扣,用户浏览时间、下单时间、下单价格、交易处理等
(3)问题复杂。传统的统计学方法难以解决问题

3.数据挖掘的应用

(1)分类问题
比较适合一些确定的场景。
例如新浪微博某用户发布了一条动态,则根据数据挖掘自动将该动态分配到娱乐/时事/知识等其他板块
(2)聚类问题
比较适合一些不确定的场景。
例如在沙滩上捡起的石头,根据石头的大小尺寸,自动将石头归类到大石头、中石头、小石头的类别中
(3)回归问题
回归问题最大的特点是生成的结果是连续的。这里涉及到回归方法,回归方法是构建一个模型去拟合已知的数据(也即自变量),然后预测因变量的结果。
例如利用回归的方法预测今年公司的盈利情况
(4)关联问题
例如淘宝主页面时,有个猜你喜欢,即根据你日常的浏览购物习惯关联到特定的商品。

如何判断一个问题是分类问题还是聚类问题
分类问题和聚类问题均有特征值和目标值两种属性,例如一种动物发出汪汪的叫声,那么叫声就属于它的特征值,根据该特征值,把该动物归类到狗这一物种,则狗就属于目标值
了解以上概念,那么1.如果该问题没有明确的目标值,则被归为聚类问题,使用无监督学习来完成。
2.如果有明确的目标值,例如男女、老幼,则被归为分类问题,使用监督学习来完成。

4.数据挖掘怎么做?

(1)业务理解,明白你的数据挖掘要解决什么问题
(2)数据理解,在业务理解的基础上,对自己要处理哪些数据有所了解
(3)数据准备,通过各种方式整理到自己所需的数据
(4)构建模型,选用各种各样的算法模型来处理数据
(5)评估模型
(6)模型部署,评估模型完成后,对需要长期运行的模型进行服务部署

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值