818数据挖掘的那些事

1.数据挖掘三剑客:a.分析数据,从中找出规律      b.为了数据模型找不同的场景的TrainningData     c.数据清洗

1>.数据分析师(Data Analyzer):最苦逼,也是最累的是数据 分析师,但他们的活是这三个角色中最最重要的,因为,无论模型、算法再怎么牛,在一堆烂数据上也只能干出一堆垃圾的活来。

    根据需求创建数据模型,不食人间烟火的奇异物种,基本上玩的都是跟数据有关的科学

2>研究科学家  :  最有技术含量的都是数据科学家,因为数据建模和抽取最有意义的向量,以及选取不同的方法都这类人来决定的,这类人,目前在国内很难找到。

    实现数据分析师建立的数据模型,交给数据分析员支玩,懂各种机器学习算法。

3>软件开发工程师  :   现在国内很玩数据的都以为算法最重要,很技术人员都是在研究机器学习的算法,其实最重要的是分析师和科学家,不是说算法不重要,但这些算法在整个数据处理中不如以上两步重要。

 

2.数据的质量 : 目前所流行的BuzzWord——大数据,可以说是相当误导人的,事实上,数据质量要比数据大小更重要。

   1>数据的标准:在国处某电商的系统里,所有的商品都有唯一的ID,这个ID是用来标识商品的唯一惟的(来自于条形码)。无论是你把商品描述成什么样,只要这个ID一样,这就是完完全全一模一样的商品。

      数据标准是数据质量的第一道关卡。为数据做唯一标识只是最最基础的一步,数据的标准不单单只是这个,更重要的是把数据的标准抽象成数据向量,没有数据向量,后面也无法挖掘。

      清洗数据的工作就是把杂乱无章的数据归并聚合——这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是:聪明的人在数据产生之前就定义好标准,并在数据产生之时就在干数据清洗工作。一般的人是在数据产生并大量规程之后才来干这个事。

  2>数据的准确:玩数据就像是在挖金矿一样。如果含金量高,那么挖掘的难度就小,出金率就高,如果含金量低,那么挖掘的难度就大,效果就差。

    第一个坑:假/错地址。第二个坑:真地址虽然是真地址,但是由于用户写的不是很标准所以很难处理。

 

3.数据挖掘的业务场景:有多少数据挖掘团队真正意识到了业务场景和数据挖掘的重要关系?要知道根本没有一种能够满足所有业务的数据挖掘和分析模型。

          推荐算法在不同的业务场景下的实现难度完全不一样。推荐就是一种按不同维度排序的算法。

推荐本身有两类:

    1>共性化推荐:多半是用户已知的东西。

     2>个性化推荐:这个需要先分析

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值