数据挖掘&智能算法 感悟

20130627

     做数据挖掘,智能算,第一重要的是数据,其次才是算法。首先要先了解你要处理的数据对象,然后才是选取设计算法,计算,挖掘与发现。如果数据足够好,if-else足够了,用不着算法。扩展一下决策树的经典例子:分析数据是‘天气’和‘湿度’,如果增加一个分析数据‘心情’,其取值就两条‘郁闷,不想打球’和‘开心,想去打球’,且无缺失。那还用什么算法,菜刀解决问题。

     1、数据

     我认为,计算机世界里数据是核心,所有的处理,最终都是为了得到一个数据,数据的形式是多样化的,信号,数值,报表,文本,图片,视频,决策项都是数据。做数据挖掘,智能计算,首先要对数据首先要做预处理,可以从4个方面来考虑:信度&本体&实体&原子。

     信度,你这些数据可信吗,里面藏没藏着你想要的价值关系。如果不可能存有,那就扔掉这些垃圾数据。

     本体,数据可信,那你就要想想你这些数据的本体是什么,对你有意义的属性是什么。注意本体可能隐藏于形式的背后。假如你找同义词,那你关注的就是词本体,那么数据文本‘nike’,‘Nike’和‘耐克’三个文本实体,同时也就是你关注的3个词本体,他们在你现在的定义背景下,就是3个同义词。如果你分析用户意图,那你关注的就是意图本体,那么同样三个词文本‘nike’和‘Nike’和‘耐克’,他们在意图这个范畴下就是同一个本体。

     实体,确定出了本体,那就要对数据实体进行处理,实体形式归一化。还是上面例子,在意图范畴下,那‘nike’和‘Nike’两个词的本体是相同的,就应该形势归一化。再比如连续5个空格,对语义无影响,就要合一。形式归一化,减少形式误差和形式量,形式的归一也要衡量,‘nike’和‘耐克’感觉就不应该归一,一是代价大,二是两个词都有存在合理性,用户很大概率输入。

     原子,实体归一化了,然后就要找出你的分析粒度,你怎么切分这些数据,什么是你分析的最基本单位,要找出来。并且拿原子来切分数据集合,在这个过程中,通常会产生很多边角料,这些边角料某种情况下,也可能转化成数据原子。

     2、算法

     有了数据原子,就要开始考虑if-else了,菜刀能解决问题,就上菜刀。不行,再考虑算法。现在智能算法很大一部分都是基于统计学的。采用统计学的方法来处理数据解决问题,可以从4方面考虑:结构&算量&特征&算法。

     结构:数据被划分成一个个的原子,把这些原子装到一个口袋里,能得到我们想要的价值关系吗?如果不能,怎么排列这些原子才能更易于找到我们想要的关系呢?这个问题通常可以考虑还原法,怎么用这些原子还原出最初的数据集。在这个过程中,数据和原子就隐含着一个结构,或者叫映射。找到这个结构。当然,如果有更好的,更容易排列出我们期待的价值关系的结构,我们更应该具体问题具体分析了。

     算量:有了数据和原子的结构框架了。那在这个结构中的原子就可以直接参与计算了吗?数据和原子本身通常是无结构的或者是半结构化的,他们能直接参与计算吗,又怎么才能参与计算呢?这里,通常要做一步,将结构框架中的原子转化成算量,这个算量通常是一些统计量:频度,卡方,信息熵,tf,idf...这些算量的选择要凭借一些经验,甚至是实验对比。

     特征:有了原子的算量,这些算量可能很多,通常情况下都会很多。都参与计算吗?这其中哪些对我们期待的价值关系有影响,哪些没有影响,哪些又可能有较大影响呢?通常这里要特征降维,也就是挑选某些原子的算量作为特征。这需要有一些启发式的选择,或者根据下一步选定的算法来做选择。

     算法:有了特征,那就该选定算法模型了,现在常用的一些统计学方法:pearson,贝叶斯,决策树,svm...这些方法的选择要根据前面说过的三个点:结构,特征和期待的价值关系来决策选择算法模型。有时也需要不断在结构、算量、特征、算法4个方面不断迭代循环的做选择实验取舍。


 

-------做算法半年(非算法方向毕业),一点感悟,写于此,尽请交流...

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值