【数据挖掘】第一章 绪论 1.2节十大经典挖掘算法

本节课我们学习1.2节十大经典挖掘算法。

一提起数据挖掘技术,就不得不提起十大经典挖掘算法。十大经典挖掘算法如课件所示,我们这门课主要介绍朴素贝叶斯 k 的算法,c 4.5算法,kn 确立算法,kt0算法,关联挖掘算法这六大类型算法,em 算法和 prc 算法,以及 at bsvm 算法,大家有兴趣的话可以作为延伸学习内容。为了系统地说明这些数据挖掘算法的种类划分,我们借用机器学习算法地图来给大家做简单介绍。

根据传统机器学习的观点,按照样本是否具备类别标签,我们可以将学习算法分为有监督学习和无监督学习。

有监督学习是机器学习领域研究最多的方法,已经十分成熟。在有监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常只带正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在位置标签的样本上能够计算出一个尽可能正确的结果。例如,我们熟悉的分类与回归问题。

无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是这类问题。强化学习是一种学习如何从状态映射到行为,以使得获取的奖励最大的学习机制。在强化学习中,交互问题却不存在这样一个朴实心,正确的标签,只能提,只能从自身的经验去学习。但是,强化学习与同样没有标签的无监督学习也不太一样。强化学习的目标是最大化奖励,而非寻找隐藏的数据集结构。尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。

因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习方式。

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器或模型,各自独立的学习和作出预测,这些预测最后结合成组合预测,因此优于任何一个单分类的作出预测。比如经典的随机森林 at bt 就是经典的集成学习的例子。

下面我们以一些实际应用案例来说明这些经典的数据挖掘算法是如何应用的。第一个例子是分类与预测的数据挖掘案例,在分类与预测案例中,我们一般通过使用属性的划分,从而形成类别标签划分群体的一个判定过程,如客户的流失预测,偷窃电,用户识别,信用卡欺诈检测等问题都是比较经典的分类与预测问题。

第二个例子是关联挖掘案例,比如通过挖掘用户的购物栏,发现购买了蔬菜和鲜鱼的用户大部分都会购买酒水,买了手机和相关配置的用户可能会购买扩充内存或耳机。发现特征之间或数据之间的相互依赖关系。

第三个例子是剧烈分析,实现人以群分,物以类聚。比如把某个专业的学生群体按照其学科竞赛的爱好程度分为人工智能与大数据赛事,爱好者,编程者联盟,创业群等,或者把某门课的考试成绩分为 abc 三个群组等等,这些都是距离算法的应用场景。在这类算法中,最重要的就是如何去评价距离的概念,样本和样本之间的距离,处与处之间的距离,然后在距离的准则下去实现距离操作。第四个例子是时间序列分析与挖掘。这种挖掘算法主要应用于基于事物发展的周期性或者是随机性来预测未来的发展。比如购买了打印机的用户可能在三个月左右会购买墨盒,啤酒的季节性销售预测等问题。除此之外,日常生活中与人们生活密不可分的其他案例还有很多,比如垃圾邮件的分类算法,医学影像专业上的肿瘤分类问题,这两个也是经典的有监督学习案例,隶属于分类与预测算法,还有在电子购物中电商的协同过滤推荐算法,猜测你可能喜欢的商品,进行交叉销售,提升销售等等,在社交网络中,比如我们利用 qq 添加一个好友,软件还会推送一些朋友你可能认识,或者你和你的新好友有哪一些共同的朋友等等,这里给大家普及一个小知识。1998年,邓肯和史蒂夫在两人联合发表于 nature 的论文中,提出了著名的小世界网络理论和 ws 小世界模型。小世界网络是一种数学图,在这个图中,绝大多数节点之间并不相邻。当然,任意给定一个节点的邻居们却可能彼此相邻,并且大多数任意节点都可以用比较少的步数或跳跃访问到其他节点。在社交网络中,这种网络属性意味着一些彼此并不相识的人,可以通过一条很短的熟人链条被联系在一起,这就是小世界现象,这就像我们可能不认识周杰伦,但是我们通过若干次小世界网络的节点跳转,我们能够和周杰伦认识。

曾经在2016年,计算机的国内顶尖学报计算机学报,软件学报还花了两个专刊,发表当年社交网络的一些代表性研究成果,有感兴趣的同学可以关注一下。

另外一个金融方面的挖掘案例是交易的欺诈检测,采用支付宝支付时或者刷信用卡支付时,系统会实时判断这笔刷卡行为是否属于盗刷,通过判断刷卡的时间,地点,商户名称,金额,频率等要素进行判断。现在人工智能领域研究比较火热的方向,其中一个就是情感分析,比如通过文本分析来判断说话者的情绪,通过分析网络上的评论来分析网友的情绪动态,为舆情分析和引导提供决策知识,对广大网友关注的热度事件进行捕捉,对互联网中的评论进行口碑分析等等,这些都是大家每天在网络世界中可能会遇到的数据挖掘经典案例。在文本挖掘领域,除了大家熟知的网页多标签分类,还有大家平时使用的手机图片,字符识别功能,比如扫描网 app 等,都是比较成功的文本挖掘算法。文本挖掘还可以用于文学著作的分析与挖掘问题,比如对红楼梦比较有争议的最后40回,到底是曹雪芹所著还是高鹗所著,如何去分析呢?有些学者通过统计名词,动词,形容词,副词,虚词出现的频次以及不同词性之间的相关性来进行判断,有些学者通过场景比如花卉数目,饮食,医药与诗词频次的差异来做统计判断。看到这里,大家是不是觉得数据挖掘几乎在我们的生活中无处不在了?这就是数据挖掘软环境的价值体现。

好了,实际的挖掘案例我们就讲到这里,下面我们来看看如果要想实施数据挖掘,我们该怎么去实现呢?一般而言,数据挖掘从问题定义出发,经过数据采集与存储,数据预处理,数据模型构建,数据模型的解释与评价。如果所选用的模型是恰当的,则可以将这个模型应用于其他测试数据。

总而言之,数据挖掘目前的应用十分广泛,也非常契合现在大数据背景下的技术创新和方法创新。同学们在学习这门课的时候,可以积极思考,将所学到的理论和方法应用于你所感兴趣的案例当中,以应用为驱动,可以更好地激发我们的学习热情。

通过一些基本的统计知识,数学知识和必要的计算机编程,我相信各位同学在学习这门课的时候都能体会到软环境的挖掘成就感。好的,这节课的内容我们就讲到这里,同学们,下节课再见。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能lab

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值