数据挖掘学习笔记(1)关联分析

关联分析的基本概念

关联分析 (Association Analysis):

在大规模数据集中寻找有趣的关系

频繁项集(Frequent Item Sets):

经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集

支持度(Support):

数据集中包含该项集的记录所占的比例,是针对项集来说的

置信度(Confidence):

出现某些物品时,另外一些物品必定出现的概率,针对规则而言

关联规则(Association Rules):

暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度

项集支持度:

一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度

eg:support(A⇒B)=support_count(A∪B)/N

支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。

项集置信度:

eg:confidence(A⇒B)=support_count(A∪B)/support_count(A)

置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。

只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
分类:分类可以找出这些不同种类客户之间的特征,让用户了解不同行为类别客户的分布特征,从而进行商业决策和业务活动,如:在银行行业,可以通过阿里云机器学习对客户进行分类,以便进行风险评估和防控;在销售领域,可以通过对客户的细分,进行潜客挖掘、客户提升和交叉销售、客户挽留等 聚类:通常”人以群分,物以类聚”,通过对数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低,以便我们度量对象间的相似性,发现相关性。如在安全领域,通过异常点的检测,可以发现异常的安全行为。通过人与人之间的相似性,实现团伙犯罪的发掘 预测:通过对历史事件的学习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。比如:预测销售收入和利润,预测用户下一个阶段的消费行为等 关联:分析各个物品或者商品之间同时出现的机率,典型的场景如:购物篮分析。比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
大数据读书笔记 【篇一:大数据 读后感】 从徐子沛的《大数据》中得到的感悟 数据,对于我们现代社社会来说,已经是再熟悉不过了。大量化(volume)、多样化(variety)、快速化(velocity)和大价值(value)。这四个v 就是大数据的基本特征。每天我们都不得不和数据打交道,比如我们平常所说得"眼观六路,耳听八方,"就是生活中一个很好的的收集数据的例子。还有,在我们平时的学习中,我们对于一些学习上的数据的整理等等。可以说,数据已经成为了我们的影子一样,无时无刻的在我们的身边活动。 拿到《大数据》这本书时,吸引我的不是书评的内容,而是书的封面上的一句话"除了上帝,任何人都可以用数据说话。"也就是说,上帝可以不用数据来说话,但是,作为一个平常人,我们做事,言论等都必须用数据来说话。用数据论来证我们的观点正确性。 那么数据真的就是那么重要吗?其实不然,数据果真有那么的重要。作者在书中大量应用世界头号强国美国的例子来说明美国是如何利用数据以及数据在美国人的利用下,是如何造福美国人的。使得美国人走上了民主、发展的道路。书中还引用了大量的利用数据的案例,以及利用数据会有什么样的后果。当然,作者在书中也很明确的表达了自己观点,也就是数据要被人利用,利用的好了,造福人类,否则,祸害无穷。 毫无疑问,我们正处在一个真正意义的大数据时代。但是,大数据浪潮的来龙去脉如何?数据技术变革何以能推动政府信息的公开、透明和社会公正?又何以给我们带来无限的商机,既便利又危及我们 大数据读书笔记全文共9页,当前为第1页。每个人的生活?《大数据》给了我们一个很好的答案。在拿到徐子沛《大数据》时,与其说这是个新概念,还不如说就是一个现实。信息技术的迅速发展和普遍应用,存储能力的膨胀,网络传输的便捷,必然产生巨大的数据量。即使是一个公司,经过多年的积累,产生的数据也是惊人的。每天繁多的数据,这就是要求企业要很好地存储数据,利用数据通过数据,使得数据说话,提升企业的业绩和知名度。 对于一个企业来说,比较实际的倒是关注一下企业微观大数据,如何充分利用现有的、能够得到的和自己创造的数据,采用《大数据》里提及的新技术、新方法、新理念,筛选、组织、关联分析,精细化管理和挖掘数据,探索规律性的东西,指导企业活动。 尽可能多的获取数据,首先是要有心,对于公司员工来说,随时随地注意收集客户数据、需求数据、产品数据、市场数据、资源数据等,经过整理,把它变成公司的数据资产;然后是要有据,信息与数据最大的不同,就是数据是能够度量或者确定的信息,不能"毛估估",收集数据要精细化,要准确;其次要有序,数据需要存储,更加需要整理,单个数据没有很大意义,静止的数据也没有很大意义,有价值的数据是流动的、与其他数据交互作用的。一个大杂烩的数据库,在需要时让人找不到北,没有任何意义。再次,需要技术支持,大量的数据如何检索,如何关联,单靠人脑是不行的,需要建立基于特定理论的数据处理系统来分析管理。对于一个企业,最理想的是建立一个类似人类神经系统的数据管理系统,采用各种信息终端采集内部和外部信息,通过分析、归纳、筛选,形成管理数据,某些数据可以成为系统的"本 大数据读书笔记全文共9页,当前为第1页。 能",一旦触发能够自动做出反应;某些数据可以成为组合信息提交大脑综合分析,作出决策和反应。 数据应该为人服务,这是一条基本原则。在大数据时代始终发挥人的主观能动性,采用先进的理念和技术驾驭数据,让人们生活更方便,工作效率更高,劳动强度降低,为社会创造更多的物质财富和精神财富。 《大数据》是一本视野独特的书。它以数据为轴线,描绘了美国走过的改革创新的过程,行文如流水,引人入胜。书中,我读到的不是大数据处理技术,更多的是与大数据相关的美国政治、经济、社会和文化的演进,从民主和国家战略的层面细解大数据的影响力。美国是全书的主体,但又处处反观中国当下的现实。内容非常值得我们身处改革开放前沿的政府工作者深思。它让我们更加深刻地理解了汪洋书记提出的"坚持用数据说话、用数据改进管理、用数据推动创新"的深刻内涵和殷切期望。我们只有重视数据,加强对数据的收集、分析和使用,才能更好地应对正在到来的数据革命的挑战。那么,作为与数据打交道、用数据说话的前线统计工作者,如何应对大数据时代的种种挑战? 对比《大数据》,结合平时工作和学习的实际情况,我认为最少应该认真思考和解决好三个问题: 大数据读书笔记全文共9页,当前为第2页。 一、提供什么样的数据? 大数据读书笔记全文共9页,当前为第2页。 在中国,统计部门提供的数据,是各级政府部门和广大人民群众了解国家社会经济发展和人民生活状况主要渠道。只有真实可靠统计数据,才能使政府决策有的放矢,人民了解国家经济与人民生活的 真实状况。如果统计数据虚假不实,就会误导政府和人民,让政

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值