数据挖掘——认识数据【学习总结】

数据属性

  1. 标称属性:它的值是符号或者事务的名字,其中每个值代表某种类别、编码或状态。
  2. 二元属性:即布尔属性,只有两个状态0或1,如果两个状态同等重要,则该属性是对称的,否则是非对称的。
  3. 序数属性:其可能值之间具有有意义的许或者排位,但是相继之间的差是未知的。
  4. 数值属性:该属性是定量的,用整数或实数表示。该属性有两种类型:区间标度(其值用固定的相等的单位测量)和比率标度(具有固有零点的数值属性)。

基本统计度量

度量数据中心趋势

包括均值、中位数、众数、中列数。
中心趋势也就是度量数据分布的中部或中心位置。
频率:区间内数值的个数。
1.均值(mean)
数据集“中心”的最常用、最有效的数值度量是均值。
加权平均值或加权平均
加权:即权重,反应它们所依附的对应值的意义、重要性或出现的频率。
计算:xmean = ( ω1x1 + ω2x2 + … +ωNxN ) / ( ω1 + ω2 + … + ωN )
缺点:对极端值(例如:离群点)很敏感。
使用截尾均值:丢弃高低极端值后的均值。
2.中位数(median)
定义:有序数据值的中间值。
计算:N 个数值,若 N 是奇数,第 (N + 1) / 2 个数据为中位数,若 N 是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值(在数值属性的情况下,中位数取最中间连个值的平均值)。
特点:主要度量倾斜(非对称)数据。
把数据较高的一半与较低的一半分开的值。
当数据集中值的数量很大时,中位数的计算:
用插值计算整个数据集的中位数的近似值,(将数据集划分为多个区间(如,1-000、1001-2000、2001-3000))
median = L1 + (( N/2 - (Σfreq)l ) / freqmedian ) width
median:整个数据集的中,该种属性的中位数;
L1 :中位数区间(包含中位数频率的区间,也就是包含中位数所在位置的区间)的下限(最小值);
N:整个数据集中数值的个数;
(Σfreq)l:低于中位数区间的的所有区间的频率的和;(也就是在中位数区间以后的所有区间中数值的数量的总和)
freqmedian:中位数区间的频率;(中位数所在区间的数值的个数)
width:中位数区间的宽度(区间的最大值与最小值的差)
3.众数(mode)
众数:数据集中出现频率最多的值;
最高频率对应多个值时,会有多个众数;
具有一个、两个、三个众数的数据集合,分别称为单峰的(unimodal)、双峰的(bimodal)、三峰的(trimodal)。
一般具有两个或更多众数的数据集是多峰的(multimodal)。
如果数据集中每个数值只出现一次,该数据集没有众数。
对于适度倾斜(非对称)的单峰数值数据,经验关系:mean - mode ≈ 3 X ( mean - median ) ;(也就是,如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算)
4.中列数(midrange)
中列数:数据集中最大值和最小值的平均值,也可以用来评估数值数据的中性趋势。(中列数容易使用 SQL 的聚集函数 max() 和 min() 计算)
对称、正倾斜负倾斜数据的中位数、均值和众数。在这里插入图片描述

度量数据散步

包括极差(range)、四分位数(quartile)、方差(variance)、标准差(standard deviation)、四分位极差(IQR)
1.极差、四分位数、四分位数极差
极差:数据集中最大值和最小值的差。
分位数:取至数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(说是基本上,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值)
四分位数:第 N/4(Q1)、第 N/2(Q2,也即是中位数)、第3N/4(Q3) 的数,将数据划分为4份。(N表示数据集的数值的总个数)
四分位数极差:IQR = Q3 - Q1;
2.五数概括(five-number summary)、盒图、离群点
对于描述倾斜分布,不能使用单个散布数值度量。
识别离群点的方法:挑选落在 Q3 以上或 Q1 以下至少 1.5IQR处的值。
五数概括:不仅使用 Q1、中位数、Q3,同时提供最高和最低数据值。(共5个数)
盒图(boxplot)
盒图可以用来比较若干个可比较的数据集。
描述数据分布的直观表示,体现了五数概括:
Q1、Q3、IQR:盒(实线长方形)的端点一般在四分位数上,使得盒图长度是四分位数的极差 IQR;
中位数:中位数用盒图的线表示;
胡须:盒外的两条线(与虚线相连的两条线,称作胡须)延伸到最小(Minimum)和最大(Maximum)观测值(观测值:被分析的数据集中的所有数值);(胡须延伸处的最大为 Q3 + 1.5IQR,最小为Q1 - 1.5IQR,超出范围的视为离群点)、(胡须的末端必须是观测值,也就是说,胡须的末端不一定等于 Q3+1.5IQR 或 Q1-1.5IQR)
离群点:处于胡须外的观测值;(仅当最高和最低观测值超过四分位数不到 1.5IQR 时,胡须扩展到它们(离群点),否则,胡须在出现在四分位数的 1.5IQR 之内的最极端的观测值处终止,剩下的情况个别的绘出)
在这里插入图片描述

3.方差、标准差
作用:方差和标准差都是数据分布度量,指出数据分布的散布程度;
低标准差意味着数据观测趋向于非靠近均值,高标准差表示数据分布在一个大的值域内;
σ²:方差;σ:标准差;
标准差的性质:σ 度量关于均值的发散,仅当选择均值作为中心度量时使用;仅当不存在发散时,即当所有的观察值都均有相同值时,σ = 0;否则,σ > 0;一般,一个观测值远离均值不会超过数倍个标准差。(也就是说: X观察值 - mean ≠ nσ)大型数据库中,方差和标准差的计算是可伸缩的。

度量数据的相似性和相异性

主要的基于内存的聚类、最近邻算法都在如下两种数据结构上运行:数据矩阵和相异性矩阵。
在这里插入图片描述
在这里插入图片描述

数值属性的相异性的距离度量

包括欧几里得距离、曼哈顿距离、闵可夫斯基距离。
1.欧几里得距离
即直线或乌鸦飞行距离(直线距离)
在这里插入图片描述
2.曼哈顿距离
两点在南北方向上的距离+东西方向上的距离
在这里插入图片描述
3.闵可夫斯基距离
是以上两种距离的推广
在这里插入图片描述
h越大越精确,当h=1,表示的是曼哈顿距离;当h=2,表示的是欧几里得距离。
4.上确界距离
又称切比雪夫距离或棋盘距离,定义为两个对象的最大值的差
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据的四⼤特征 数据的四⼤特征_⼤数据数据 我们总是在谈,数据分析什么的,那我们现在先不谈数据分析,我们先来谈谈数据分析的基础——数据。那么到底什么是数据数据有 什么特征呢?这个问题虽基础却重要。 这⾥我们所说的数据,仅指应⽤于企业运营的市场信息。它是认识事物的中间环节,是事物的表⾯特征,其作⽤在于消除事物的不确定 性。它⾄少具有以下四个基本特征。 分析数据的特征之⼀时效性 所谓时效性是指数据的发⽣和运⽤要有个提前期,失去时效性,就失去了潜在机会。 举个例⼦,以前在⼴州有个⼤厦,它对数据的时效性运⽤的就很好。据说有⼀年,它的经理和别⼈聊天,⼈家⽆意间提起说那年春天⼴ 州的⾬⽔将特别⼤,于是他特意去了⼴州⽓象台证实,证实后,他开始调查,发现深圳⼀家⼚⼦⾥积压着20万多把⾬伞。当时正是11⽉份, 旱季,这家⼚⼦压着20万多把⾬伞早就想出⼿,所以这个⼤厦的经理就去了深圳,以极低的价格就把⾬伞盘进来了。结果那年⼴州的春天来 得特别早,⼀过春节,这⾬哗哗就下起来了,他趁机20多万把⾬伞往出卖,结果⼀销⽽空。这就是利⽤了信息的时效性。 简单吗?很简单,只需要到⽓象台问⼀下,但是,有多少企业会问呢?其实并不多,因为很多企业就没有提前获取数据的意识。经常是 等到下⾬了再进⾬伞,那就没买卖做了。 数据要具有时效性,或者说数据分析要有预见性,因此,⼤家在采集数据的时候,要注意数据的时效性,要具备⽤现在的数据预测未来 市场的⾛向的意识。 数据分析师分析数据的特征之⼆分散性 数据的分散性,具体表现在两个⽅⾯。 1、没有固定发⽣地 数据没有固定发⽣地,因此,需要多渠道采集数据,除了上⽹、图书馆查资料、还要留意电视、杂志等媒体的信息,关注统计局、⾏业 协会、研究机构的数据或者直接做市场调研。 2、零散分布,相互关联才完整 数据是零散的,真正能还原数据的完整性,并充分利⽤数据的,都是勤于思考,努⼒寻找数据关联性的⼈。 在旧社会的解放区,⼈⼈都听到,河北省出了⼀个⽩⽑仙姑,但是谁也没有去琢磨,当时只有20岁的贺敬之琢磨出来了:这叫做旧社会 把⼈变成⿁,新社会把⿁变成⼈。于是他就写出了不朽的名著叫做《⽩⽑⼥》,正可谓"⼈⼈之所见、⼈⼈所未思"。 数据分析师分析数据的特征之三概率性 什么是概率性?简单理解就是看似结果不确定的事情,多次重复,就会显⽰出⼀定的规律性。 ⽐如我们抛硬币。抛5次、10次,到底有⼏次正⾯向上不好说,但若抛⼏百次,⼏千次,正⾯向上的可能性就稳定在50%左右。 有⼀个⽣产装汽⽔、装啤酒的塑料箱的⼩⼚⼚长,了解了数据的概率性,就把北京邮政编码本找来,找到北京130个单位,发了130封 信,结果就回来1封,让他拿着样品过去看看,概率够低的。这个⼚长怕别⼈搞不好,就⾃⼰夹着箱⼦去了。这家单位在4楼,⼚长把箱⼦递 过去,那⽼兄看都没看,⼀推窗户,'磅'的⼀声,就给扔出去了。然后那⽼兄就往下跑,这⼚长就在后⾯追,到了楼下,⼀看这箱⼦,⼀点 没坏!那⽼兄说:"⾏!这箱⼦挺结实的,定货!"半年的买卖就有了。玩的就是概率。 数据的概率性告诉我们:成功=努⼒+等待。 分析数据的特征之四再创性 所谓再创性是指我们所看到的数据只是⼀种现象和启⽰,不同的⼈会得出不同的结论。⽽要想透过现象看本质,需要⽤发展的眼光看问 题,通过深⼊的分析,找出隐藏在市场现象背后的机会。 例如,⼆战后,松下幸之助开始研制⼀个⾮常不起眼的家庭⽤电机,好多⼈嘲笑他,说电机都是⼯⼚⽤的,你这电机家庭⼲什么使呢。 但是,松下幸之助看到了家⽤电机的发展,他说:'现在是零,将来就是⽆限。'⽤发展的眼光看问题,才能再创性地挖掘机会。 再讲个故事:有甲、⼄两个推销员,同时到⾮洲的⼀个岛国卖鞋⼦。这个岛国⾥⼈⼈都光着脚丫。甲推销员⼀见到他们都不穿鞋,于是 认为鞋⼦在这⾥没有销路;⽽⼄推销员将数据进⾏再创,看到他们不穿鞋,于是拿着鞋⼦来做调查,经调查发现:这⾥的⼈之所以不穿鞋, 是因为他们的脚都特别宽,⽽市⾯上的鞋太窄,他们穿不进去。于是他建议公司⽣产出专门适合这个岛国的鞋⼦。此外,他还把尺⼨合适的 鞋⼦送给当地的酋长,酋长⼀穿鞋,感觉舒服极了,⽽⽼百姓⼀看酋长都穿鞋了,他们也想穿。等到⽼百姓也想穿,就有市场了,原来都不 穿鞋,现在⼈⼈都要穿鞋,于是⼄推销员让鞋⼦很有销路。这个故事说明,数据只是现象和启发,只有深⼊的分析,才能再创性地挖掘机 会。 以上就是数据的四个特征:时效性、分散性、概率性、再创性。 基于时效性,数据采集要有项⽬周期; 基于概率性,数据采集要有抽样设计; 基于分散性,针对不同的数据来源要有不同的采集⽅法和问卷设计 基于再创性,要对采集到的数据信息深⼊地分析和解读
可视化数据挖掘应用实例一则——某银行信贷规则评估 吴源林 (上海财经大学MBA 学院,上海 200083) 摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示 了数据挖掘中遇到的问题和解决思路。 关键词:数据挖掘;决策树;Clementine 数据挖掘是运用模式识别技术,以及统计和数 学知识,通过对大量的、不完全的、有噪声的、模 糊的、随机的数据集进行详尽审查挖掘,以发现数 据中内在的关联性、特征和趋势。数据挖掘综合了 多种学科技术,能提供数据分类、聚类、关联和预 测等功能。 近年来,数据挖掘技术已经在 国外多行业中得到了普遍应用,尤 其在金融、电信、零售等领域。许 多企业纷纷利用数据挖掘技术作为 他们获取竞争优势的战略工具,典 型的数据挖掘应用包括生产营运管 理、营销管理和信用分析等。一些 软件公司也推出了功能强大、用户 友好的数据挖掘应用软件,如SAS 公司的Data Miner,SPSS 公司的 Clementine,IBM Intelligent Miner 等,微软公司在其客户关系管理软 件CRM3.0 中也集成了部分数据挖 掘功能。 目前国内不少企业也正在引进 和开始实施这些技术,以期提高其 决策管理能力和竞争优势。但数据 挖掘不仅仅是一个技术运用问题, 其涉及到商务活动中的各个方面。 如果我们对所研究的问题和数据挖掘方法的认识不 够深入的话,则很可能得到错误的信息,造成巨大 的经济损失。 本文通过对日本某银行审批客户申请贷款的记 录进行挖掘,展示数据挖掘中可能遇到的问题和解 决思路,并希望能起到抛砖引玉的作用。 数据挖掘功能的强大性,使其几乎可以运用于 任何商业或科研领域,为了保障数据挖掘的质量和 有效性,SPSS 公司联合几大行业巨头制定了“数据 挖掘跨行业标准流程”(CRISP-DM1)。我们下面的 挖掘过程也将严格按照该流程进行。为清晰展现整 个数据挖掘流程, 我们使用了SPSS 公司的 Clementine 工具。该工具使用节点连接的方式建立 模型,能让我们直观了解建模过程,并把注意力集 中在具体问题的分析上。 一、商业理解,亦即研究理解阶段 这一阶段把项目的目标和要求用清晰的,并把 这些目标和制约条件转化成数据挖掘问题的定义, 形成一个初步实现目标的策略; 在本例中,我们的目标是要找出银行批准或否
经营分析之 销售数据分析 数据分析(3)全文共21页,当前为第1页。 01 分析概述 02 03 04 05 思路要领 总体流程 整体分析 分析方法 目录 数据分析(3)全文共21页,当前为第2页。 销售数据分析概述 销售数据分析是辅助商品销售的一种重要手段,通过对企业历史销售数据进行进一步整理、加工、比较、分析的方法和过程。 从商品的营销情况、市场变化、价格制定、渠道分布、产品线等多角度分析客户在营销体系中可能存在的问题,为制定有针对性计划实施,减少我们对预感、猜测和直觉的依赖,减少决策的不确定性。 提高对经营的掌控能力,培养对市场的预见性 只有你用数字评价并表达你所讲的内容 ,你才对它有所了解;如果你不能用数字评价表达你讲的内容,那你只是模糊不清的认识——威廉.汤普森 数据分析(3)全文共21页,当前为第3页。 思路要领 产品 销售分布,重点产品、型号、利润,产品周期。 渠道 渠道利用分析,渠道铺货分析、渠道激励,客户分析 技术创新 产品创新和技术创新,集聚更多资源与之匹配,推陈出新 市场 总体销售成长、各产品销售、大类市场、区域市场、消费群体、市场成功因素、宣传投入分析等。 分析 主线 数据分析(3)全文共21页,当前为第4页。 整体流程 分析步骤 产品线分 价格体系分析 销售额/销售量 季节性分析; 产品结构; 价格体系 重点区域分析; 区域销售异动分 区域—产品分析 产品(系列) 结构分布; 产品—区域分析 价格体系构成; 价格-产品分析; 价格-区域分析 销售数据总结 及建议 3 区域分析 销售整体分析 总结 5 1 2 4 数据分析(3)全文共21页,当前为第5页。 整体分析-整体销售分析 销售额 销售量 分析近几年的总体销售额、销售量的成长分,与行业标准和企业成长相比较。从而分析企业的业绩状况并判断企业的业绩变化类型,挖掘潜力,避免企业成长风险。 季节 因素 依据行业销售淡旺季规律,与销售数据中的销售行程进行对比,分析淡旺季发展规律;可以为客户提供渠道压货规划及生产运做规划 产品线 通过总体产品结构分析,了解整体产品结构分布,分析重点改善、维持和淘汰产品,检索重点产品发展趋势及新产品的市场表现,加快市场发展力度;对稳定产品关注内部管理,降低成本,进行维持;对开始下滑产品询找原因,起到加强资金管理。 价格 体系 到加强通过总体价格结构分析,了解企业的优势价位区间,提供价格结构 调整的合理性。 数据分析(3)全文共21页,当前为第6页。 整体分析-区域布局分析 数据分析(3)全文共21页,当前为第7页。 整体分析-产品、价格体系分析 产品线结构分析 分析企业的销售区域及各区域的表现,检索重点区域、发现潜在市场,提出下阶段区域布局策略 产品- 区域分析 价格- 体系分析 对重点区域的营销状况予以重点分析,解析该区域的发展走势和结构特点,为未来在重点区域的发展提供借鉴 对增长或者下跌明显的区域予以重点分析,总结经验教训,以期避免潜在的威胁或者抓住机会 价格- 产品分析 将重点区域中的产品结构进行时间上的横向对比,进行多要素复合分析。 价格- 区域分析 各区域的价位构成分析,寻找各区域的主导价格以及价格层次的产品线战略分布 数据分析(3)全文共21页,当前为第8页。 整体销售分析-图例 通过对销售额和销售量的增长趋势的把握,可以找出客户增长或下滑的本质;如销售额增长大于销售量增长,说明增长主要来源于产品平均价格价格的提高,它反映了市场平均价格的提高或者是客户产品结构升级,即结构性增长;反之,为容量性增长。 很多的消费品行业存在明显的季节性趋势;根据行业规律,为企业提出生产运做及渠道供货的的合理性规划 销售额/销售量 季节性分析 1 2 数据分析(3)全文共21页,当前为第9页。 整体销售分析-图例 产品结构 从产品结构看主导产品和产品成长合理性,企业的利润源和销售量是否对应,初步判断企业未来产品规划的调整方向。 3 数据分析(3)全文共21页,当前为第10页。 整体销售分析-图例 价格体系 从价格结构看产品分布合理性,也可以判断目前企业现状与企业的战略发展方向是否一致; 4 数据分析(3)全文共21页,当前为第11页。 整体分析-图例 区域-产品分析 从区域内的产品动态来看区域内产品的组成变化,即区域的产品适应性,从而发现潜力产品、老化产品等。 5 数据分析(3)全文共21页,当前为第12页。 整体销售分析图例 区域分布 5 企业的销售区域分布看企业市场分布的合理性;企业区域布局与整体战略目标的一致性;明确下阶段企业区域布局的规划方向; 区域销售异动 6 通过对数据的分析,发现存在异动的产品或区域;并分析异动发生的原因; 数据分析(3)全文共21页,当前为第13页。 整体销售分析-图例 重点区域分析 7 从重点区域的产

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值