大数据---大数据分析的道与术(笔记)

1、大数据分析之道

1.1、做好数据分析的关键

什么是数据分析–传统数据分析与大数据分析

​ 分析方法上,两者没有本质不同。数据分析的核心工作是人对数据指标的分析、思考和解读,人脑所承载的数据量是十分有限的,因此需要将原始数据按照分析思路进行统计处理,得到概要性的结果供人分析。

​ 对统计学知识的使用重心上,存在较大不同。大数据时代,涌现出大量的个性化匹配场景。

​ 与机器学习模型的关系上,有着本质差别。大数据分析不仅是产出一份报告,还要包括业务系统中的建模潜力点,甚至阐述模型的原型和效果评测,后续基于此来升级产品。在大数据分析的场景,数据分析往往是数据建模的前奏,数据建模是数据分析的成果。

数据分析的价值与应用场景

业务发展前期、阶段性改进期:明确业务中存在的问题、基于以及改进方案

业务成熟时:提高业务效率、减少业务成本

典型的场景有三个:掌握业务状态、分析业务潜力、评估业务进展

如何做好数据分析

业务调研、创新思考、逻辑推理、可行建议

1.2、业务调研

​ 数据分析要重思路、轻方法,只有对业务有充分的调研和思考,才能产生有价值的分析思路,否则在办公室里对着数据做出各种假设和空想,最终结论只能浮在数据表面。

1.3、创新思考

–跨领域的知识面

经济学:研究人理性的一面,适用于众多商业产品相关的分析场景。

心理学:研究人感性的一面,适用于众多用户产品相关的分析场景。

统计学:统计学有很多成熟的技术方法,如果能有效运用,会给分析带来诸多便利。

–思考的习惯

1.4、逻辑推理

从数据到结论的推理中常见的错误如下:

  • 错误1. 不谨慎的归因,造成:相关性的误解:

  • 错误2. 比较对象不当,造成:缺失或不匹配的比较;

  • 错误3. 观测维度有误,造成:精心挑选的数据维度;

  • 错误4. 只信亲身经历,造成:基于个案的认知;

  • 错误5. 数据信息不足,造成:过份脑补的推理;

  • 错误6. 心中含有成见,造成:先入为主的偏见。

错误1:只因下一步业务的方向,能办到这点的只能是用因果性的数据分析,而不是相关性的数据建模

错误2:对于项目效果评估,通常使用比较对象有以下几类:自身历史、同行竞品、合理预期、同质对照组

错误3:隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论

错误4:我们的所见所闻只是真实世界的一个抽样

错误5:精细的故事,往往需要细致的数据来支撑

错误6:人们只会看见他们愿意看见的事情

1.5、可行建议

及格:言之有物,逻辑清晰的阐述事实

优秀:有独到见解、思考

满分:基于分析结论,提出有效方案

1.6、补充

业务调研+创新思考+逻辑推理+可行建议

工作报告:写自己工作的内容->写自己想表达的内容->写双方均感兴趣的内容

先说结论,然后展开要点去详述内容。

同样的内容,面向不同的受众时,需要在表达方式上有所不同。

2、统计是怎么发明的

2.1、重启思维模式

在学习统计技术时可以调整思路,不要只学“是什么”,不学“为什么”

2.2、统计的意义及指标

常见的统计指标如下:

分布度量:概率分布表、直方图

位置度量:均值和中位数

散度度量:极差、方差、标准差

多元比较:相关系数

模型评估:准确率、召回率

业务指标: 推荐产品的用户体验

​ 在所有描述性统计指标中,分布、位置、散度是三个最基本的对数据描述的方法,而相关性计算模型评估又是项目实践中最常用的技术。

(1)分布度量:直方图

数据的分布可以便捷的掌握一项数据的概况。衡量一项数据的平均位置信息,具体指标有两个:均值中位数。均值为所有数据加和后除以数据数量,而中位数为将数据排序后取位于正中间的那个。

​ 统计指标舍弃了原始数据中的部分信息,但是却使得某些规律更加突出。

(2)散度度量:标准差

一个可以衡量“数据集合发散性”的指标,即数据波动性的大小。

标准差的出现:即先理解需求,再设计产品或者技术方案来满足需求。

(3)多元比较:相关系数

分布、位置、散度,均是针对单一变量的描述性指标,当存在多个变量,需要衡量其之间的相关性时:

细分情况1:连续变量vs连续变量(例如身高和体重)

细分情况2:连续变量vs离散变量(例如年龄和喜好)

细分情况3:离散变量vs离散变量(城市规模和购物方式)

补充:相似度算法、距离度量、相似度度量、

(4)模型评估:准确率与召回率

​ 既然在诸多现实问题中,我们更关心两类中的某一类是否被正确判断,那么为何不专门针对“重要类别”来设计指标呢?关注某一类别(以正样本为例)的“分类质量”,实际上可以分成两个维度:质与量。

(1)True Positive(TP):正样本被正确地判断为正样本。
(2)True Negative(TN):负样本被正确地判断为负样本。
(3)False Positive(FP):负样本被错误地判断为正样本。
(4)False Negative(FN):正样本被错误地判断为负样本。

(1)如何衡量分类为正样本的“质”,即所有判别为正样本的实例中有多少是正确的(实际也是正样本),用公式表示为TP/(TP+FP),对应到下图中竖向的椭圆,称为准确率

(2)如何衡量分类为正样本的“量”,即所有真实的正样本中有多少被模型准确识别出来了(判别为正样本),用公式表示为TP/(TP+FN),对应下图中横向的椭圆,称为召回率

(5)业务中的指标设计

评估推荐产品的用户体验:

最简单的思路:点击率

以及:加入相关性的考量(去除不相关但高点击率的推荐)、切勿喧宾夺主、仔细阅读等

2.3、统计图是如何设计的

(1)统计图形是如何设计出来的

常见的信息有:成分、排序、时序变化、概率分布和多元相关性等

设计出来的图表类型有:饼图、条形图、柱形图、线形图、散点图和雷达图等。

**成分:**表达部分占总体比例,饼图

**排序:**表达多个元素,条形图

**时序变化和概率分布:**表达某指标随时间推移的变化趋势,或者某指标(变量)在不同取值上的概率分布,通常用柱形图或者线型图表示。

关联性:表达两个变量之间是否存在关联性,可以用散点图表示。

(2)使用统计图表的三个原则

原则1:目标原则

统计表第一要务是最大程度地辅助观点表达,而美观只是末节

原则2:极简原则

无关的信息越多,想表达的东西越淡

原则3:不扭曲原则

(3)补充材料:图形化思考的方法论

作图方案 = 六个内容维度+五种表达方式

决策作图方案分为三个步骤:拆解难度维度、确定图形类型、选择表达方式

内容维度:一件事情的构成元素:“谁/什么”(who/what),“多少”(how much),“哪里”(where),“什么时间”(when),“怎么”(how),“为什么”(why)

表达方式:有五种相对的信息表达角度,包括“简单或精细”,“定性或定量”,“愿景或执行”,“个别或比较”,“现状或变化”。

3、我们能相信统计么

3.1、统计可信么

现实生活中很少能获取到一件事情的全部样本,所以人类会通过抽样统计来认识世界

3.2、基于概率的信任

大数定律:统计学家很早之前就总结出各种不等式来量化地表示大数定律,比较著名的有:切比雪夫、伯努利、马尔可夫、辛钦、霍夫丁定理等

在这里插入图片描述

​ N为观测样本数量,v是统计值,u是真实值,ϵ为统计值与真实值之间的差距衡量。

​ 在ϵ为确定值的情况下,随着样本量N的增大,不等式的右侧逐渐趋近于0。那么,不等式的左侧(v与u差距超过ϵ的概率)也逐渐趋近于0,即v几乎等于u。这就是大数定律思想的体现:样本量越大,抽样统计值就越接近事物的真实概率

统计学家看待统计结论的方式:

观点一:基于概率的信任

观点二:观测的样本越多,结论越发置信

3.3、如何实现基于概率的信任

3.3.1、概率分布和推测:

​ 概率分布:一个变量可能存在多个可能值,在不同取值上出现的概率成为概率分布,下面是不同取值数量的一些实例。

​ 已知一个变量的概率分布(概率表),可以查表计算出该变量取某个值(或取值在某个区间内)时的概率

3.3.2、实现基于概率的信任

假设检验:判断是否是真

区间估计确定总体指标大致范围(高概率取值区间)

应用假设检验中有三个步骤:确定假设、计算概率、检验结论。

背景:一家制糖厂生产每袋500克的白糖,由于装袋机器可能产生误差,所以每袋糖应在500±5克的范围。为了检测这批产品重量是否合格,我们去超市买了30袋糖,并进行了称重。结果发现30袋糖的平均重量在498克。怎么判断是糖厂偷工减料了,还是装袋误差导致这样的结果

假设检验:制糖场是否偷工减料?
假设:糖厂生产的每袋糖平均重量在500克。
数据:随机购买了30袋糖,平均重量在498克。
检验:糖厂有没有造假?
如之前所述,首先计算在“糖厂没有造假”的假设下,观察到抽样数据的概率,分为两个步骤。

步骤一

在这里插入图片描述

步骤二:将抽样均值=498克转化为标准正态分布的取值后,查标准正态分布的概率表,得到检验概率为0.48%。

总结:检验概率的多少才能成为我们相信这家糖厂的基础呢?这就要看我们对糖厂的信任程度。如果我们非常信任糖厂,那么只有检验概率<0.1%才拒绝糖厂的声明(假设),因为发生这样巧合的概率实在是太小。如果我们对糖厂的诚信没有信心,那么,允许检验概率<5%,我们就可以不相信糖厂的声明

区间估计实例

区间估计:抽样观测到30袋糖的重量,糖厂生产每袋糖重量的总体均值,95%的可能在什么范围(区间)内?

步骤一:

image-20220620105149339

对µ进行区间估计。

区间估计:制糖厂的真实生产标准在什么范围?

image-20220620105328977

疑问:我们怎么知道总体样本的标准差σ?
在假设检验中,我们用抽样样本的标准差s代替总体标准差规避了这个问题。这个替换真的可以吗?总体标准差和抽样样本的标准差是一样的吗?

(1)当观测数据足够多时,大数定律会保证两者相差不大。实际上,超过30个抽样样本做这个替换大概率没有问题。
(2)当观测数据较少时,尤其是少于30个抽样样本时,就不能随便做这个替换,如果一定要替换,需要把概率计算中的正态分布换成T分布。

步骤3:统计量换成T分布

3.4、应用理念

​ 一方面分类维度要足够细致,够细致才能准确地定位细分群体,不会淹没有效的信息;另一方面要保证分类中含有足够样本量,样本量足够才能使大数定律发挥效应,得到置信的统计结论。

3.5、真确的认识世界

1.平行世界与同质对照组

(1)质疑1:可不可能是其他因素导致的

(2)质疑2:怎么判断是否是抽样存在偏差

​ 同质对照组。既然人类无法制造“平行世界”,那么可以找一个与实验组足够“同质”的对照组,起到与“平行世界”类似的对比效果,这种方法又称为**“A/B测试”**。因为实验组和对照组完全一致,在实验组上实施策略,在对照组上则不做任何事情,最后实验组和对照组的差异就是策略效果的评估结论。

​ 要保证实验组和对照组表现一致,在构造对照组时需注意两个原则:

原则1:通过分层抽样,保证对照最的样本构成与实验组非常相似。

原则2:选择样本数量足够大的实验组和对照组,使产生抽样偏差的概率变小。

3.6、设计统计方案中的方法论

思考为什么的态度,并掌握一下5种设计思考方法论:

  • 以简为始,不断优化
  • 理想蓝图,逐渐逼近
  • 观察典型,启发思路
  • 分清主次,化繁为简
  • 需求出发,贴近应用

4、统计分析方法–拆

针对指标的拆分有三种办法:分布分析、趋势分析、因素分析。

针对样品的拆分也有三种办法:个案分析、异常分析、分组分析。

4.1、分布分析

​ 分布分析是使用频度分布表(或直方图或散点图),越过概要统计指标,进一步察看数据的详细情况。

4.2、趋势分析

​ 趋势分析分为单指标的趋势分析和多指标的趋势分析。单指标趋势分析关注单个指标变化趋势的4种构成,通过拆解来透彻掌握趋势中的多种信息。多指标的趋势分析关注多个指标变化趋势之间的相互影响,通过“系统基模”分析来掌握问题背后的全局逻辑。

(1)单指标趋势分析

趋势分析是将一条原始的时序曲线(随时间变化的指标曲线,如企业近36个月的营收变化),拆分成四个组成部分:趋势、周期、异常波动

(2)多指标的趋势分析

​ 主要采用系统基模的理论。是对多个指标之间的变化趋势,系统化的逻辑分析。多个指标相互作用和影响,不能独立的看待每个指标的变化,需要从全局出发,更透彻的理解系统问题,并找到更根本的解决方案。

​ 系统基模理论由“三种基本元件”、“9种常见基模”两部分构成。

基本元件:增强环、调节环、时间延迟

增强环:多个指标之间互相促进,形成交互式增长。

调节环:多个指标之间互相制约,最后达到某个平衡点。(例如企业的“体量”和“盈利率”)

时间延迟:很多指标之间互相影响,具有非线性的实验特点。

常见基模

​ 饮鸩止渴、富者愈富(成立事业部或者子公司)、舍本逐末、目标侵蚀、恶性竞争、成长上限、共同悲剧、意外之敌、成长与投资不足

4.3、因素分析

​ 新接手一项业务,首要工作就是建立合理的“指标体系”,才能随时掌控业务进展,分析业务中的主要问题并规划改进方向。

​ 常见的拆分方法有两种:

(1)横向因素拆分(空间逻辑)

​ 将综合性指标按照某种维度拆解成共同影响结果的几个关键指标,典型的有针对企业财务的杜邦分析法。分解指标之间是并列的逻辑关系,分别代表不同的构成因素,例如企业的毛利可以拆成销售收入减销售成本。

(2)纵向阶段拆分(时间顺序)

​ 将结果性的指标按照业务实现流程进行拆解,又称为漏斗分析法。每个拆分指标之间是串行阶段的关系,如消费者的营销过程可拆分成:知晓、兴趣、比较、消费、评价。

​ 两者的主要区别是:一个的拆分维度是共同影响的并列因素,另一个的拆分维度是时序先后的递进阶段。

4.4、个案分析

​ 统计数据和个案分析并不冲突,一个用于启发分析思路,一个用于得到置信的判断结论,作用在不同的地方。

4.5、异常分析

​ 这些意外往往是启发新思路,推进产品改进的源泉,称为“异常分析

4.6、分组分析

​ 只有把样本按合适的维度拆分成更细致的分组,才能透彻理解数据的内涵。

4.7、附加阅读

消费者偏好和企业差异化战略:

无差异曲线和差异化产品的经济价值:生产需要专一、消费需要多样

通过市场细分提供差异化的产品服务,也产生两种价值。
(1)专注的价值:针对某个细分市场,用户需求更加鲜明,产品容易做的专业。
(2)差异化的价值:以相同的成本,实现对目标用户群更多的体验价值。

企业差异化战略的设计步骤:

确定需分市场+分析价值组合+结合企业优势的成本核算+最优战略的执行方案

4.8、不同分析方法的结合和创新

​ 在项目实践中,往往会结合多种分析方法,创造出最适用于业务场景的分析方法,以Cohort Analysis为例:

​ Cohort Analysis是将“分组分析”和“趋势分析”相结合的方法,从一个时间跨度(生命周期)来观察不同用户分组的行为变化趋势。

​ 将用户依据某些特征进行分组,研究不同分组的用户在不同生命周期的表现情况。主要有三个步骤:

(1)如何定义分组:维度1—决定用户分组的某种特征组合,通常用不同的趋势线标注

(2)如何定义生命周期:维度2—某种衡量用户生命周期的方法,通常转换为坐标系的横轴

(3)如何定义观测量:观察指标,通常转换为坐标系的纵轴

案例1:分析不同用户群在几个月“户均购买量”的变化情况

(1)定义分组:根据“历史使用产品的频率”作为分组条件(经常,偶尔,极少)

(2)定义生命周期:以 自然月份 为周期,如2015年的1、2、3月份

(3)定义观测量:考察“户均购买量”

案例2:分析不同月份的新注册用户,产生二次购买行为的时间间隔

(1)定义分组:根据“首次购买的月份”作为分组条件,如2015年的4、5、6月份。

(2)定义生命周期:以“二次购买距离首次购买的时间间隔”为周期,如0个月(当月)、1个月、2个月……。

(3)定义观测量:考察“用户数”

4.9、与领域相关的分析方法

​ 例如:矩阵分析法:选择两个或者三个维度,根据业务样本在这些维度的取值范围进行切割,形成多个象限,对不同象限中的业务采用不同的策略:

​ 下面分别介绍这种通用的分析方法在项目安排、时间管理、产品分析以及战略决策方面的应用。

领域1:项目安排:成本/收益:

(1)优先:低成本高收益,第一优先级完成。
(2)攻坚:高成本高收益,需要安排精兵进行攻坚,做好持续投入的准备。
(3)鸡肋:低成本低收益,当没有重点项目的时候,穿插安排人力完成。
(4)抛弃:高成本低收益,放弃这样的项目。

领域2:时间管理:重要/紧急

在这里插入图片描述

​ 良好的时间管理是高效工作、发展事业的基础。可以用矩阵分析法管理个人时间,把手头的事情按照“重要性”和“紧急性”分为以下四个象限。

(1)重要紧急:马上去做。
(2)重要不紧急:忙完重要紧急的事情,有计划的去做。
(3)不重要紧急:尽量减少该类情况,如果整天忙于此类事情,或者因为没有良好的规划工作,导致成为“救火队员”;或者因为该工作本身不具备成长性。如果是前者,需要反省自身,不断改进工作流程。如果是后者,需要思考自己是否愿意长期从事该性质的工作。
(4)不重要不紧急:放弃这样的事情,或者请更合适的人代劳。

领域3:产品分析:广度/频度

领域4:占有率/利润率/发展率

5、数据分析的高级工具:OLAP与机器学习

5.1、OLAP技术

​ OLAP的全称为On-Line Analytical Processing,与当时广泛应用的联机事务处理OLTP(on-line transaction processing)相对,更多面向对分析决策人员的数据汇总和查询服务。

​ OLAP的主要应用是汇总分析较高层的统计数据,而不是直接处理庞大的原始日志。

5.1.1、OLAP的核心概念:维度和度量

​ OLAP是实现“分组分析”和“因素分析”的便捷工具。OLAP最重要的两个概念“维”和“度量”的设计,就分别对应着“分组分析”和“因素分析”。

​ **“维”**是人们观察客观世界的角度。可以按照事件一个维度分析,或者通过地域、品类、或者时间三个维度进行分析。“维度”本质上是“分组分析法”

​ **“度量”**是人们观察世界所使用的指标,或者说是通过“维度”观测到的内容。

​ 同样以企业的销售数据来说,可以计算销售额、进货成本、毛利润、运营成本、净利润、净利率等多种指标,分别体现企业不同方面的经营状态。拆解指标会使用“因素分析法”,如毛利润可以拆解成“销售额-商品成本”,毛利率可以拆解成“毛利润/销售额”。

​ 基于“维度”和“度量”的概念,可以总结OLAP的本质:从不同层次的不同维度,观测各种度量指标。

5.1.2、OLAP的核心操作:“切片/切块”与“钻取/上卷”

​ (1)切片/切块:切片和切块是类似的概念,使分析聚焦于某个维度取某值的部分数据。。比如,分析项目A只对2010年第三季度的销售数据感兴趣,分析项目B只围绕上海地区的销售数据展开。

​ (2)钻取/上卷:钻取和上卷是两个相反的概念。钻取是在同一维度从更高层拆到更低层次来观察数据,即以更细的粒度观察数据。上卷的过程与钻取相反,一开始从最细的粒度察看数据,然后逐层向上观察更宽粒度的数据,以期获得更宏观的数据情况。

​ 钻取的主要应用是从概要指标的异常,层层定位到细节数据,便于分析原因。上卷的主要应用是从一个细节数据出发,向上扩展到更广阔的宏观数据,以便得到全局的视角。

5.1.3、OLAP的应用场景

交互分析和万能报表:

交互分析:当2010年第三季度销售额出现下降时,先用钻取定位是哪个月、甚至哪一周销售额下滑最明显;再通过切片的方式,寻找其他维度的特征,如是否只在上海地域出现了下降,还是所有地域的普降?是

**万能报表:**便捷地生成任何维度组合的统计报表。如老板想看2010年第三季度的三个月份,日用品在不同省份的销售额和利润率。通过几个简单的切片操作即可得到期望的报表结果。

5.2、无监督学习模型

​ 在数据分析工作中,常用的机器学习模型有无监督学习监督学习两类。
​ 两者的区别如字面描述,在于是否提供**“样例样本”“监督”**机器学习。样例样本是指在项目启动时,是否存在明确的分类类别和一些已经分好类别的样本集合。

​ 用如下对客户分类的例子,比较“无监督的聚类算法”和“有监督的分类算法”在实现过程和结果上的差别。

(1)分类任务:面向企业客户的广告业务,分行业运营客户:使用机器算法自动标注行业。

​ 制定了32个行业,通过人工标注少量客户的所属行业,如下表所示的数据。如果输入X(又称为特征)代表客户广告信息中的高频词,输出Y(又称预测值)是客户行业。在机器学习之前,需要知道Y有32个行业的可能取值,同时也拿到了一部分标注好Y取值的样本。

(2)聚类任务:

​ 不同的用户行为意味着不同的需求,一直三个行为属性:消费方案的自主调整次数、与客服沟通的次数、有效调整的次数,可以用聚类算法将在这三个属性取值上类似的客户聚到一起。

​ 最后将客户聚合成了4个类,以《西游记》中师徒4人的形象来命名,并制定了相应的运营方案。从这个过程可见,在机器学习之前,我们除了知晓输入特征X,对类别结果Y完全不清楚,也没有拿到任何可以指导机器进行学习的样例(Y-X)。

比较分类和聚类的过程。对分类问题,需要给机器提供一些监督样本(又称训练样本),既有输入X(客户购买的搜索词),也知道输出Y(客户所属的行业),机器通过观察“监督样本”学习到本质规律,再通过学习到的规律预测一些“已知X,未知Y”的样本。而对聚类问题,事先并不知道会分成什么类别,只知道输入特征X,想让机器根据样本特征本身的相似程度,确定聚成几个类别。

​ 下面介绍数据分析中两个常用的无监督算法:聚类关联规则,一个是将数据样本按照特征的相似性自动划分类别;另一个是从“共现信息”的记录中挖掘“频繁模式”。介绍方法从“应用场景”入手,抽象出“算法需求”,展示“设计思考”过程,最后实现“技术方案”。

聚类分析

(1)应用场景:已知每个客户三个维度的数据特征,如何自动将客户划分为k类

(2)算法需求:在三个维度形成的立体空间,根据样本点之间的距离,自动化划分类别。

(3)设计思考:对于聚类算法亦可以先设定一方,优化另一方,再固定另一方反过来优化这边。

(4)技术方案:

​ 步骤1:将所有样本中随机抽取k个作为每个类别的中心点

​ 步骤2:对于剩余的样本点,计算其到每个中心点的距离,选取最近的一个类别加入

​ 步骤3:根据每个类别覆盖的样本点,重新计算其中心点位置,取平均值。

​ 步骤4:反复迭代2-3,直到中心带你位置几乎不再发生变化。

K-means算法,它的核心思想是用迭代优化的思路来解决双目标的问题:先根据“样本分类”计算“类别中心点”,还是先根据“类别中心点”为样本归类。

​ 聚类算法在数据探索阶段非常实用

关联规则

(1)应用场景:根据客户在超市中的购买记录,分析商品与商品之间的购买关联

(2)算法需求: 在交易记录中找到,用户购买x,大概率会购买y 的高价值规则

(3)设计思考: 真正有价值的是同时具有“频繁出现”和“高条件概率”的规则,在计算条件概率之前,应该先用“出现频率”进行过滤。

(4)技术方案:

​ 衡量关联模式价值的两个指标“出现频率”及“条件概率”,专业名称叫做支持度置信度。规则中涉及到的商品称为项,涉及到商品的集合称为项集,其中出现频率(支持度)较高的项集称为频繁项集。基于这些概念,算法执行的过程可表示成:统计支持度来挖掘频繁项集,再计算频繁项集的置信度,输出高置信度的关联规则。
支持度Support:所有交易中包含{X、Y}的概率Number(x,y)/Number
置信度Confidence:包含X的交易中也包含Y的条件概率Number(x,y)/Number(x)

​ 关联规则算法有两项核心任务:计算支持度来得到频繁项集与计算置信度来生成规则。

聚类算法和关联规则是两种在数据探索阶段常用的分析算法。从这两个算法的实现原理看,虽然无监督学习十分强大,能“无师自通”地确定数据之间的关联,但这仅仅是一种“伪无师自通”。虽然没有给算法提供学习样本,但在算法内部设计了明确的优化目标:寻找满足某种特征的模式。聚类的目标是:距离相近为一个群体,群内尽量内聚,群间尽量远离。关联规则的目标是:挖掘这样的频繁模式“出现了A,高概率出现B”。无监督算法并不是真的不需要人的指导和监督,只是监督不以“提供样例样本”的形式出现。

5.3、监督学习模型

​ 监督学习模型则多用在业务架构已经清晰,急需提高某业务环节的效率时。以“寿龄预测”为例,探讨一个简单的回归模型:

​ 寿龄预测的任务:

​ 在医院收集了3000位过世老人的病历,病历中标注有“是否吸烟”与“寿龄”的信息,其中2000人不吸烟,1000人吸烟。期望建立一个基于“吸烟信息”预测“寿龄”的模型,输入一个人“是否吸烟”,输出他“最可能的寿龄”。

(1)特征:输入的已知信息,如是否吸烟、是否酗酒、月平均熬夜天数等,称为“特征”,用X表示。

(2)预测值:期望输出的预测结果,如可能寿龄,称为“预测值”,用Y表示。

(3)模型:代表Y-X之间的某种函数关系,比如“大量吸烟、酗酒、每日熬夜的人大概率只能活到50岁”。

(4)样本:收集到含有是否吸烟和寿龄信息的3000个记录称为“样本”(或训练样本),机器要从这些同时知道X与Y的样本数据中学习规律,构建模型。这也是有监督学习和无监督学习的区别之一,有没有监督机器进行学习的“样例样本”。

​ 机器的学习方案:

(1)确定预测方式:吸烟是一个寿龄,不吸烟是一个寿龄

(2)设计一个评价指标:越策越准确,该指标越小。最简单的思路,加和每个训练样本的“实际值与预测值差异

(3)依次尝试50岁到100岁的不同预测值。使用3000个已知样本做实验数据,测试哪个猜想使得2最小,即最优

​ 如果能收集到数量巨大的样本集合,获取同样数量巨大的有效特征,那么使用不同特征的取值组合切分样本,会形成千千万万个小空间。在每个小空间里,预测值的分布会尖锐到如一根竖线,并且统计置信(空间里有足够的样本数)。此时,机器学习就可以准确的预测人的寿龄了。机器学习模型通过掌控更多的信息(特征和样本),不断减少“无常”和”天算”,使得每种特征条件下的寿龄分布变“尖锐”,极限尖锐到几乎为一个定值。

5.3.2、监督学习的完整步骤

监督学习的三个核心关键步骤,:假设空间、优化目标和寻解算法。展开来说一共八个步骤:

八个步骤:

**第一步:**业务分析:将业务问题转化为算法问题,确定使用模型类型(回归、分类、排序、推荐等)和输出y的含义(数值,分类标号、概率等)

**第二步:**特征工程:探索哪些特征会影响到预测结果y,验证特征的有效性,并进行特征选择。(有效特征越多,模型预测能力越强,无效越少,可以减少性能开销和干扰)

**第三步:**样本处理:收集历史上蕴含Y-X关系的样本数据,确保收集样本的分布和真实分布是无偏和充足的,这是及其能够正确学习Y-X关系的基础。

**第四步:**假设空间:根据业务理解,圈定Y-X关系的可能范围。如果不圈定范围,机器是无法学习的。Y-X的关系究竟是线性关系、平方关系、三角函数关系、指数函数关系、亦或是某种分段函数关系?假设空间圈定的范围越宽(或者说模型的表示能力越强大),需要的学习样本就越多。

**第五步:**优化目标:分析业务场景的需求,确定模型优化目标,即怎么评价Y-X的关系是好的,是期望的,又称为评价函数。

**第六步:**寻解算法:及其按照设定的“寻解算法”,从假设空间中把“使优化目标在训练样本上取值最小”的Y-X的关系找到。

**第七步:**学习理论:第五步的最优解是在收集到的历史数据上的最优解,它是否会在未来的样本上也有出色的表现,则需要研究清楚模型真实的预测能力。通常可以将收集到的样本分成两个部分,一部分交给机器进行模型学习,称为训练样本;另一部分则预留作为测试模型真实表现,称为测试样本。

**第八步:**评估模型效果是否能解决业务问题,并明确下一步的优化方向

  • B(Business analysis):业务分析,将业务问题转换成算法问题
  • F(Feature engineering):特征工程,能影响预测结果的可能因素
  • D(Training data):样本处理,已知的无偏差、足够的数据
  • H(Hypnosis set):假设空间,圈定的可能关系集合
  • T(Optimization target):优化目标,关系(参数解)好与不好的衡量标准。
  • A(Learning algorithm):寻解算法,快速搜索假设空间,确定最优解。
  • L(Learning theory):学习理论,样本量和采用模型复杂度的权衡,样本能支持模型的有效学习
  • E(Model evaluation):模型评估,可用性和改进方向。
展开示例:

虽然尽量用通俗的语言描述,但对于刚接触机器学习概念的读者,这些步骤还是有些抽象。下面以寿龄预测模型的学习过程为例(Y-X的函数关系为:寿龄=75+是否吸烟×-5+是否酗酒×-1),看看每个步骤具体产出什么。

第一步:经过业务分析,确定使用回归模型,期望模型输出一个寿龄数值。—明确预测值Y。

第二步:经过与医生(领域专家)的讨论,确定吸烟、酗酒等生活习性会影响一个人的寿龄。—明确输入特征X。

第三步:从医院收集到3000个已故人群的病历数据,包含吸烟、酗酒和寿龄信息。—拿到了历史上蕴含Y-X关系的样本。

第四步:由于是根据有限信息简单建模,所以假设寿龄Y与吸烟特征X1、酗酒特征X2之间是线性关系,可以用线性方程表示。—圈定Y-X关系的可能范围。

第五步:设计评价Y-X关系优劣的指标。期望在3000个已知样本上预测的越准越好,使用每个样本|预测值-实际值|的误差加和来衡量。—明确如何评价Y-X关系的优劣。

第六步:用穷举算法,分别针对吸烟,和不吸烟的样本,依次尝试50~100岁间不同预测值,在3000个样本上计算评价指标。确定使得评价指标最低的预测值,得出“不吸烟预测75岁,吸烟预测70岁”的结论。同样方法计算得出:“酗酒对寿龄的影响为减1岁”,形成Y-X关系的模型方程:寿龄=75+是否吸烟×-5+是否酗酒×-1。可见,寻解算法实际上是在假设的基础上确定最佳参数取值。—得到最优的Y-X的关系。

第七步:上述预测模型在已知的3000个样本上计算评价指标表现最优,但并不一定代表其在未来的预测上表现最好。举个极端的例子,如果今天收集的不是3000个样本,而是2个样本:一个是小明的爷爷吸烟酗酒活到了90岁,一个是小明的叔叔不吸烟不酗酒,但40岁就生病早逝。小明只提供这两个样本给机器学习,机器一定会学到吸烟酗酒对延长寿命很有帮助。所以,研发模型时要仔细的处理这个问题。

第八步:将“学习到的模型”放到真实的生活场景中验证。把寿龄预测模型套到周围前辈身上,发现预测的并不准确。这是肯定的。与寿龄相关的因素太多了,除了生活习惯中吸烟、酗酒、熬夜、不健康饮食、工作压力、生活烦恼之外,还有性格、从事的工种、周围人的影响,甚至在某天踏上了某航班都可能影响寿命,只用两个特征预测寿龄在实际中当然效果不佳。

B:回归问题,输出是预测寿龄的数值
F:两个特征,是否吸烟、是否酗酒
D:已知寿龄和两个特征的3000个样本
H:寿龄与吸烟、酗酒之间是线性关系
T:在3000个已知样本上,预测值与真实值的绝对值误差加和最小
A:穷举算法,预测值在50~100岁间逐个尝试
L:3000个样本足够支撑简单模型
E:模型预测效果不好,预测周围的人都不准

5.3.3、监督学习的案例:信贷风控模型

第一步:业务分析:信用评级模型期望输入与客户相关的一些特征X,如客户所属行业、店铺流水、消费者评价等,预测输出客户信用Y

第二步:特征工程:考虑那些因素可能会影响用户信用,结合业务调研,将有效特征按如下方式整理成三类:难以获取、业界均有、企业独有。

第三步:训练样本:收集历史上企业客户的信贷记录作为训练样本。 初始没有训练数据时,模型系统时冷启动的。

第四步:假设空间:期望信用模型的输出值Y代表客户违约概率,取值范围在0~1(且具有良好的模型分辨率)

Sigmoid函数(S=1/(1+exp(-z)))

它满足我们对这个场景的期望:

期望1:输出值域范围从-∞~+∞,变换到0~1;

期望2:在0.5概率左右曲线更加陡峭,接近0或1的部分则更加平缓(对分类边界附近的样本点区分度更好);

期望3:连续平滑的曲线,不存在突变转折点。

第五步:优化目标:优化目标主要有两个思考维度:合理性和易解性

​ “合理性”是要从道理上讲的通,有实际的业务意义;“易解性”则是从寻解算法的便利性考虑,在满足业务需求的情况下,尽量使得优化目标容易寻解(快速的定位最小值)。

​ 在实际项目中需要把业务目标转化为模型算法的优化目标。虽然业务场景的目标有多个,但模型的优化目标只能有一个,所以需要将不同目标组合在一起,常见的方法有两个:

方法1:两个目标归一化后,进行加权组合。如新目标为p×用户体验+(1-p)×商业收益,其中0<p<1。
方法2:以一个为主要目标,另一个为约束的方式。如新目标为在用户体验指标不低于X的条件下,最大化商业收益。

第六步:寻解算法:理想的模型Y~X是在假设空间中使优化目标达到最小的函数关系。(梯度下降:可形象比喻成“盲人走路法”。虽然不知道最低点的位置,但对当前点求导,可知使优化目标变小的方向,然后向该方向前进,反复这个过程就能一步步走到谷底。)

第七步:学习理论:通过上述过程学习到的Y-X模型,在收集的训练数据上表现很好,但它能否在未来没见过的样本上依旧出色?

第八步:模型评估:评估模型的分类效果。

5.3.4、掌握机器学习的更多知识

为何能学:数据分析领域的“细致与置信的权衡”在机器学习领域即为“过拟合与欠拟合的权衡”,均以大数定律为推演基础。

如何学好:尝试更复杂的“数学函数”,实现“条件组合”或模拟“人脑结构”等。以便模型能学习到更复杂的信息。

如何应用:

在这里插入图片描述

深入技术:怎么学好?

(1)线性假设为何学习不好:

存在大量 “非线性关系” 以及 “组合关系”

解决思路:

1、尝试更复杂的“数学函数”(如多项式函数)

2、实现“条件组合”(树形模型)

3、模拟“人脑结构”(神经网络)

实践经验:怎么应用

​ 掌握模型仅仅是基础,对应用效果更加有效的往往不是模型本身的优化,二十模型之外的业务分析、样本处理、特征工程、模型评估等环节,下面就以信用评级模型的样本为例,展示在模型之外所需要做的诸多工作。

​ 存在的问题有:冷启动、训练环境和应用环境不同、两种预测错误所付出的代价不同。下面进行展开:

冷启动

​ 在没有数据积累的情况下,只能先请相关领域专家基于知识和经验总结出一套规则,作为初版模型上线,等积累一定数据量以后,在升级到基于数据的机器学习模型。

​ 当使用专家评分法时需要注意:

(1)隔离性和匿名性:

(2)多轮反馈性

(3)统计特性

在一定数据积累后即可着手构建机器学习模型,然后将专家规则模型和机器学习模型融合起来使用。较简单的方法是用线性权重组合。

训练与应用的环境不同

​ 在互联网企业,通常是线下训练模型,应用到线上系统,所以亦称为“线下与线上的数据分布不一致”。两个环境不一样,会使模型的预测效果很差。

小样本和不平衡的问题

​ 如何解决样本不平衡的问题,有两种等价方式,第一种是小样本扩充,第二种是修改优化目标的代价矩阵。

机器学习模型的局限

局限1:预测模型只能预测隐藏在过去历史中的未来,而预测不了突变的未来。

局限2:机器学习不等同于人工智能。

局限3:研发包含策略模型的系统,改变了传统的软件研发流程和团队结构。

数据分析典型场景的解决方案

​ 普遍又典型的数据分析场景有三个,掌握业务状态,分析业务潜力,评估业务进展。

场景1-掌握业务状态:通过对业务核心指标的监控、解读和分析,掌握业务经营现状,其中又分为两个细分场景,追查指标波动和以核心指标做业务总结。

方案总结:OLAP技术;分组分析;因素分析;异常分析;趋势分析;设计指标等。

场景2-分析业务潜力:产品当前的最主要问题是什么?下一步的发展潜力在哪里?从数据中挖掘问题原因并提出对策,指明产品下一步的改进方向

方案总结:个案分析;聚类分析;回归模型;结合模型的业务应用等

场景3-评估业务进展:新上线的产品策略或新推进的运行活动,带来多少业绩提升?项目的覆盖面和影响面如何?其中存在怎样的问题,如何进一步优化等等。

方案总结:同质对照组;相关性计算;因素分析-漏斗法。

6、大数据时代

6.1、大数据的价值

6.1.1、大数据的价值or大数据的技术

大数据的三大特点:数据容量大、数据类型多样、处理速度快。

价值1:大数据使“精细刻画”成为可能

价值2:大数据使“智能学习”变成可能

价值3:数据叠加的价值是非线性增长:1+1>2

大数据对企业的价值:

应用模式1. 与长尾经济模式结合(或称为“个性化匹配经济”),提供个性化产品或服务。

​ 在互联网时代,长尾经济模式开始盛行,一方面提供给用户个性化的产品和服务,另一方面这种个性化服务是通过数据技术和机器程序实现,极大的降低了成本,可总结为“以低成本提供个性化价值”。这个模式实现的关键是数据技术+软件程序,

应用模式2:基于数据分类、预测、挖掘、提升业务效率。

​ 在大数据时代之前,很多业务规则主要靠人的领域知识和主观判断,而今天,这些业务场景均可用数据技术来提升效率。

​ 大数据意味着一整套完整的解决方案,包括数据、业务、需求三个部分。明确“什么样的数据”可以支撑“什么业务形式”,满足客户的“什么需求”

6.2、企业如何向数据技术转型

6.2.1、向数据技术转型

​ 数据技术在大多数互联网企业中被广泛使用,同时也是很多企业的“核心优势”。

​ (1)规模:当产品具有一定的用户规模后,新产品很难进入。

​ (2)差异化定位与品牌:企业形象

​ (3)资产需求:制造型企业需要生产资料(厂房、设备等),所以大多是重资产的企业。

​ (4)辛苦的低利润行业、既存企业的战略性组织行为

​ (5)独有资源:企业独占性质的资源,该资源对目标业务可以形成极大辅助,典型分为多元化经营、数据和技术等。

6.2.2、向数据技术转型的困难

原因1:相信直觉、漠视数据的传统文化

原因2:企业的成功基因

原因3:数据技术的发力阶段

6.2.3、向数据技术转型

​ 大数据技术是一套数据+业务+需求的完整解决方案,思考关键不在于数据技术本身,而在于能够收集到足够多、有价值的数据,以及找到合适数据技术的业务应用,即从链条的两端向中间思考。

(1)从数据出发的思考:企业有哪些数据积累,基于这些数据可以提供什么业务,满足什么用户需求。

(2)从需求出发的思考:企业的目标用户群有什么需求,这些需求可以通过什么产品业务来满足,构建业务又需要哪些数据。

6.3、数据技术的职业发展

6.3.1、数据技术是朝阳行业

​ 一个企业如果想把数据技术应用到生产实践和产品服务上,并不是购买一些处理数据的软件工具就万事大吉。需要懂得数据技术的人和业务人员协作,用数据技术来改造整个业务流程。

6.3.2、数据技术的职业选择

​ 在商场和职场中,人们无数次见证了选择的重要性大于车快的重要性,这就是俗语“选择大于努力”

​ 数据技术主要涉及到以下五个领域:(由贴近业务到技术背景)

(1)业务分析

(2)数据分析

(3)数据挖掘

(4)机器学习

(5)人工智能

6.3.3、加入数据技术领域的三部曲

(1)编程基础

(2)项目实践

(3)理论知识

7、数据技术团队组建和发展

7.1、自我修炼与团队领导

数据分析团队通常有四种类型的工作:

(1)日常业务监控与分析:

(2)专题分析

(3)搭建数据系统

(4)建设数据模型
所以大多是重资产的企业。

​ (4)辛苦的低利润行业、既存企业的战略性组织行为

​ (5)独有资源:企业独占性质的资源,该资源对目标业务可以形成极大辅助,典型分为多元化经营、数据和技术等。

6.2.2、向数据技术转型的困难

原因1:相信直觉、漠视数据的传统文化

原因2:企业的成功基因

原因3:数据技术的发力阶段

6.2.3、向数据技术转型

​ 大数据技术是一套数据+业务+需求的完整解决方案,思考关键不在于数据技术本身,而在于能够收集到足够多、有价值的数据,以及找到合适数据技术的业务应用,即从链条的两端向中间思考。

(1)从数据出发的思考:企业有哪些数据积累,基于这些数据可以提供什么业务,满足什么用户需求。

(2)从需求出发的思考:企业的目标用户群有什么需求,这些需求可以通过什么产品业务来满足,构建业务又需要哪些数据。

6.3、数据技术的职业发展

6.3.1、数据技术是朝阳行业

​ 一个企业如果想把数据技术应用到生产实践和产品服务上,并不是购买一些处理数据的软件工具就万事大吉。需要懂得数据技术的人和业务人员协作,用数据技术来改造整个业务流程。

6.3.2、数据技术的职业选择

​ 在商场和职场中,人们无数次见证了选择的重要性大于车快的重要性,这就是俗语“选择大于努力”

​ 数据技术主要涉及到以下五个领域:(由贴近业务到技术背景)

(1)业务分析

(2)数据分析

(3)数据挖掘

(4)机器学习

(5)人工智能

6.3.3、加入数据技术领域的三部曲

(1)编程基础

(2)项目实践

(3)理论知识

7、数据技术团队组建和发展

7.1、自我修炼与团队领导

数据分析团队通常有四种类型的工作:

(1)日常业务监控与分析:

(2)专题分析

(3)搭建数据系统

(4)建设数据模型

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值