这是在群里不知名好哥哥总结的基础上(可能迭代了多个版本),本人根据个人错题做了微小的修改和补充,方便大家学习。
发现有错误和补充的欢迎大家在评论区留言。
数字化工作方法
1.二次规划:求解方法:拉格朗日法、内点法、椭球法、Lemke方法、有效集法
2.整数规划:求解方法:
a)分枝定界法:可求纯或混合整数线性规划。
b)割平面法:可求纯或混合整数线性规划。
c)隐枚举法:用于求解0-1整数规划,有过滤法和分枝法。
d)匈牙利法:解决指派问题(0-1规划特殊情形)。
e)蒙特卡罗法:求解各种类型规划。
3.线性规划:
a)求解方法:单纯形法、改进单纯形法、对偶单纯形法、原始对偶方法、分解算法和各种多项式时间算法
b)标准型:
i.通过松弛变量或者剩余变量将一般线性问题的约束条件中的不等式化为等式
ii.通过变换(比如同乘-1)将约束条件右端的常数转换为非负数
iii.将决策变量转换(比如加入新变量)为非负数
4.近因分析:
a)头脑风暴法技术:是-非矩阵、名义群组技术、配对比较法
b)量化分析工具
关联分析:
1.散点图-两原因之间关系探索
2.关联图-复杂情境下使逻辑可视化;为弄清一个层面的原因对另一个层面的原因影响后,探求原因链
3.亲和图-针对定性数据
4.问题集中图-联系物理位置
差异分析:
1.漏斗分析-通过产品、渠道等进行拆分,进行横向比较
2.用户画像-寻找客群特性
3.留存分析
4.跟踪数字足迹
5.根因分析:矩阵图、五问法、因果图(鱼骨图)
①原因型(鱼头在右):
鱼尾:问题或现状;
鱼头:目标;
脊椎:达成过程的所有步骤与影响因素
②对策型(鱼头在左)
③整理问题型(鱼头在左):各要素与特性值间不存在原因关系,而是结构构成关系
创建图形方式:分散分析法、原因枚举法
数据分析模型
时间序列:
a)波动:
①循环波动指周期长度不定的变动模式
②固定以年/月等为周期波动的是季节波动
b)模型:
①Winter模型:同时含有平滑值(随机成分)和季节成分,因此可用于同时含有趋势和季节成分的预测
②分解法:成分分解,因此可用于同时含有趋势和季节成分的预测
③Holt模型:不含季节成分;用于线性趋势预测
④简单指数平滑模型:不含随机成分;用于随机序列的预测 指数模型、多项式模型:用于非线性趋势的预测v.
c)平稳:
①严平稳:时间序列的概率分布与时间t无关;期望与相关系数(依赖性)不变的平稳情况
②宽平稳:序列存在一、二阶矩,t满足任意时刻,均值、方差为常数,协方差为时间间隔k的函数
③对于非平稳时间序列,大部分场景下最好变成平稳序列的方法是差分
d)ARIMA方法:
①AR:自回归过程,描述当前值与历史值之间的关系,累加往期的影响
②AR模型平稳性判别方法:单位根判别法、平稳域判别法、自相关图
③I:差分
④MA:移动平均过程,描述自回归部分的误差累计
e)RSI:相对强弱指标,能够反映出市场在一定时期内的景气程度
f)MACD:称为异同移动平均线,代表着市场趋势的变化
聚类:
a)用于用户画像,客户分群
b)系统(分层)聚类
①计算类与类距离的公式:重心法、全连接法、ward法
②离差平方和法(Ward法):基于方差分析的思想,
③如果分类正确,同类样品之间的离差平方和应当较小,类与类之间的离差平方和应当较大
c)①K-means聚类:迭代算法
需要计算均值和距离,非常容易受到量纲和异常值等的影响,需要进行数据标准化
②取每个点距离最近的中心点进行簇的划分
d)如果不考虑外部信息,聚类结构的优良性度量应当采用均方差
e)评估聚类结果:
组间平方和越大,说明各个组区分的越明显,聚类效果越好;组内平方和越小,说明每个组里元素的属性越接近,聚类效果越好
f)变量相似性测量尺度:
①间隔尺度-数值型变量
②顺序尺度-顺序型变量
③名义尺度-分类型变量
g)按照远近程度聚类明确两个距离:点和点之间的距离、类和类之间的距离
分类:
a)混淆矩阵、成对比较
b)ROC曲线
1.x轴=C/(C+D),特异率Specificity,1-特异率为roc曲线X轴
2.Y轴=A/(A+B)
3.AUC=F+G
4.精确度=A/(A+C);precision,也叫命中率,查准率,所有预测为1里面检测出来的
5.召回率=A/(A+B);recall,查全率,命中率,全部样本中全部识别出来的比例,所有真实为1的里面预测出来的
6.准确率A+D/(A+B+C+D)
7.F1-score=2pre*rec/pre+rec
c)算法
①KNN:临近算法,属于分类算法,是数据挖掘分类技术中最简单的方法之一
②贝叶斯
③逻辑回归:对于逻辑回归有ln(p/1-p)=wx+b,当p=0.5时,wx+b=0
④几率(odds):事件发生与不发生的概率的比值P/(1-P)
⑤Sigmoid函数:1/(1+e^-x),逻辑回归使用此函数进行概率转换
⑥逻辑回归的两个计算
几率提升了几倍:ln(p/(1-p))=B0x+E
概率为P=1/(1+e^-x)
线性回归:
a)模型假设:
①Y的平均值能够准确地被由X组成的线性函数建模出来
②解释变量与随机扰动项不存在线性关系
③解释变量之间不存在线性关系(或强相关),即不完全相关
④假设随机误差项是一个独立的,均值为0,方差恒为常数σ²的正态分布
b)评估指标:AdjustedR-Squared/FStatistics/MAPE/残差平方和/均方误差/
①判定系数:越大,估计标准误差越小,拟合的越好,数据点到线性回归方程距离越小
②AIC/BIC:多元线性回归变量筛选常使用的评价准则
c)最小二乘法:
①适用于一元或多元线性回归;
②在回归系数估计的所有无偏估计中,是唯一的最小方差估计;
③原理是求使得离差平方和最小的参数-Σ(yi-yi帽)^2
d多元线性回归模型中自变量的系数矩阵X为列满秩,则矩阵X的列向量之间是线性无关
e)检验
①多元回归可用F检验和t检验,而一元回归中F检验的统计量会退化为t统计量的平方,二者复杂度相同
②整体检验的原假设是回归系数全为0
③t检验(回归系数检验):方差未知;用于线性回归中,回归系数的检验
④F检验(线性关系检验):用于线性回归中,回归方程的检验
f)R方:
①表示多元回归中的回归平方和(因变量回归估计值总变差的大小)占总离差平方和(因变量观测值总变差的大小)的比例;
②R方越大,表示多元回归方程的拟合程度越好;
③会随着模型中自变量数量的增加而增大;
④为避免增加自变量而高估R方,提出调整R方;
⑤评价一元线性回归模型拟合程度时使用
g)自由度:含有p个变量的多元回归模型,样本量为n,则该模型的回归平方和自由度为p,残差平方和自由度为n-p-1
h)忽略自相关:
①可能严重低估误差项的方差
②可能导致高估检验统计量t值,致使不显著的变量变的显著了
③最小方差无偏性不再成立
I)多重共线性:
①缓解-逐步回归法、正则化方法、剔除一个、偏最小二乘;
②会使估计方差变大,让预测结果更容易不准确
③VIF(方差膨胀因子):检验自变量的共线性问题
④某个解释变量对其余解释变量的判定系数接近1,说明这些变量线性相关性很高, 即为多重共线性
⑤不可剔除所有的共线性变量
j)残差平方和:被解释变量观测值总变差中未被列入模型解释的部分
k)系数矩阵X的列数为自变量的个数,一般用P表示,x‘x是一个P*P的矩阵,阶数为p
因子分析:
a)需要计算协方差或相关系数,非常容易受到异常值等影响,因此需要先进行规范化
b)假设:
①各个共同因子之间不相关
②特殊因子之间也不相关
③共同因子与特殊因子之间也不相关
c)特殊因子:是没有泛用性但是又对结果有影响的因子,比如运气,一般不需要特别计算因子得分
d)检验:
①KMO检验:取值在0,1之间;越接近1说明简单相关系数平方和越大于偏相关系数平方和,说明变量间的相关性越高,从而能更好的提取共同特征的因子
②相关系数矩阵
③反映像相关矩阵
e)因子旋转方法:方差最大正交旋转、斜交旋转
主成分分析:
a)主要关注变量之间的相关性;
b)因为使用的是度量各变量之间相关性的协方差矩阵;
c)各主成分之间的夹角是固定的,都是正交的;
d)各主成分方差依次递减;
e)缺点是全局降维
f)特征值分解法:将原随机向量的协方差阵变换为对角形阵
推断性统计分析
相关性的度量方法:
a)皮尔逊相关系数:两个连续变量
b)斯皮尔曼相关系数:两个顺序性变量
c)肯德尔曼相关系数:一连续一顺序
d)相关系数:协方差/标准差,取值范围【-1,1】与直线的斜率无关
方差分析:
a)检验若干个独立正态整体均值是否相等的一种统计方法,不能用于检验方差;
b)组间平方和(回归平方和)包含效应间差异和随机误差;反应各个值之间误差大
小的平方和
c)组内平方和(残差平方和)只包含随机误差,自由度为n-r;反应各观测值误差
大小的平方和
d)单因子方差分析
假设:
①每一总体均为正态总体
②各总体方差相同
③从每一总体抽取的样本是相互独立的
因子A有4个水平,每个水平重复次数5/7/6/10,那么总试验次数n=28,水平数r=4,误差平方和的自由度为n-r=24,因子平方和的自由度为r-1=3,总平方和的自由度为n-1=27
假设检验:
a)显著性水平:表示原假设为真时,拒绝原假设的概率;
b)在样本给定条件下,第一类错误与第二类错误此消彼长;
c)要想同时减小两类错误,只能扩大样本量
d)步骤
①建立假设
②选择检验统计量,给出拒绝域形式
③选择显著性水平
④给出拒绝域
卡方检验:
a)多个率或多个构成比比较
b)用于一个总体方差的区间估计
置信区间95%:在用同样方法构造的总体参数的多个区间中,有95%区间包含该总体参数
AB检验:
a)检验方案实施后的总体B是否相对实施前的总体A有显著提升。
b)预期提升比例越大越说明B比A有显著差异,则只需越少的样本就能得出显著的结论
异常值检测常见方法:
a)NumericOutlier数字异常值、DBSCA聚类技术、IsolationForest孤立森林、百分数法
b)Z-score:将数据减去均值,并除以标准差,表示样本偏离平均水平程度
c)箱线图、散点图、学生化残差指标
麦肯锡问题的三大类型:恢复原状型、追求理想型、防范潜在型
缺失值不会用众数填补处理
参数估计:
a)评价估计量指标方法:
①无偏性:样本估计量的所有可能取值的数学期望等于被估计的整体参数
②有效性:对同一总体参数的两个无偏估计量,方差更小的更有效
③一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
其他:
常用区分好坏客户的指标:AUC/ROC/KS/Gini系数
哑变量:将虚拟变量放入回归时,一定要少放一个,否则系统会提示存在多重共线性的问题
数据完整性约束:实体完整性、参照完整性、用户定义完整性
反应离中趋势:异众比率、变异系数、四分位差、平均差和标准差
信息构成:数据+元数据
离散系数主要作用:
a)比较不同计量单位数据的离散程度
b)比较不同变量值水平数据的离散程度
数据标准化方法:Z-score标准化、区间缩放、向量单位化
几种抽样:
①系统抽样:先抽取一个单位作为初始单位,然后确定其他样本单位
②多阶段抽样:按照从大到小顺序进行抽样
③分层抽样:先按照年龄等分层再抽样
④简单随机抽样:不加任何限制从总体抽样
Apriori算法:
支持度=包含物品A的记录数量/总的记录数量
置信度(A->B)=包含物品A和B的记录数量/包含 A 的记录数量 =4/7
提升度(A->B)=置信度(A->B)/(支持度B)=(4/7)/(6/9)