CDA数据分析师level2模拟题考点记录
背景
目前CDA一级题目刷完,课看完,但是由于疫情无法出去考试,所以先复习level2。level2的考试课程大致刷了一遍,整体ppt也看过一遍,但是感觉level2的内容比1难一点。然后关于它的相关资料与学习笔记也较少,所以决定自己写啦。
学习笔记
考点,知识点
第一组
- 线性规划:只有线性规划存在最优解,才能在可行域顶点找到。最优解可能有无数个
- 整数规划--要求决策变量必须取整
- 整数规划分类(全整,混合,0-1,纯整)
- 单纯形法
- 单纯形法--核心:根据一定规则,一步步寻找可行域中的最优解。
- 对偶单纯形法:用对偶理论求解线性规划,而不是求解对偶问题
- 原单纯形法:以高斯消去为基础,不经济。改进单纯形法,减少迭代累计误差提高计算精度。
- 可行域
- 可行域为空,没有可行解
- 可行域非空无界,可以有最优解可无。
- 线性规划标准型
- 通过松弛变量或剩余变量将不等式转化为等式
- 通过变换(如同乘-1)将约束条件右端常数转化为非负数
- 将决策变量转换(如加入新变量)为非负数
- 根因分析
- 核心:根原因识别。后续内容:根原因消除。前因分析:头脑风暴
- 类型因果图(鱼骨图)
- 原因型:鱼头右侧
- 对策型:鱼头左侧
- 整理问题型:鱼头左侧
- 5WHY分析法:制造、检验、体系角度
- 项目
- 头脑风暴(鱼骨图)
- 鱼尾(问题,现状),鱼头(目标),脊椎(过程和影响因素)
- 结构化:轮流提出
- 非结构化:自由提出
- 根因分析识别工具
- 定性(亲和图)
- 定量:(散点,定量,帕累托)
- SCA风险矩阵
- 时间序列波动
- 预测模型
- 系统聚类
- 用户画像
- K-means算法
- 聚类结构的优良性度量
10.自相关问题
第二组
- 回归
- 评估指标
- 线性回归残差
- 分析预测
- 逻辑回归
- 多元线性回归
- 最小二乘
- 多重共线性问题:逐步回归,剔除不显著变量
- 线性无关
- 线性相关
- 分类
- 混淆矩阵
- ROC曲线
- 拟合过拟合
- 项目
- 因子分析技术
- KMO检验
- 项目
- 主成分分析
- 协方差矩阵
- 方差特征依次递减
- 项目
- 线性回归模型
- 误差项
- 均值:0
- 方差:常数
- 误差项
- 均值:0
- 度量变量相关性指标
- 皮尔逊相关系数:2连续
- 斯皮尔曼相关系数:2顺序
- 肯德尔曼相关系数:依恋,一顺
- 项目
- 参数估计
- 项目
- 项目
- 回归系数检验
- 项目
- 项目
- 最小二乘法
- 项目
- 项目
10.置信区间
- 项目
- 项目
- 项目
第三组
- 单因素方差分析
- 组间
- 组内
- 项目
- 方差比
- 项目
- 项目
- 方差分析表
- 项目
- 项目
- 假设检验
- 第一类错误,第二类错误
- 基本思想
- 项目
- 卡方检验
- 项目
- 项目
- t检验
- 项目
- 项目
- 抽样
- 项目
- 项目
- 正态分布
- 项目
- 项目
- 统计量
- 项目
- 项目
10.最小样本量
- 项目
- 项目
- 项目
第四组
- 用户画像
- 项目
- 项目
- RFM模型
- 项目
- 项目
- 数据标签化
- 标签分类
- 项目
- 标签和指标比较
- 项目
- 项目
- ETL技术
- 项目
- 项目
- 3NF
- 项目
- 项目
- 企业数据
- 元数据
- 企业数据
- 参考数据
- 项目
- 异常值
- 箱形图
- 项目
- 处理缺失值
- 项目
- 项目
10.脏数据
- 项目
- 交叉数据不属于脏数据
-
- 项目
第五组
- 直方图
- 项目
- 项目
- 可视化图
- 旭日图(现代饼图)
- 散点图
- 热力图
- 气泡图
- 项目
- 抽样误差
- 项目
- 项目
- 调查问卷
- 项目
- 项目
- 编码方式
- 右侧编码
- 事前编码
- 项目
- 百分比样本量计算公式
- 项目
- 项目
- 调查方式
- 简单随机
- 分层
- 分群
- 多阶段
-
- 项目
- 故障树分析法
- 项目
- 项目
- 麦肯锡问题分析法
- 项目
- 项目
10.AR模型平稳性的判别方法
- 项目
- 项目
- 项目
第六组
- 因子分析中因子旋转方法
- 项目
- 项目
- 协方差矩阵
- 特征值
- 特征向量
- 项目
- 无偏估计
- 项目
- 项目
- 标签分类
- 项目
- 项目
- 元数据内容(名称,长度,类型,取值范围)
- 项目
- 项目
- 柱状图可视化特点
- 项目
- 项目
- 定性研究
- 项目
- 项目
- 线性回归模型
- 回归方程检验:F检验
- 回归系数检验:t检验
- 项目
- QQ图检验两个分布是否一致
- 项目
- 项目
10.自变量的共线性问题检验指标:VIF(方差膨胀因子)
- 项目
- 项目
- 项目
第七组
- 统计推断
- 项目
- 项目
- 参数估计
- 估计量
- 项目
- 总体方差的区间估计:卡方分布
- 项目
- 项目
- 样本均值对总体均值的估计要满足的标准
- 无偏性
- 有效性
- 一致性
- 项目
- 假设检验两类错误
- 项目
- 项目
- 假设检验p值
- 项目
- 项目
- PCA的缺点:线性降维
- 项目
- 项目
- 类和类之间距离定义
- 项目
- 项目
- 违约发生和原发生
- 项目
- 项目
10.区分好坏客户的指标
- 项目
- AUC
- ROC
- KS
- Gini系数
- 项目
第八组
- 变量筛选的办法
- 逐步法
- 向前法
- 向后法
- 项目
- 虚拟变量
- 项目
- 项目
- 回归系数表
- 项目
- 项目
- Apriori关联分析算法(无监督 算法)
- 频繁项集支持度
- 项目
- 置信度
- 定义:数据的条件概率
- 项目
- 提升度
- 定义:置信度和后件的支持度之比
- 项目
- 多元回归模型
- 自变量对因变量的解释力度
- 残差平方
- SSE统计量
- 自由度
- 项目
- 回归模型的线性关系是否显著
- 项目
- 项目
- 模型的回归系数检验,哪个系数不显著
- 项目
- 项目
10.回归诊断
- 项目
- 多重共线性的诊断指标:VIF
- 项目
第九组
- 项目1- 项目
- 项目
- 项目
- 项目2- 项目
- 项目
- 项目
- 项目- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
10.1- 项目
- 项目
- 项目
- 项目
第十组
- 项目1- 项目
- 项目
- 项目
- 项目2- 项目
- 项目
- 项目
- 项目- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
10.1- 项目
- 项目
- 项目
- 项目
第十一组
- 项目1- 项目
- 项目
- 项目
- 项目2- 项目
- 项目
- 项目
- 项目- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
10.1- 项目
- 项目
- 项目
- 项目
第十二组
- 项目1- 项目
- 项目
- 项目
- 项目2- 项目
- 项目
- 项目
- 项目- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
10.1- 项目
- 项目
- 项目
- 项目
第十三组
- 项目1- 项目
- 项目
- 项目
- 项目2- 项目
- 项目
- 项目
- 项目- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
- 1- 项目
- 项目
- 项目
10.1- 项目
- 项目
- 项目
- 项目