weixin_45255694-CSDN博客

原创 lesson5_KNN&时间序列

1. KNN的K值怎么选取？通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据），从选取一个较小的k值开始，不断增加k的值，然后计算验证集合的方差，最终找到一个比较合适的k值 2. KNN使用是否需要进行标准化，有什么效果？需要。归一化可以提高精度，这在涉及到一些距离计算的算法时效果显著，有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大，而归一化可以让各个特征对结果做出的贡献相同。 3. KNN 在特征维度加权有什么效果？ KNN算法认为各维特征对分类的贡

2021-06-22 21:56:45 531

原创 lesson4_梯度提升树

1. 介绍一下GBDT 2. xgboost有哪些改进？ 3. GBDT与随机森林的异同点？ 4. xgb防止过拟合有什么方法，如何调参？ 5. xgb为什么对缺失值不敏感，如何处理缺失值的？ 6. 解释一下GBDT沿着梯度下降方向提升，如何实现的？ ...

2021-06-02 09:56:17 238

原创 lesson3_决策树

Q1.采用信息增益、信息增益率作为决策树生长策略，有什么区别？ ANS： ID3采用信息增益作为评价标准，会倾向于选择取值较多的特征。因为，信息增益反映的是给定条件以后不确定性减少的程度，特征取值越多就意味着确定性越高，也就是条件熵越小，信息增益越大。C4.5对ID3进行优化，通过引入信息增益比，一定程度上对取值较多的特征进行惩罚，避免ID3出现过拟合的特性，提升决策树的泛化能力。 Q2. 其他条件一致，对样本某变量进行单调非线性变化，是否会影响决策树生长，为什么？ ANS：不会。 Q3.

2021-05-17 17:17:10 580

原创 lesson2_逻辑回归

Q1. 为什么不能直接用线性回归做分类？尝试从损失函数梯度的角度理解 ANS： Q2. 多重共线性变量会给逻辑回归带来什么问题？为什么？怎么处理？ ANS：多重共线性问题的存在，尤其是非常严重的多重共线性问题的存在，意味着进行回归分析所导入的自变量间存在较强的相关性，而这种相关性的存在会使得统计结果出现系列后果，如参数估计的方差和标准差较大、置信区间变宽、显著性检验不通过、较高但显著性检验不通过、参数估计及其标准差对数据的敏感性增强且不稳定、回归系数符号有误、各自变量对回归平方和（ESS）或的贡.

2021-05-12 23:16:47 453

原创 lesson1_线性回归

Q1：如何将类别型变量引入线性回归，提出至少1种方案？ ANS: (1)序号编码（Ordinal Encoding）序号编码通常用于处理类别间具有大小关系的数据。例如成绩，可以分为低、中、高三档，并且存在“高>中>低”的排序关系。序号编码会按照大小关系对类别特征赋予一个数值ID，例如高中低依次表示为3、2、1，转换后依然保留了大小关系。（2）独热编码（One-hot Encoding）独热编码通常用于处理类别间不具有大小关系的特征。例如血型，一共有4个取值（A、B、AB、O），独热

2021-05-10 22:49:48 223

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人