weixin_72757689-CSDN博客

原创机器学习第四章

对于连续值的处理，可以将连续值离散化，通过取中位数的方法去划分两个区间，通过对信息增益的比较找出最优划分点。预剪枝可以降低过拟合风险，也可以减少训练和测试时间，但是它会带来欠拟合的风险，因为虽然当前节点再划分不能提高精度，但在之后的划分过程中可能增加精度。对于问题（1），可以先考虑无缺失值样本的信息增益，然后再乘个无缺失值样本占总样本的比例；但是信息增益带来的一个弊端就是偏好属性值较多的属性，这样的属性往往泛化能力差。决策树是通过树结构来决策的，通过对属性的一直判断，将样本进行分类。

2023-02-22 19:29:20 149

原创机器学习第三章

一种分类学习方法，通过sigmoid函数将实值转换为（0，1）上的值，可以通过极大似然法估计w,b的值(也可以通过信息论的方法，即求使交叉熵最小的w，b值），求解算法为梯度下降、牛顿法。MvM(多对多),将一部分类别作为正类，另一部分作为负类，一种常见的技术：“纠错输出码”（进行M次划分，结果为测试编码和类别编码距离最小的那个分类）OvO(一对一),将任意两个类配对，形成n(n-1)/2个分类器，结果可通过最多的那个分类表示；因为此式的解和w的长度无关，只与它的方向相关，所以可以令分母为1，求分子最大。

2023-02-20 17:18:00 79

原创机器学习1-2章

将数据集划分为k个大小相似的互斥子集，用其中k-1个子集作为训练集，剩下一个作为测试集，这样可以进行k次测试和训练，结果为k次测试的均值。而过拟合就是经验误差非常小，但是泛化误差比较大，因为学习器可能将训练集上样本并不一般的特征当成了一般特征，从而在新样本上的表现不好。给出了机器学习的定义，研究如何通过计算的手段，利用经验来改善系统自身的性能。学习器在训练集上的误差（预测输出与真实输出的差值）称为经验误差，在新样本上的误差称为泛化误差；错误率是错误的样本占总样本数的比率，精度是正确的样本占总样本数的比例。

2023-02-14 10:57:24 441 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习第四章

原创 机器学习第三章

原创 机器学习1-2章

空空如也

空空如也

原创机器学习第四章

原创机器学习第三章

原创机器学习1-2章