自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 机器学习第四章

对于连续值的处理,可以将连续值离散化,通过取中位数的方法去划分两个区间,通过对信息增益的比较找出最优划分点。预剪枝可以降低过拟合风险,也可以减少训练和测试时间,但是它会带来欠拟合的风险,因为虽然当前节点再划分不能提高精度,但在之后的划分过程中可能增加精度。对于问题(1),可以先考虑无缺失值样本的信息增益,然后再乘个无缺失值样本占总样本的比例;但是信息增益带来的一个弊端就是偏好属性值较多的属性,这样的属性往往泛化能力差。决策树是通过树结构来决策的,通过对属性的一直判断,将样本进行分类。

2023-02-22 19:29:20 142

原创 机器学习第三章

一种分类学习方法,通过sigmoid函数将实值转换为(0,1)上的值,可以通过极大似然法估计w,b的值(也可以通过信息论的方法,即求使交叉熵最小的w,b值),求解算法为梯度下降、牛顿法。MvM(多对多),将一部分类别作为正类,另一部分作为负类,一种常见的技术:“纠错输出码”(进行M次划分,结果为测试编码和类别编码距离最小的那个分类)OvO(一对一),将任意两个类配对,形成n(n-1)/2个分类器,结果可通过最多的那个分类表示;因为此式的解和w的长度无关,只与它的方向相关,所以可以令分母为1,求分子最大。

2023-02-20 17:18:00 74

原创 机器学习1-2章

将数据集划分为k个大小相似的互斥子集,用其中k-1个子集作为训练集,剩下一个作为测试集,这样可以进行k次测试和训练,结果为k次测试的均值。而过拟合就是经验误差非常小,但是泛化误差比较大,因为学习器可能将训练集上样本并不一般的特征当成了一般特征,从而在新样本上的表现不好。给出了机器学习的定义,研究如何通过计算的手段,利用经验来改善系统自身的性能。学习器在训练集上的误差(预测输出与真实输出的差值)称为经验误差,在新样本上的误差称为泛化误差;错误率是错误的样本占总样本数的比率,精度是正确的样本占总样本数的比例。

2023-02-14 10:57:24 336 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除