机器学习
文章平均质量分 88
来杯Sherry
这个作者很懒,什么都没留下…
展开
-
ablation study
消融实验”(ablation study)通常指的是通过逐步移除系统的一部分来评估该系统的贡献。这种方法旨在理解系统的不同组成部分对整体系统性能的影响(消融实验常用于解释模型的预测能力,帮助理解模型对输入特征的依赖关系。在其他领域,消融实验也可以用于研究系统的稳定性和鲁棒性。结合上图,定义了一个N模型组成的系统,每次移仅除一个model,逐步实现从。这种实验设计常用于机器学习、计算机科学、生物学等领域。移除,评估系统在移除前后的性能损失,就完成了一次消融实验。简单说,控制变量做评估。原创 2023-11-12 21:42:31 · 257 阅读 · 0 评论 -
华为云云耀云服务器L实例使用教学|手写KNN解决分类回归问题
1)遇到过这样一个问题,sum() 与 np.sum()的区别?为何距离公式使用不同和函数,两者得到的欧氏距离完全不同?曼哈顿距离与切比雪夫结果是一致的?回归预测做的就是将分类取平均得到的结果作为回归结果。定义超参数,选择距离公式进行预测,使用。定义超参数,选择距离公式进行预测,使用。下列代码均在华为云云耀云服务器上运行。这里统一用闵氏距离公式去实现。这里统一用闵氏距离公式去实现。归一化和标准化通常二选一。归一化和标准化通常二选一。原创 2023-10-09 00:00:00 · 155 阅读 · 0 评论 -
ML算法——Support Vector Machine随笔【机器学习】
后者更优,决策边界距离数据点越远,越优。1)距离计算通过数学计算,表达这个距离最远。distance(x,b,w)=∣wT∣∣w∣∣(x−x′)∣=1∣∣w∣∣∣wTx+b∣(1)distance(x,b,w) = |\frac{w^T}{||w||}(x-x')| = \frac{1}{||w||}|w^Tx+b| \tag{1} distance(x,b,w)=∣∣∣w∣∣wT(x−x′)∣=∣∣w∣∣1∣wTx+b∣(1)2)数据标签定义数据集:(X1,y1)(X2,y2)(X3,y3)...(原创 2023-06-29 15:22:58 · 672 阅读 · 0 评论 -
ML算法——线代预备知识随笔【机器学习】
的各种矛盾回答搞晕了,奇异值分解的博客很少提到σ的排列问题,浪费了很多时间,最终在周志华的《机器学习》附录中找到了准确描述。矩阵分解的本质是将原本复杂的矩阵分解成对应的几个简单矩阵的乘积的形式。这种情况下,如果我们想通过矩阵分解的形式将原本比较复杂的矩阵问题分解成比较简单的矩阵相乘的形式,会对其进行。其中,U是一个m x m的正交矩阵,Σ 是一个m x n的矩阵,其对角线上的元素称为奇异值,若A可逆,则称A为非奇异方阵,也就说若A不是满秩,则为奇异矩阵。,进而求得特征向量 μ,组成矩阵 V。原创 2023-06-24 23:34:41 · 862 阅读 · 0 评论 -
ML算法——最优化|凸优化随笔【机器学习】【端午节创作】
重点是梯度下降法,利用一阶导数,而二阶导数涉及到海森矩阵,具有较大的计算量,因此,往往采用梯度下降算法。原创 2023-06-24 23:15:22 · 1278 阅读 · 0 评论 -
ML算法——逻辑回归随笔【机器学习】
计算假阳率的方法是,将预测为正例的样本数量除以所有的负例样本数量。在实际应用中,假阳率高的模型可能会导致过多的误判,因此需要尽可能降低模型的假阳率。假阳率主要出现在分类问题中。在评估分类模型的性能时,假阳率是一个重要的指标,特别是在模型应用于关键决策时。例如,在医疗诊断中,高假阳率可能会导致对病人进行不必要的治疗或手术,因此需要尽可能降低模型的假阳率。Logic Regression (LR),逻辑回归的因变量是二分类的,而不是连续的。参照线性回归中的θ,这里的θ也是个向量,涵盖所有提到过的θ分量,θ=原创 2023-06-11 23:31:15 · 1376 阅读 · 0 评论 -
ML算法——梯度下降随笔【机器学习】
是一种通过已知的观测数据,来近似模拟自变量与因变量之间的关系,并进行模型的修正完善、预测等数据分析任务的过程。具体来说,模型拟合的主要思想是通过收集数据点对,利用近似准则,对各数据点之间的关系进行分析,拟合。在实际图像处理中,我们通常不直接使用函数的全微分来确定梯度方向,而是使用更高效的算法如Sobel、Prewitt、Scharr等来计算图像中每个像素点处的梯度幅值和梯度方向。首先我们先确定前进的方向,也就是梯度的反向,然后走一段距离的步长,也就是α,走完这个段步长,就到达了这个点!不是,甚至完全相反。原创 2023-06-06 22:49:28 · 735 阅读 · 1 评论 -
ML算法——线性回归随笔【机器学习】【六一创作】
利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的方法。将每一个数据的键值的类型从字符串转为日期。(继续完善公式推导、解析解的公式过程)原创 2023-05-31 00:32:31 · 818 阅读 · 0 评论 -
ML算法——KNN随笔【机器学习】【全国科技工作者日创作】
比如,如果使用随机拆分数据的方式进行验证,因为随机拆分数据的时候存在不随机的情况,所以就会对验证效果产生影响。它是机器学习中唯一一个不需要训练过程的算法,它在训练阶段只是把数据保存下来,训练时间开销为 0,等收到测试样本后进行处理。KNN用于回归问题时,模型从训练数据集中选择离该数据点最近的k个数据点,并且把这些数据的y值取均值,未知点的判断基于已知点的距离,选出最近的K个点,投票选出未知点的最大可能。边界越陡峭,越不稳定,希望得到平滑的边界,理论上,K↑,边界越平滑。是空间中的两个点,i和j表示维度。原创 2023-05-30 00:15:00 · 690 阅读 · 0 评论 -
科学计算库——Pandas随笔【附网络隐私闲谈】
怎么用?举个例子,定义从1开始的索引,怎么取值?通过索引取值,沿用上面例子obj [ 1 ]aSeries()Series()传入列表,得到的对象,有默认索引,可自定义;Series()传入字典【key:value】,得到的对象,key为索引。怎么选取特定的键值对,并返回 obj【Series对象】?原创 2023-05-14 23:02:37 · 985 阅读 · 2 评论 -
科学计算库—numpy随笔【五一创作】
在机器学习中常通过使用花式索引来打乱数据集的样本顺序,避免机器学习模型学习到样本的位置噪声,对于监督学习的数据集如果打乱了样本还需要打乱相对应的标签值,样本与标签都是一一对应的关系,使用花式索引能够轻松的解决。1.虽然Python数组结构中的列表list实际上就是数组,但是列表list保存的是对象的指针,list中的元素在系统内存中是分散存储的,例如[0,1,2]需要3个指针和3个整数对象,浪费内存和计算时间。从存储数据来看,numpy 存储的是矩阵,list 存储的是序列。原创 2023-05-01 06:36:22 · 1099 阅读 · 1 评论 -
将数据集按特征|列分割为解释变量 X & 响应变量 y 的几种方法【机器学习】
原因如下 上面提到的双条件判断出现了[True,False,False,True,True,True]与[False,True,True,False,False,False]判断,出现了多组值的判断。上面的只适合一元响应变量的特征输入,很可惜 写成下面这样就无法通过编译了。这里的列,根据bool/条件语句/整数去选择列都可以,比如。特点:回归问题,解释变量唯一。回归问题,解释变量为。原创 2022-02-26 16:18:24 · 1155 阅读 · 1 评论 -
波士顿房价预测案例---多元线性回归【机器学习】
介绍:我们采用波士顿房价预测数据集进行回归任务分析。数据集分为训练集和测试集,训练集可用于训练回归模型,测试集需要进行预测。要求:1.做linear regression,或使用现成的线性回归函数,方法尝试使用Gradient Descent,SGD 以及 ADAM。2.比较不同learning rate的结果。例如损失函数曲线图3.比较有无加上regularization的结果。4.比较有无否使用 feature scaling的结果。Try:1、机器学习(lr)2、深度学习(未开始).原创 2021-04-04 20:13:40 · 3069 阅读 · 3 评论