机器学习
文章平均质量分 83
详细介绍常见机器学习的理论知识与实践
数据科学家修炼之道
Life is short, I use Python、Scala、Java、R、Julia、Spark、Flink、Matlab、Spss、Stata、Sas、ML and DL.
展开
-
Python手写Lasso回归算法
Lasso是一种估计稀疏线性模型的方法,倾向于少数参数值的情况. 对于给定解决方案是相关的情况下, 有效的减少变量的数量 其目标函数是最小化: minW12nsamples||XW−Y||22+α||W||1minW12nsamples||XW−Y||22+α||W||1min_W\frac1{2n_{samples}}{||XW-Y||_2}^2+\alpha||W||_1求解过程l...原创 2018-07-26 22:56:11 · 9321 阅读 · 1 评论 -
Python手写普通最小二乘法
简单介绍sklearn中的LinearRegression类拟合了一个带有系数w=(w1,w2,...,wp)w=(w1,w2,...,wp)w=(w_1,w_2,...,w_p)的线形模型,使得数据集实际观测数据和预测数据之间的残差平方和最小: minw||Xw−y||22minw||Xw−y||22min_w||Xw-y||^2_2其中向量w=(w1,w2,...,wp)w=(w1,...原创 2018-08-02 23:59:57 · 10514 阅读 · 1 评论 -
Python手写岭回归算法
数学解释岭回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题。 岭系数最小化的是带罚项的残差平方和minw||Xw−y||22+α||w||22minw||Xw−y||22+α||w||22min_w||Xw-y||^2_2+\alpha||w||_2^2 其中,α≥0α≥0\alpha \geq 0是控制系数收缩量的复杂性参数:αα\alpha越大,收缩量越大,这样系数对共线...原创 2018-08-03 14:27:59 · 14405 阅读 · 4 评论 -
模型评价指标——分类
回归分类聚类降维原创 2019-01-24 10:43:06 · 849 阅读 · 1 评论 -
各种距离、相似度
n维样本空间里的点xx1x2...xn和点yy1y2...yn之间的各种距离。原创 2023-11-24 08:16:35 · 137 阅读 · 0 评论 -
机器学习通用流程
通用流程:问题建模解决一个机器学习问题都是从问题建模开始:首先需要收集问题的资料,深入理解问题然后将问题抽象成机器可预测的问题(在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当的评估指标)接着从原始数据中选择最相关的样本子集用于模型训练对样本子集划分训练计和测试集,应用交叉验证的方法对模型进行选择和评估特征工程完成问题建模、对数据进行筛选和清洗之后,就是抽取数据特征,即特征工程。模型选择当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确的原创 2023-03-06 17:02:20 · 195 阅读 · 1 评论 -
概率论与数理统计——方差分析
文章目录单因素试验的方差分析单因素试验双因素试验的方差分析方差分析是数理统计中应用很广泛的内容,主要看两个:单因素试验的方差分析双因素试验的方差分析在这之前先了解几个概念:方差分析:根据试验的结果进行分析,鉴别各个有关因素对试验结果的影响试验指标:在试验中要考察的指标称为试验指标因素:影响试验指标的条件称为因素。因素可分为两类:可控因素和不可控因素单因素试验:如果在一项试验中...原创 2021-01-11 07:42:51 · 1609 阅读 · 0 评论 -
损失函数、代价函数和目标函数的区别
损失函数:1代价函数:2目标函数:3原创 2020-09-18 19:07:08 · 306 阅读 · 0 评论