机器学习
wffzxyl
这个作者很懒,什么都没留下…
展开
-
【机器学习】【可视化】Matplotlib的scatter函数用法
本文出处:http://blog.csdn.net/u013634684/article/details/49646311最近开始学习Python编程,遇到scatter函数,感觉里面的参数不知道什么意思于是查资料,最后总结如下:1、scatter函数原型2、其中散点的形状参数marker如下:3、其中颜色参数c如下:4、基本的使用方法如下:[p转载 2017-05-14 10:16:03 · 6342 阅读 · 0 评论 -
【机器学习】AIC、BIC准则
原文:https://blog.csdn.net/ljzology/article/details/81287500选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型中的未知参数个数最小化。似然函数值越大说明模型拟合的效果越好,但是我们不能单纯地以拟合精度来衡量模型的优劣,这样回导致模型中未知参数越来越多,模型变得越来越复杂,会造成过拟合。所以一个好的模型应该是拟合精...转载 2018-08-26 20:18:23 · 14676 阅读 · 0 评论 -
【数理统计】方差及其n-1
为什么样本方差(sample variance)的分母是 n-1?转载 2018-03-11 11:06:44 · 1531 阅读 · 0 评论 -
【ML】模型融合
问题来源,即机器学习性能提升方向:1. 特征工程2. 调参3. 模型融合 模型融合原理 1989,Schapire,证明: 在PAC学习的框架下,⼀个概念是强可学习的充分必要条件是这个概念是弱 可学习。因此,只要找到⼀个⽐随机猜测略好的弱学习算法就可以直接将其提升为强学习算 法,⽽不必直接去找很难获得的强学习算法。或者, 假设各弱分类器间具有一定差异性(如不同的算...原创 2018-05-09 14:17:44 · 561 阅读 · 0 评论 -
【机器学习】基础 判别模型生成模型
- 概念区分及代表算法:两者均属于监督模型范畴,最直接的区分依据是,从给定的训练数据,学习到的目标概率分布不同。根据训练数据,生成模型,学习联合概率分布P(X,Y)。然后求出条件概率分布P(Y|X)作为预测模型。公式:P(Y|X)=P(X,Y)/P(X)。代表算法有:朴素贝叶斯,HMM等。通常只有一个模型,输入实例,得到结果。判别模型,学习条件概率分布P(Y|X),或者直接学习判别决策函数f(X)...原创 2018-04-16 10:48:54 · 366 阅读 · 0 评论 -
【机器学习】【数据预处理】数据的规范化,归一化,标准化,正则化
数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化,正则化,还是有差别数据规范化 一种是针对数据库的解释 规范化理论把关系应满足的规范要求分为几级,满足最低要求的一级叫做第一范式(1NF),在第一范式的基础上提出了第二范式(2NF),在第二范式的基础上又提出了第三范式(3NF),转载 2017-05-08 21:18:26 · 8910 阅读 · 0 评论 -
【机器学习】【基本理论】结构风险、结构风险、损失函数
损失函数:用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。经验风险:一个损失函数的函数结构风险:可简单理解为经验风险(一种损失函数的函数)+λ正则化项。因此,模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ)其...原创 2017-05-08 19:08:24 · 3401 阅读 · 0 评论 -
【机器学习】【基本理论】漫谈:机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 //转载 2017-04-14 15:14:48 · 406 阅读 · 0 评论 -
【机器学习】【基本理论】L0、L1、L2和核范数规则化学习总结【待补充整理】
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的”正则化“(又称为”惩罚...原创 2017-05-08 18:35:29 · 1353 阅读 · 0 评论 -
【机器学习】【sklearn】使用sklearn优雅地进行数据挖掘
本文转自:http://www.cnblogs.com/jasonfreak/p/5448462.html使用sklearn优雅地进行数据挖掘目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持转载 2017-05-14 21:21:49 · 597 阅读 · 0 评论 -
【机器学习】【数据处理】numpy.random.RandomState函数用法
本文出处:http://www.cnblogs.com/lutingting/p/5185408.html,源于:http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-auto-examples-classification-plot-classi转载 2017-05-14 10:17:53 · 33124 阅读 · 5 评论