![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习笔记
ys1305
这个作者很懒,什么都没留下…
展开
-
1机器学习中的距离
MachingLearning中的距离和相似性计算以及python实现图像的画法:距离原点的距离都是一样的p=1时:所有点到原点的距离均为1p=2时:所有点到原点的距离均为1p=无穷时:所有点到原点的距离均为1欧氏距离也称欧几里得距离,是指在m维空间中两个点之间的真实距离。欧式距离在ML中使用的范围比较广,也比较通用,就比如说利用k-Means对二维平面内的数据点进行聚类,对魔都房...原创 2019-05-26 19:11:36 · 249 阅读 · 0 评论 -
随机森林填补缺失值
任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程,之所以能够实现这个过程,是因为回归算法认为,特征矩阵和标签之前存在着某种联系。实际上,标签和特征是可以相互转换的,比如说,在一个“用地区,环境,附近学校数量”预测“房价”的问题中,我们既可以用“地区”,“环境”,“附近学校数量”的数据来预测“房价”,也可以反过来,用“环境”,“附近学校数量”和“房价”来预测“地区”。而回归填补缺失值,正是...原创 2019-08-13 18:26:19 · 3504 阅读 · 1 评论 -
决策树1
modelfeature select树的类型计算公式ID3{分类:信息增益}多叉树g(D,A)=H(D)−H(D∥A)g(D,A)=H(D)-H(D\|A)g(D,A)=H(D)−H(D∥A)C4.5{分类:信息增益比}多叉树gR(D,A)=g(D,A)HA(D)g_R(D,A)=\frac{g(D,A)}{H_A(D)}gR(D,A)=HA(D...原创 2019-08-13 15:17:47 · 175 阅读 · 0 评论 -
机器学习-深度学习笔记整理-md格式
机器学习笔记-md格式https://github.com/ys1305/machine-learning-note深度学习笔记-md格式https://github.com/ys1305/Deep-learning-note手写机器学习算法的实现https://github.com/ys1305/ML-handsklearn的使用https://github.com/ys1305/...原创 2019-07-21 19:59:22 · 664 阅读 · 0 评论 -
1手写线性回归-2
githubimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.datasets import load_diabetesfrom sklearn.utils import shuffleimport matplotlib.pyplot as plt# 形状非常重要,而且容易错...原创 2019-07-19 20:54:57 · 158 阅读 · 0 评论 -
1-手写线性回归
githubimport numpy as npfrom sklearn.datasets import load_diabetesfrom sklearn.utils import shuffleimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressiondef initialize...原创 2019-07-19 20:51:55 · 161 阅读 · 0 评论 -
pandas中求平均时间差
用最大时间减去最小时间 然后除以次数报错:TypeError: ufunc true_divide cannot use operands with types dtype(‘O’) and dtype(’<m8[ns]’)同样的程序在处理训练集和测试集出现的结果是不同的时间类型均为orderTime_x datetime64[ns]orderTime_y date...原创 2019-07-23 16:28:42 · 1411 阅读 · 0 评论 -
机器学习新手入门
将机器学习入门的代码进行了整合一个是手写实现各种机器学习算法手写一个是sklearn中各种机器学习算法的使用sklearn原创 2019-07-10 19:17:35 · 124 阅读 · 0 评论 -
sklearn中svc与逻辑回归的正则化系数
参数C代表目标函数的惩罚系数,惩罚系数指的是分错样本时的惩罚程度,默认情况下为1.0。当C越大的时候,分类器的准确性越高,但同样容错率会越低,泛化能力会变差。相反,C越小,泛化能力越强,但是准确性会降低。这里的的参数C就是SVM公式推导中的C。如果C值设定比较大,那SVC可能会选择边际较小的,能够更好地分类所有训练点的决策边界,不过模型的训练时间也会更长。如果C的设定值较高,那SVC会尽量最大...原创 2019-06-30 11:17:54 · 3391 阅读 · 0 评论 -
决策树-信息增益的计算
import numpy as npimport pandas as pdfrom collections import Counterimport mathfrom math import log# 熵# print(-(1 / 3) * log(1 / 3, 2) - (2 / 3) * log(2 / 3, 2))def calc_ent(datasets): ...原创 2019-06-29 20:29:12 · 2090 阅读 · 0 评论 -
最小二乘法
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。1.最小二乘法的原理与要解决的问题最小二乘法是由勒让德在19世纪发现的,原理的一般形式很简单,当然发现的过程是非常艰难的。形式如下式:目标函数 = Σ(观测值-理论值) 2^22观测值就是我们的多组样本,理论值就是我们的假设拟合函数。目标函数也...原创 2019-06-15 16:21:18 · 156 阅读 · 0 评论 -
LR如何进行并行计算
由逻辑回归问题的求解方法中可以看出,无论是梯度下降法、牛顿法、拟牛顿法,计算梯度都是其最基本的步骤,并且L-BFGS通过两步循环计算牛顿方向的方法,避免了计算海森矩阵。因此逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化。从梯度更新公式中可以看出,目标函数的梯度向量计算中只需要进行向量间的点乘和相加,可以很容易将每个迭代过程拆分成相互独立的计算步骤,由不同的节点进行独立计算,然后归并计算结果...原创 2019-08-12 15:59:26 · 947 阅读 · 1 评论