![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Wind_know
这个作者很懒,什么都没留下…
展开
-
回归人脸自动补全
导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inline# 构建方程from sklearn.linear_model import LinearRegression,Ridge,Lasso# 构建方程???from sklearn.neighbors import KNeighborsRegressorfrom sklearn.tree import DecisionTreeRegressor原创 2020-07-08 09:44:18 · 415 阅读 · 0 评论 -
逻辑斯蒂回归原理及其概率计算
逻辑斯蒂回归利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界建立回归公式(f(x1,x2....))=w1x1+w2x2+.......),以此分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。Logistic Regression和Linear Regression的原理(函数:二乘法(y-wx)^2,最小)是相似的,可以简单的描述这样的过程。原理过程预测函数原理代码实现import numpy as npX = ..原创 2020-07-03 22:45:45 · 3258 阅读 · 1 评论 -
线性回归,岭回归,套索回归等等
目录岭回归原理缩减系数来“理解”数据优点总结小结应用场景代码实现导包样本小于特征,无数个解打乱索引矩阵乘法比较三种算法计算斜率岭回归alpha最优化导包设X矩阵设y岭回归拟合画图表示 alpha和coefs的关系岭回归原理缩减系数来“理解”数据优点缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果岭回归是加了二阶正则项的最小二乘,主要适.原创 2020-07-02 20:23:51 · 1065 阅读 · 0 评论 -
其他线性回归,岭回归等
普通最小二乘法范数范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。将数视为向量。当p取1,2,无穷的时候分别是以下几种最简单的情形:1-范数:║x║1=│x1│+│x2│+…+│xn│2-范数:║x║2=(│x1│2+│x2│2+…+│xn│2)1/2∞-范数:║x║∞=max(│x1│,│x2│,…,│xn│)其中2-.原创 2020-06-30 22:30:20 · 266 阅读 · 0 评论 -
手写线性回归
目录导包创建数据使用已有的线性回归拟合函数自己实现线性回归使用自己实现的线性回归拟合函数导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LinearRegression#导入算法创建数据X = np.linspace(2,10,20).reshape(-1,1)# f(x) = wx + by.原创 2020-06-28 21:54:35 · 275 阅读 · 0 评论 -
线性回归原理及应用
基础知识几种常见函数的导数:① C'=0(C为常数);② (x^n)'=nx^(n-1) (n∈Q);③ (sinx)'=cosx;④ (cosx)'=-sinx;⑤ (e^x)'=e^x;⑥ (a^x)'=a^xIna (ln为自然对数)⑦ loga(x)'=(1/x)loga(e)导数的四则运算:①(u±v)'=u'±v'②(uv)'=u'v+uv'③(u/v)'=(u'v-uv')/ v^2④[u(v)]'=[u'(v)]*v' (u(v)为复合函数...原创 2020-06-27 11:06:39 · 2914 阅读 · 0 评论 -
AdaBoost原理
Bagging套袋法随机森林就采用的套袋法,在Bagging中,通过对训练样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,学习器之间是独立的,最终合并每一个学习器的结果,作为最终的学习结果,Bagging方法的具体过程如下图所示:在Bagging方法中,b个学习器之间彼此是相互独立的,这样的特点使得Bagging方法更容易并行。每个学习器权重都为1/b。Bossting提升树梯度提升树就采用的Boosting算法,与Bagging方法不同,在Boost.原创 2020-06-26 20:39:44 · 279 阅读 · 0 评论 -
pandas批量处理体育成绩
目录导包读取数据取前45行图表中存在不规范数据,去掉该类数据缺失数据填充查看是否有空数据处理数字评分,还要读取评分表将列属性时间数据转化为浮点数据两张表索引不太对应,改变一下增加字段先转化数据计算成绩同理处理体前屈,引体,肺活量。调整顺序BMI指数统计分析画图Pandas在处理千万行级别的数据中有非常高的实用价值,pandas 本质上是对表格数据的封装,而表格数据处理必然需要遍历数据。然而,在实际使用 pandas 过程中,一般都不原创 2020-06-24 17:01:57 · 1669 阅读 · 2 评论 -
梯度分类原理
算法流程xi = np.arange(1,11)yi = np.array([0,0,0,1,1]*2)display(xi,yi)改变形状#一个参数为-1时,那么reshape函数会根据另一个参数的维度计算出数组的另外一个shape属性值。xi.reshape(-1,1)算法gbdt = GradientBoostingClassifier(n_estimators=3,max_depth=1)gbdt.fit(xi.reshape(-1,1),yi)第原创 2020-06-22 17:11:53 · 536 阅读 · 0 评论 -
梯度下降与梯度上升
目录梯度导包方程画图对f求导求解导数令导数=0求解最小值梯度下降求解最小值用lambda表示求导后的方程设置学习率梯度下降找最优值梯度上升找最大值函数二,有最大值更新规则将每一步怎么走的过程画出来 ,加入result[]画图梯度梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。导包import numpy as np.原创 2020-06-21 22:12:09 · 257 阅读 · 0 评论 -
梯度提升树
目录导包梯度提升树也是建在决策树的基础上的。树分10份,每份中是3棵树,每棵树都是多分类问题梯度提升树原理导包导入数据声明树使用回归研究其原理第二棵决策树以下数据为残差第二颗树,根据梯度提升,减小残差(残差越小,结果越好,越准确)导包概念:导数求导后还是自身import numpy as np# f(x) = 3*x**2# 梯度=导数from sklearn.ensemble import GradientBoostingClassi.原创 2020-06-20 22:08:11 · 1440 阅读 · 0 评论 -
极限森林
目录极限森林与决策树区别加载数据使用决策树使用极限森林数据质量极限森林与决策树区别决策树,进行裂分时候,根据信息增益最大进行裂分,刻板,情深不寿,慧极必伤。极限森林: 1、样本随机 2、分裂条件随机(不是最好的裂分条件)像在随机森林中一样,使用候选特征的随机子集,但不是寻找最有区别的阈值,而是为每个候选特征随机绘制阈值,并选择这些随机生成的阈值中的最佳阈值作为划分规则。加载数据X,y = datasets.load_wine(True)使用决...原创 2020-06-20 12:53:01 · 732 阅读 · 0 评论 -
随机森林
目录导包导入数据随机森林训练相同数据用决策树算法训练导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifierfrom sklearn import datasetsimport pandas as pdfrom sklearn.model原创 2020-06-19 23:03:00 · 340 阅读 · 0 评论 -
决策树使用与原理
导包import numpy as npfrom sklearn.tree import DecisionTreeClassifierfrom sklearn import datasetsimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn import treefrom sklearn.model_selection import train_test_split声明决策树clf = Decisi原创 2020-06-19 22:16:51 · 1066 阅读 · 0 评论 -
KNN算法癌症诊断
此数据为乳腺癌的癌症,获得的数据属性有乳腺的细胞核的一些特征,【包括半径,质地,光滑度,面积等等,这些都能用仪器测出来】。医生可以根据这些特征判断你是否得病了,同样,算法也一样,通过这些特征判断你是否得病了。比如KNN算法。导包import numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom sklearn.neighbors import KNeighborsClassifierfrom sk原创 2020-06-13 22:24:49 · 3806 阅读 · 6 评论 -
KNN参数的筛选
目录导包交叉验证演示交叉验证选取最适邻居数画图表示多参数组合使用cross_val_score筛选最合适的参数组合遍历方式取最大值结果导包import numpy as npfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn import datasets# model_selection:模型选择# cross_val_score cross:交叉,validation.原创 2020-06-13 21:34:41 · 1587 阅读 · 0 评论 -
KNN-iris分类
导包import numpy as npimport matplotlib.pylab as pyb%matplotlib inlinefrom sklearn.neighbors import KNeighborsClassifierfrom sklearn import datasets加载数据,数据降维(画图)X,y = datasets.load_iris(True)# 4个属性,4维空间,4维的数据,鸢尾花是四维的。# 150代表样本的数量X.shape原创 2020-06-13 15:37:02 · 522 阅读 · 0 评论 -
KNN手写数字识别
导包CV2比matplotlib加载速度快import numpy as npimport cv2#加载图片import matplotlib.pyplot as plt#inline表示将图表嵌入到Notebook中%matplotlib inlinefrom sklearn.neighbors import KNeighborsClassifier原创 2020-06-12 23:00:33 · 626 阅读 · 0 评论 -
决策树
目录信息熵决策树建立条件熵推导条件熵的定义式相对熵互信息决策树的实例决策树示意图决策树学习的生成算法信息增益Gini系数信息熵 信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。决策树建立假设有n个样本,假设有一个根节点,将N个样本列在根节点当中,给出一种分割规则,分为左边和右边分原创 2020-06-09 22:08:12 · 343 阅读 · 0 评论 -
KNN近邻算法-提高
K近邻算法:nearest neighbors classificationk定义多少个邻居物以类聚,人以群分教会计算机根据‘邻居’分类,邻居:距离比较近距离公式:欧氏距离计算------>数学公式------>计算结果原创 2020-06-08 22:40:04 · 437 阅读 · 0 评论 -
回归--实践
回归问题解决分类?Logistic回归Logistic回归参数估计逻辑回归一般做二分类。对数线性模型,广义的线性模型。对数的是线性的,证明得到的p就是sigmod函数+线性模型Logistic回归的损失函数沿似然函数正梯度上升...原创 2020-06-07 22:33:22 · 147 阅读 · 0 评论 -
回归--理论
函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。线性回归如何确定k,b ?为截距,x,y为给定的样本,这个模型其实就是线性回归的模型,用这个模型和样本确定θ1,θ2,θ0最佳的值,θ未知,x已知,公式:第i个样本实际的值=预测值+误差值高斯分布最大似然估计MLE最小二乘法的本质Logistic回归分类问题的首选算法多分类:Softmax回归目标函数技术点梯度下降算法最大似然估计特征选择...原创 2020-06-06 17:27:17 · 713 阅读 · 0 评论 -
机器学习基础1--基本介绍
赔率浔阳江畔艄公张横和张顺正进行400米自由泳比赛, 宋江开赌场做庄,规定:张横赢赔率为3,张顺赢 赔率为2。假定不存在平局。赌徒李逵为张横下注 10两。比赛结束后,若最终张横赢,则宋江付赌徒李逵30两(10×3),赌资10两归庄家宋江所有,即李逵赚20两。若张顺赢,赌资10两归庄家宋江所有,即李逵赔10两。假定所有赌徒中,共有a元买张横,b元买张 顺,则开赛前宋江收入为a+b元,开赛后的赔付期望为:从上述结论知:使用y=1/p作为赔率,会使 得庄家在期望上不赔不赚。这即“公平赔率”:y原创 2020-06-04 23:09:31 · 338 阅读 · 0 评论 -
机器学习基础算法8--Kmeans均值
目录非监督学习(unsupervised learning)主要方法:k-means如何数据化为三个类别?k-means步骤k-means APIk-means对Instacart Market用户聚类导包假设用户一共分为四个类别聚类显示聚类结果Kmeans性能评估指标Kmeans性能评估指标APIKmeans总结非监督学习(unsupervised learning)主要方法:k-means如何数据化为三个类别?k-mean.原创 2020-06-04 16:28:39 · 594 阅读 · 0 评论 -
机器学习算法基础7--逻辑回归
目录逻辑回归应用:逻辑回归公式逻辑回归的损失函数、优化(了解)逻辑回归预测癌症案例数据描述良/恶性乳腺癌肿分类流程逻辑回归总结逻辑回归线性回归的式子作为逻辑回归的输入。 解决二分类问题。逻辑回归应用:•广告点击率••判断用户的性别••预测用户是否会购买给定的商品类••判断一条评论是正面的还是负面的 点击 0.001 0.01广告点击:...原创 2020-06-03 22:24:09 · 244 阅读 · 0 评论 -
机器学习算法基础6-回归算法-线性回归
回忆回归问题的判定?回归:目标值是联系的,分类是离散的。回归应用:房价预测,销售额预测,金融领域贷款额度预测等等。比如说期末成绩等于下图,找到各个特征按比列结合去预测结果。房价用图表示,房子的面积和价格关系图。import matplotlib.pyplot as pltplt.figure(figsize=(10,10))#画板大小10乘10plt.scatter([60,72,75,80,83],[126,151.2,157.5,168,174.3]..原创 2020-06-02 22:43:06 · 503 阅读 · 0 评论 -
机器学习基础算法2-数据降维,数据划分,转化器,估计器。
目录数据的降维特征选择特征选择原因主要方法Filter(过滤式):VarianceThreshold数据降维PCA(主成分分析)降维案例机器学习开发流程机器学习算法分类数据集划分scikit-learn数据集API介绍sklearn分类数据集数据集分割转换器估计器数据的降维特征选择特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但选择后的特征维数肯定比选择前小,毕竟.原创 2020-05-27 21:58:39 · 397 阅读 · 0 评论 -
机器学习算法基础1-机器学习概述、特征工程
目录人工智能,机器学习,深度学习数据来源与类型数据来源数据类型数据的特征工程Scikit-learn数据的特征抽取字典特征抽取文本特征抽取对中文分词,需要使用jieba库人工智能,机器学习,深度学习人工智能的研究领域也在不断扩大,图二展示了人工智能研究的各个分支,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。机器学习可以解放生产力,解决专.原创 2020-05-26 22:44:49 · 250 阅读 · 0 评论