机器学习
文章平均质量分 57
xiaoxy97
这个作者很懒,什么都没留下…
展开
-
机器学习标准化处理小技巧
数据标准化StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下常用与基于正态分布的算法,比如回归数据归一化MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)提升模型收敛速度,提升模型精度常见用于神经网络Normalizer...原创 2018-07-09 16:18:28 · 457 阅读 · 0 评论 -
数据不平衡:下采样、上采样python代码实现
一、下采样所有数据存在DataFrame对象df中。数据分为两类:多数类别和少数类别,数据量相差大。数据预处理已将多数类别的Label标记为1,少数类别的Label标记为0。从多数类中随机抽取样本(抽取的样本数量与少数类别样本量一致)从而减少多数类别样本数据,使数据达到平衡的方式。import numpy as npimport pandas as pddef lower_sam...原创 2018-09-29 16:02:17 · 24467 阅读 · 2 评论 -
机器学习笔记(七):SVM
一、前导1、最优化问题最优化问题一般是指对于某一个函数而言,求解在其指定作用域上的全局最小值问题,一般分为以下三种情况(备注:以下几种方式求出来的解都有可能是局部极小值,只有当函数是凸函数的时候,才可以得到全局最小值):①无约束问题:求解方式一般求解方式梯度下降法、牛顿法、坐标轴下降法等;②等式约束条件:求解方式一般为拉格朗日乘子法拉格朗日乘子法求解③不等式约...原创 2018-10-11 22:41:46 · 1880 阅读 · 0 评论 -
机器学习笔记(六):聚类算法
一、聚类算法总括1.1 定义对大量未标注的数据集按数据内部存在的数据特征划分为多个不同类别,使类别内数据比较相似,类别间数据相似度比较小。1.2 和分类算法区别分类算法:有监督学习聚类算法:无监督学习1.3 样本相似度度量1.3.1 闵可夫斯基距离(Minkowski)a. p=1:曼哈顿距离b. p=2:欧氏距离(常用)c. p为无穷大:切比雪...原创 2018-10-03 20:46:51 · 1287 阅读 · 0 评论 -
梯度下降法python+numpy实现
批量梯度下降法(Batch Gradient Descent, BGD):使用所有样本在当前点的梯度值来对变量参数进行更新操作。随机梯度下降法(Stochastic Gradient Descent, SGD):在更新变量参数的时候,选取一个样本的梯度值来更新参数。小批量梯度下降法(Mini-batch Gradient Descent, MBGD):集合BGD和SGD的特性,从原...原创 2018-10-11 16:28:05 · 2754 阅读 · 1 评论 -
机器学习笔记(五):XGBoost
待续……原创 2018-09-25 08:32:26 · 207 阅读 · 0 评论 -
机器学习笔记(四):集成学习
待续……原创 2018-09-25 08:31:42 · 196 阅读 · 0 评论 -
机器学习笔记(三):决策树
ID3、C4.5、CART分类树算法总结决策树剪枝:①前置剪枝:API自带前置剪枝,实践证明这种策略无法得到比较好的结果②后置剪枝:分类树和回归树决策树可视化...原创 2018-09-25 08:31:10 · 177 阅读 · 0 评论 -
机器学习笔记(二):KNN
待续……原创 2018-09-25 08:30:11 · 134 阅读 · 0 评论 -
机器学习笔记(一):回归算法
目标函数和损失函数是一样的,概念不一样。目标函数是模型优化过程中方向考虑的函数,损失函数是构建好的模型的损失值:预测值和实际值之间的差距的体现函数。目标函数批量梯度下降BGD随机梯度下降SGD小批量梯度下降法MBGD ...原创 2018-09-25 08:29:00 · 151 阅读 · 0 评论