![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
爱吃莴苣笋
这个作者很懒,什么都没留下…
展开
-
机器学习一 简介
1、机器学习目的 教会计算机根据以往的经验来执行指定的任务。2、决策树 一种预测模型,常用的分类方法。树形结构。 例如:性别和年龄哪个特征对预测用户会下载哪个app更有效?3、朴素贝叶斯 二八原则:在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。4、梯度下降(最优算法) 问题→过程原创 2017-07-15 15:04:33 · 293 阅读 · 0 评论 -
机器学习总结 选择一个合适的算法
算法的分类收集的一个很实用的思维导图SKlearn的算法地图具体地址:http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html原创 2017-09-04 12:11:40 · 372 阅读 · 0 评论 -
机器学习基础 总结笔记
1、sklearn:机器学习的一个包,能够自动在数据中寻找模式并对数据集进行分割原创 2017-08-07 12:03:42 · 542 阅读 · 0 评论 -
机器学习十三 STD(标准差)在Numpy与Pandas中的不同
在Numpy与Pandas中的标准差求法的不同在于ddof的不同。ddof:贝塞尔(无偏估计)矫正系数。在Pandas中的处理:DataFrame.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)→它求的是样本无偏方差在Numpy中的处理:numpy.原创 2017-08-04 10:05:45 · 1830 阅读 · 0 评论 -
机器学习十二 误差原因与模型复杂度
误差原因(Error):用于测量模型性能的基本指标。在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。偏差:准确率和欠拟合如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地错误表示数据,从而导致准原创 2017-08-01 13:23:24 · 5475 阅读 · 0 评论 -
机器学习十一 评估指标
评估指标(Evaluation Metrics)1、选择合适的指标在构建机器学习模型的时候,首先要选择性能指标,然后测试模型的表现如何。相关的指标有多个,具体取决于我们要解决的问题。在可以选择性能指标之前,首先要认识到机器学习研究的是如何学习根据数据进行预测。在测试模型时,也务必要将数据集分解为训练数据和测试数据。如果不区分训练数据集和测试数据集,则在评估模原创 2017-08-01 13:02:37 · 433 阅读 · 0 评论 -
机器学习十 交叉验证
交叉验证(Cross Validation)定义(摘自百度百科):交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。目的:为了获原创 2017-07-31 13:17:21 · 3043 阅读 · 0 评论 -
机器学习九 python matplotlib
图形绘制(python matmatplotlib)原创 2017-07-31 09:38:38 · 247 阅读 · 0 评论 -
机器学习八 异常值
异常值(Outliers)定义:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。产生异常值的因素:1、传感器故障所引起的原创 2017-07-29 16:24:24 · 764 阅读 · 0 评论 -
机器学习七 回归分析
回归(Regression)定义(摘自百度百科):回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关)。//若进一步假定随机误差遵从正态分布,就叫做正态线性原创 2017-07-28 21:36:15 · 388 阅读 · 0 评论 -
机器学习六 决策树
决策树(Decision Tree)是一种非常常用的分类算法,也是一种预测模型。在已知各种情况发生概率的情况下,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。缺点:容易出现过拟原创 2017-07-26 10:17:05 · 458 阅读 · 0 评论 -
机器学习五 朴素贝叶斯与SVM
0、散点图(scatter diagram) 通常应用于回归分析。散点图中的包含的数据越多,展示的效果更好。1、朴素贝叶斯方法(Naive bayes) 这是一种基于贝叶斯定理与特征条件独立假设的分类方法。 from sklearn.naive_bayes import GaussianNB clf = GaussianNB() cl原创 2017-07-23 20:46:00 · 1724 阅读 · 0 评论 -
机器学习四 数据的差异性
1、数据的差异性 值域:在直方图分布中,值域的值为最大值与最小值相减后的所得值。 当我们向数据集中添加数据的时候,有时候会改变值域大小。 四分位数(IQR):公式IQR=Q3-Q1 在绘制盒须图的时候经常用到。 Q原创 2017-07-20 15:49:00 · 1412 阅读 · 0 评论 -
机器学习三 中心测量方法
中心测量方法1、众数(Mode):在分布中,分组得到频率最高。得到一组区间估计值。 均匀分布中不存在众数。 多峰分布下,有多个众数存在的情况(比如:双峰分布含有两个众数)。 众数出现在二维原创 2017-07-19 16:55:24 · 707 阅读 · 0 评论 -
机器学习二 python numpy等安装
1、python环境下配置numpy,pandas等 windows用户: 打开命令窗口:win+R→输入cmd命令→输入pip install numpy 备注:pip命令的使用需要在系统变量PATH中添加python安装目录下的scripts目录。 获取最新版本的numpy,pandas等时候,可以使用以下命令: pip ins原创 2017-07-18 14:54:22 · 232 阅读 · 0 评论 -
关于矩阵乘法的重要提醒
关于矩阵乘法的重要提醒左侧矩阵的列数必须等于右侧矩阵的行数。答案矩阵始终与左侧矩阵有相同的行数,与右侧矩阵有相同的列数。顺序很重要:乘法A•B不等于乘法B•A。左侧矩阵中的数据应排列为行,而右侧矩阵中的数据应排列为列。转载 2017-09-26 20:19:10 · 481 阅读 · 0 评论