机器学习
文章平均质量分 74
只布布倩
这个作者很懒,什么都没留下…
展开
-
机器学习实战--聚类
一 什么是聚类?在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。聚类试图将数据集中的样本划分为活干个通常是不想交(正交)的子集,每个子集称为一个簇。通过这样的划分每个簇可能对应于一些潜在的类别。这些类别对聚类算法而言事前是未知的。聚类的过程仅能自动形成簇机构,簇所对应的类别语义需由使用者来把握和命名。聚类既能作为一...原创 2018-05-11 14:03:20 · 1404 阅读 · 1 评论 -
机器学习实战----线性回归-分别同时计算详细解释
分别同时计算:假设对参数有C轮更新,第A轮假设所有的参数值为1。第B轮中用到的其他参数值都是上一轮的参数值,得到新的参数如下图所示:原创 2018-10-12 21:22:04 · 252 阅读 · 1 评论 -
机器学习实战----线性回归
一 介绍线性回归算法是使用线性方程对数据集进行拟合的算法,是一个非常常见的回归算法。线性回归分为为两种:单变量线性回归和多变量线性回归。多变量是单变量的一种推广。1 单变量回归算法: 单变量不言而喻是只有一个变量的回归算法。预测函数会根据输入特征来计算输出值。输入与输出的关系为。这个方程表达的是一条直线,我们的目标是构造一个函数,来映射数据集中的输入特征x和输出值y...原创 2018-10-13 15:48:21 · 458 阅读 · 4 评论 -
欠拟合和过拟合的一般解决方法
简单来说,欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况;过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差。欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力。下面对解决欠拟合和过拟合的一般方法作一总结,说明大致的处理方向,具体应用还得结合实际...转载 2018-11-22 09:48:09 · 11713 阅读 · 2 评论 -
Python: sklearn库中数据预处理函数fit_transform()和transform()的区别
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:涉及到这两个函数的代码如下:# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScale...转载 2018-12-02 14:49:08 · 1461 阅读 · 0 评论 -
机器学习实战----信息增益、信息增益率和基尼指数
一 什么是信息熵对信息的一种度量。物品可以用重量度量,长度可以用尺子度量。那信息用什么度量呢?《机器学习实战》这本书的信息量是多少呢?用什么度量呢?直到1948年香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵是消除不确定性所需信息量的度量。一件事情的信息熵越高说明它需要的信息越多,来消除它的不确定性。二 信息增益1 概念解析通过名字也能猜测出来,添加了信息之...原创 2019-01-04 15:35:28 · 8877 阅读 · 3 评论 -
adaboost----从基于加法模型的前向分步算法推导出adaboost
目录一 加法模型1 什么是加法模型2 存在弊端二 前向分步算法1 什么前向分步算法2 学习加法模型的前向分步算法步骤如下:三 adaboost1 定理:2 解析:3 证明: (1)基函数 (2)损失函数四 代码实现 五 总结一 加法模型1 什么是加法模型加法模型(additive model)又叫可加模型,具体细化...原创 2019-01-09 17:13:38 · 1559 阅读 · 1 评论 -
机器学习实战----决策树
一 基本信息决策树是一种常见的机器学习算法。它是基于树的结构来进行决策,这很符合我们人类面临问题时候的处理机制。包括:一般一棵决策树包括一个根节点、若干内部节点和叶节点。叶节点对应着决策结果。目的:产生一棵泛化能力强,对处理未见示例能力强的决策树。决策树学习的本质是从训练数据中归纳出一组分类规则,与训练数据集不相矛盾的决策树可能会有很多个,我们需要一个与训练数据矛盾较小的决策树,同时具...原创 2019-01-02 20:44:13 · 360 阅读 · 0 评论 -
开放公共数据集整理分享
一 历史最全-16个推荐系统开放公共数据集整理分享 : https://zhuanlan.zhihu.com/p/40785841原创 2018-10-03 09:13:19 · 953 阅读 · 1 评论 -
安装nltk与nltk_data (mac)
NLTK是一个比较优秀的自然语言处理工具包,是我们聊天机器人需要的比较重要的一个工具。一 安装nltk 直接用anaconda的安装命令安装的:conda insatll nltk二 安装nltk_datanltk_data 是存放的一些语料数据,在写项目的时候需要用到这个工具包直接引入后报错 网上很多的教程都是要用...原创 2018-08-14 21:47:36 · 4231 阅读 · 1 评论 -
机器学习实战----特征工程
一 什么是特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。其本质是一项工程活动,目的是最大限度的从原始数据中提取特征以供算法和模型使用。什么是“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限”?就像我们学习一本书,书中的数据和从书中能够获得的所有知识是这本书的知识上限,而我们通过各种学习方法获得的知识是接近这个上限。数据和特征就像一本书中的知识的上...原创 2018-05-18 15:10:47 · 1190 阅读 · 3 评论 -
机器学习实战----初识支持向量机(SVM)
一 什么是支持向量机 SVM - Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。二 基本概念1 间隔给定训练样本集D={(x1,y1),(x2,y2),……,(xm...原创 2018-05-18 19:02:36 · 1052 阅读 · 0 评论 -
数学扫盲----拉格朗日乘子法
基本的拉格朗日乘子法就是求函数f(x1,x2,...)在约束条件g(x1,x2,...)=0下的极值的方法。其主要思想是将约束条件函数与原函数联立,从而求出使原函数取得极值的各个变量的解。拉格朗日乘子法是在支持向量机为了更好的求解间距的方法。先占个位。...原创 2018-05-18 19:17:15 · 9381 阅读 · 2 评论 -
机器学习实战----梯度下降
梯度下降是迭代法的一种。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种...原创 2018-05-26 01:08:43 · 956 阅读 · 0 评论 -
机器学习实战----初识泰坦尼克
“泰坦尼克号”的沉没是历史上最臭名昭著的海难之一。1912年4月15日,在处女航期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全条例。 造成沉船事故的原因之一是没有足够的救生艇供乘客和机组人员使用。虽然在沉没中幸存了一些运气,但一些人比其他人更容易生存,如妇女、儿童和上层阶级。 ...原创 2018-05-22 19:06:10 · 4776 阅读 · 0 评论 -
机器学习----面试题汇总
大量面经总结(包括牛客网的和我听来的)精 Python Python的元组和列表的区别。 a = [1, 2, 3, 4], b = a, b[0] = 100, 请问print(a)结果是什么 list是怎样实现的。 list有哪几种添加元素的方法,能否从表头插入元素? 如何提高Python的运行效率 如何获取list中最后...转载 2018-05-22 19:25:03 · 1959 阅读 · 0 评论 -
机器学习实战----贝叶斯之概览篇
一介绍 贝叶斯(约1701年至1761年)托马斯贝叶斯,英国数学家。约1701年出生于伦敦,做过神父。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数,统计推断,统计的估算等做出了贡献。 期初,贝叶斯是想通过概率论的研究证明上帝的存在,可惜到他去...原创 2018-06-21 08:50:03 · 322 阅读 · 1 评论 -
维数灾难(The Curse of Dimensionality in classification)
以下文章前大部分来自:http ://blog.csdn.net/zbc1090549839/article/details/38929215其译自:http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/ 由于其没译完所以最后一部分自己补上了。1引言这里我们将要讨论所谓的“维数灾难”,同时结合过拟...转载 2018-07-05 11:16:01 · 1361 阅读 · 0 评论 -
掐指一算----希尔排序--2019年07月14日
原创 2019-07-14 08:27:15 · 247 阅读 · 0 评论