机器学习
文章平均质量分 62
喂鱼W_y
一枚小白,立志学好python!
展开
-
机器学习之决策树
决策树 是表示基于特征对实例进行分类的树形结构。 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将数据进行分割,使得各子数据集有最好的分类过程。 决策树算法3要素:特征选择 决策树生成决策树剪枝关于决策树生成 决策树生成的过程是 使得满足划分准则的特征不断的将数据划分成纯度更高的不确定性更小的子集的过程。对于当前数据D的每一次划分,都希...转载 2017-12-12 19:16:21 · 305 阅读 · 0 评论 -
机器学习之优化算法(从SGD到Adam)
我们已经知道梯度下降法,需要沿着整个训练集的梯度反向下降。使用随机梯度下降方法,选取小批量数据的梯度下降方向,可以在很大程度上进行加速。SGD及其变种可能是机器学习中应用最多的优化算法。我们按照下面的顺序一一理解一下这些算法。SGD->SGDM->NAG->AdaGrad->RMSProp->Adam->Nadam1、随机梯度下降(SGD)核心是按照...原创 2018-04-25 16:33:29 · 6227 阅读 · 1 评论 -
机器学习之统计知识
一、什么是最大似然估计、最大后验估计以及贝叶斯参数估计抛掷三次硬币,如果三次都是正面,那么问下一次硬币正面朝上的概率是多少?这种情况下,我们需要根据已观察到的三次样本数据D来估算概率正面朝上的概率p。最大似然估计最大似然估计\bf{最大似然估计}一种方法是找到能最大化观测数据的似然函数P(D;θ)P(D;θ)P(D; \theta)的参数θθ\theta的值。这里θθ\theta是...翻译 2018-04-21 19:22:25 · 422 阅读 · 0 评论 -
机器学习之在线学习算法FTRL
现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法每次迭代对全体训练数据集进行计算,无法有效地处理超大规模的数据集和在线数据流。google提出的FTRL(Follow-the-regularized-Leader)算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色。...转载 2018-04-21 20:57:14 · 1789 阅读 · 0 评论 -
深度学习在CTR中的应用
▌ 前言预测用户响应如点击率和转换率在许多web应用程序中是十分重要的,包括web搜索、个性化推荐和在线广告。其与图像和语言中的连续原始特征不同,web空间中的输入特征是多域的,大多数是离散和分类的。主要的预测模型要么局限于线性模型,要么需要手动建立高阶组合特征,前者失去了探索特征交互的能力,后者需要大量的计算。随着深度学习其强大的表达能力和灵活的网络结构在 NLP、图像、语音等众多领域取...转载 2018-05-23 21:19:35 · 535 阅读 · 0 评论 -
PCA的数学原理(转)
首先我们直接给出PCA算法步骤:设有m条n维数据。 1)将原始数据按列组成n行m列矩阵XXX 2)将X的每一行(代表一个特征字段)进行零均值化,即减去这一行的均值 3)求出协方差矩阵C=1mXXTC=1mXXTC=\frac{1}{m}XX^{T} 4)求出协方差矩阵的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P 6)Y=PXY=...转载 2018-06-05 20:11:00 · 620 阅读 · 0 评论 -
卷积神经网络中1*1卷积核的用处
最近在看Google的Inception、Resnet以及一些最新的CNN网络时发现其中常常用到1*1的卷积核,一直不太明白这样不就是复制前一层网络信息吗?后来发现1*1卷积真的很有用。对于一张图片28*28*1这样的单通道图片,其的确没什么作用。但是如果对于28*28*16中多通道图片,使用6个1*1卷积核之后可以将其压缩成28*28*6,也就是图片高和宽不变,改变了通道数。好处1:In...原创 2018-06-05 20:19:41 · 1474 阅读 · 0 评论 -
(转)Hinton、LeCun和Bengio——深度学习综述
本文是《Nature》杂志为纪念人工智能60周年而专门推出的深度学习综述,也是Hinton、LeCun和Bengio三位大神首次合写同一篇文章。该综述在深度学习领域的重要性不言而喻,可以说是所有人入门深度学习的必读作品。本文上半部分深入浅出介绍深度学习的基本原理和核心优势,下半部分则详解CNN、分布式特征表示、RNN及其不同的应用,并对深度学习技术的未来发展进行展望。原文链接:http...转载 2018-07-18 22:50:48 · 3134 阅读 · 0 评论 -
spark-liblinear源码解析
目前ai平台已经支持Lr算法供大家使用,它是基于spark-liblinear这个分布式库进行开发封装的,其核心迭代算法为Trust-region Newton method 简称TRON。可能很多人并没有听说过这种算法,也不知为何要使用它,它与那些常见的SGD、L-BFGS等优化方法有何不同,下面让我们一探究竟。1、从LR模型说起LR模型常被用于二分类问题,给定数据 x\textbf xx ...原创 2018-11-15 18:58:22 · 570 阅读 · 0 评论 -
Bert模型浅析
本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识,网上很多关于bert的解读,翻来覆去都是那些论文里的翻译之类的,十个人有九个相同的东西。本文简单的摘录了一些大佬之言,仅供参考。1、Bert简介先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知,图像领域的imagenet预训练对于图像处理有着相当大的意义,namenlp领域是否也存在这样的一个通用模型呢?从word2...原创 2019-01-04 21:17:10 · 5938 阅读 · 0 评论 -
机器学习之面试题
翻看csdn里的博客,无意间看到一篇分享机器学习面试经验的文章,里面博主列举了他面试遇到的问题,我觉得很不错,然后加上我个人的理解分享给需要的人。1、 什么是boosting tree?提升方法(boosting)是一种常见的统计学习方法,它的理论基础是:强可学习与弱可学习是等价的,在概率近似正确(PAC)学习的框架下:强可学习是一个概念,若存在一个多项式的学习算法能够学习它,并且正...原创 2018-04-21 13:53:43 · 2410 阅读 · 0 评论 -
机器学习之自编码器
自编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。其内部有一个隐藏层h,可以产生编码表示输入。该网络由两部分组成:一个由函数h=f(x)h=f(x)h=f(x)表示的编码器和一个产生重构的解码器r=g(h)r=g(h)r=g(h)。一般我们需要加一些约束给自编码器,使得其输出只是近似于输入,强制模型考虑输入数据的哪些部分需要被优先复制,从而学习数据中的有用特性。...转载 2018-04-19 13:15:08 · 2495 阅读 · 0 评论 -
机器学习之FM与FFM(Factorization Machines)
FM是机器学习中的一种类似于SVM的算法模型,常用于高维稀疏的数据中。相比SVM中的多项式核,其同样可以捕捉数据中不同变量之间的作用关系。但是相比SVM,它具有如下几个优点: 1、FM允许在非常稀疏的数据下进行参数估计,SVM不行。2、FM具有线性复杂度,可以在原始状态下进行优化,不依赖于支持向量,比如SVMs。3、FMs是一种适用于任意实值特征向量的通用预测器。而其他的一些对于数据有限制。首...翻译 2018-04-19 00:01:58 · 4223 阅读 · 0 评论 -
41个机器学习面试题
41 Essential Machine Learning Interview Questions (with answers)一、算法理论Q1: 什么是偏倚(bias)、方差(variable)均衡?偏倚指的是模型预测值与真实值的差异,是由使用的学习算法的某些错误或过于简单的假设造成的误差。它会导致模型欠拟合,很难有高的预测准确率。 方差指的是不同训练数据训练的模型的预测值之间的差翻译 2018-01-25 22:09:33 · 38486 阅读 · 4 评论 -
机器学习之损失函数(代价函数)
一、分类算法中的损失函数1、0-1损失函数2、Log损失函数2. 1 Log损失2. 2 Logistic回归算法的损失函数2. 3 二者的等价3、Hinge损失函数3.1 Hinge损失3.2 SVM的损失函数3.3 二者的等价4、指数损失函数4.1、指数损失4.2、AdaBoost基本原理一、分类算法中的损失函数在分类算法中...转载 2018-02-04 21:48:49 · 1578 阅读 · 0 评论 -
[机器学习] 代价函数(cost function)
前言:代价函数也叫做损失函数,loss function。机器学习中训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中的梯度。 1、代价函数的定义 假设有训练样本(x,y),模型为f,参数为w,f(w)=wTxw^Tx,我们需要度量预测值f(w)与真实值y之间的差异,我们将这种差异函数叫做代价函数,如果多个样本,则可以将所有代价函数的取值求平均,计作J(w)。因此我转载 2017-09-21 11:42:09 · 2507 阅读 · 0 评论 -
机器学习与python实践(一)k临近(knn)
机器学习与python实践(一)k临近(knn)knn算法分析 k最邻近分类算法是最简单的机器学习算法,它采用测量不同特征值之间的距离进行分类,想法很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本的大多数属于某个类,则这个样本也属于这个类。 knn算法中所选择的邻近都是已经分好类的对象,该方法在定类决策上只依赖最邻近的一个或几个样本的类别来决定待分类样本的类别,不是靠判别原创 2017-05-10 09:04:28 · 1968 阅读 · 0 评论 -
scikit-learn 文本挖掘概念
文本挖掘 text mining知识密集的处理过程,使用分析工具与文档集合动态交互。 类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。数据来源是文档集合,不是形式化的数据库记录,是非结构化的文本数据集合。 将文字转化为数字,算法可以应用到大型文档数据库。将文本转化为结构化,数字格式,并应用分析算法需要知道如何使用和整合这些技术来处理文本,范围包括文本个体到翻译 2017-05-06 09:56:08 · 1545 阅读 · 0 评论 -
机器学习之自然语言处理理解
大数据的机会使得更容易去做自然语言处理,人工智能闭环:数据驱动机器学习,有一个系统用户产生大量数据,基于数据建立模型服务客户。自然语言处理核心想法基于机器学习,统计机器学习方法分类为:分类、匹配、翻译、结构预测、马尔可夫决策过程。 逼近人的性能,考虑实用性,技术的上界和性能的下界。看具体应用场景。 具有代表性的技术: 机器翻译。问答系统。搜索匹配排序,q&a。传统字面上的匹配,现在深度学习技术原创 2017-05-06 00:36:47 · 6873 阅读 · 0 评论 -
传统机器学习算法(统计学习)优缺点盘点
在机器学习领域的一个基本的定理是“没有免费的午餐“,也就是所没有算法能适用于所有的问题。算法的选择必须要根据实际的场景与面对的问题来抉择。我们可以将机器学习问题分为如下三大类:回归(Regression)分类(Classification)聚类(Clustering)▌一、回归回归是一种用于连续型数字变量预测和建模的监督学习算法,使用场景包括房地产价格、股价走势或学生成绩等...转载 2018-02-12 15:24:55 · 11144 阅读 · 0 评论 -
微博中的机器学习之特征选择
在微博,机器学习被广泛的应用于微博的各个业务,如Feed流、热门微博、消息推送、反垃圾、内容推荐等等。深度学习作为机器学习的分支,在其中起到了很大的作用。深度学习能够对原始特征进行更高层次的抽象和提取,进而生成区分度更高、相关性更好的特征集合,因此深度学习算法可以成为“自动特征提取算法”。不管什么算法,特征的选取对模型的最终预测性能都至关重要。特征选择从最初的人工选择,到半自动特征选择,到全...转载 2017-12-21 21:03:49 · 1289 阅读 · 0 评论 -
转:机器学习的理解
转李航博士的一篇关于机器学习理解的文章:算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题转载 2018-02-17 08:55:57 · 205 阅读 · 0 评论 -
如何理解机器学习评估指标AUC?
在机器学习中,模型评估是非常重要的一环,没有评估就没有优化可言。我们一般熟悉的准确率、召回率、F1值、均方误差等都是评估指标,AUC是其中最常见且好用的指标之一。AUC 是什么?在机器学习中,常用AUC来评估二分类模型的性能。AUC全称曲线下面积,曲线指的是ROC曲线。ROC曲线最早用于第二次世界大战的雷达工程中,后用于医学、机器学习等领域。对于二分类问题,模型会对每个样本预测一个得分s或者...转载 2019-01-17 00:23:12 · 947 阅读 · 0 评论