machine learning
文章平均质量分 75
AI_盲
努力爬。。。
展开
-
机器学习试题
1.什么是监督学习和非监督学习,请说明它们的区别,并各举一个例子。说明分类和回归问题的区别,并各举一个例子。答:(1)有监督学习:对具有标记的训练样本进行学习来建立从样本特征到标记的映射。例如:支持向量机 无监督学习:对没有标记的训练样本进行学习,以发现训练样本集中的结构性知识。聚类就是典型的无监督学习。比如:K-means等。(2)回归是监督学习的一种,它的标记是连续取值,有大小区别原创 2017-07-04 11:50:36 · 29369 阅读 · 2 评论 -
生成模型与判别模型的异同
生成方法的特点:生成方法学习联合概率密度分布P(X,Y),所以就可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪。生成方法可以还原出联合概率分布P(Y|X),而判别方法不能。生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型,当存在隐变量时,仍可以用生成方法学习。此时判别方法就不能用。判别方法的特原创 2017-07-27 15:54:50 · 551 阅读 · 0 评论 -
FM与FFM的区别
FM与FFMFM:旨在解决稀疏数据下的特征组合问题,具有线性的计算复杂度;(矩阵分解方式处理参数,不仅能减少参数数量,还能处理由于稀疏性带来的参数不好训练的问题)一般的线性模型压根没有考虑特征间的关联(组合)。为了表述特征间的相关性,我们采用多项式模型。观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如,“USA”与“Thanksgiving”、“China”...原创 2017-08-24 14:07:02 · 10253 阅读 · 0 评论 -
机器学习中几个常见模型的优缺点
朴素贝叶斯:优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。缺点:对输入数据的表达形式很敏感(连续数据的处理方式)。决策树:优点:计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征。缺点:容易过拟合(后续出现了随机森林,减小了过拟合现象)。逻辑回归:优点:实现简单,分类时计算量非常小,速度很快,存储资源低。缺点:容易欠拟合,一般准确度不高;只能处原创 2017-08-24 14:18:49 · 16302 阅读 · 0 评论 -
BAT面试经验分享(机器学习算法岗)
阿里:7月份最早投的阿里(算法工程师),过了2天就收到一面通知,一面最主要的是问简历上写的内容,问基础。对简历上的项目中涉及到的所有知识点必须理清,期间面试官问了一个我简历上写的但我不是很了解的内容,结果我说不是很熟悉,面试官就说了我不熟悉的还敢往上写…面试主要问的其他知识点:有哪些聚类(当时我只熟悉kmeans,下来赶紧找资料https://www.zhihu.com/question/3...原创 2017-08-24 14:45:47 · 39985 阅读 · 22 评论 -
数据不平衡时分类器性能评价(ROC曲线)
大家在将统计学习方法用于实际应用时,不免会遇到各类间数据不太平衡的情况。比如垃圾邮件的识别、稀有病情的诊断、诈骗电话识别、情感分析等等情况。导致数据不平衡的原因有很多,有可能是因为不恰当的采样方法,也可能真实的数据分布就是如此;然而真实的数据分布在大多数情况下我们是无从得知的,于是我们只好认为我们所取得的样本是“真实”的,再从中进行学习。那么针对数据不平衡有很多研究点,最近稍微调研了一下,这也算是转载 2017-08-23 17:16:53 · 7583 阅读 · 0 评论 -
keras中自定义验证集的性能评估(ROC,AUC)
在keras中自带的性能评估有准确性以及loss,当需要以auc作为评价验证集的好坏时,就得自己写个评价函数了:from sklearn.metrics import roc_auc_score# AUC for a binary classifierdef auc(y_true, y_pred): ptas = tf.stack([binary_PTA(y_true,y_p原创 2017-12-07 13:38:53 · 34033 阅读 · 12 评论 -
Keras实现CNN、RNN(基于attention 的双向RNN)及两者的融合
本文主要采用CNN,RNN对时序数据进行二分类CNN处理时序数据的二分类model = Sequential()model.add(Conv1D(128, 3, padding='same', input_shape=(max_lenth, max_features)))model.add(BatchNormalization())model.add(Activation('relu'))...原创 2018-04-24 10:50:34 · 20003 阅读 · 3 评论 -
RNN用于二值分类
import numpy as npimport randomwith np.load('rnn_data/file_name.npz') as data: feature = data['feature'] label = data['label'] rea_lenth = data['true_lenth'] #实际长度#迭代器class SimpleDat原创 2017-07-04 11:22:34 · 6388 阅读 · 11 评论 -
关于树的几个ensemble模型的比较(GBDT、xgBoost、lightGBM、RF)
决策树的Boosting方法比较原始的Boost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“严重关注”,也就被赋上一个很高的权重。然后等进行了N次迭代(由用户指定),将会得到N个简单的分类器(bas原创 2017-03-31 17:22:23 · 25107 阅读 · 3 评论 -
机器学习调参经验:学习速率、正则项系数、minibatch size
学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小,则会使收敛过慢,如果学习速率太大,则会导致代价函数振荡,如下图所示。就下图来说,一个比较好的策略是先将学习速率设置为0.25,然后在训练到第20个Epoch时,学习速率改为0.025转载 2017-04-19 10:04:26 · 4822 阅读 · 1 评论 -
Batch Normalization & Layer Normalization整理(代码实现下载)
以下为layer normalisation文章解析:摘要训练目前性能最好的深度神经网络计算代价高昂. 一种减少训练时间的方法是规范化神经元的激活值. 近期引入的批规范化(batch normalisation)技术对一个训练样本批量集使用了求和的输入分布来计算均值和方差,然后用这两个来规范化那个神经元在每个训练样本的求和输入. 这个方法显著减少了前驱神经网络的训练时间.原创 2017-04-19 10:32:59 · 10235 阅读 · 0 评论 -
神经网络中的BP算法
在我们了解过神经网络的人中,都了解神经网络一个有很常见的训练方法,BP训练算法.通过BP算法,我们可以不断的训练网络,最终使得网络可以无限的逼近一种我们想要拟合的函数,最终训练好的网络它既能在训练集上表现好,也能在测试集上表现不错!那么BP算法具体是什么呢?为什么通过BP算法,我们就可以一步一步的走向最优值(即使有可能是局部最优,不是全局最优,我们也可以通过其它的方法也达到全局转载 2017-04-25 10:48:55 · 3033 阅读 · 2 评论 -
准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC、AUC
下面简单列举几种常用的推荐系统评测指标:1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是...转载 2017-04-25 10:02:43 · 33865 阅读 · 0 评论 -
神经网络中w,b参数的作用(为何需要偏置b的解释)
可视图讲解神经元w,b参数的作用在我们接触神经网络过程中,很容易看到就是这样一个式子,g(wx+b),其中w,x均为向量.比如下图所示:加入激活函数为g(x),我们就可以用公式g(w1x1+w2x2+b)(注:1,2均为下标,公众号很难打,下面所有的公式均是)来表示神经元的输出。其中b为神经元的偏置.那么w,b这些参数的作转载 2017-04-25 11:04:45 · 78088 阅读 · 26 评论 -
通俗理解信息熵
1 信息熵的公式先抛出信息熵公式如下:其中P(xi)代表随机事件X为xi的概率,下面来逐步介绍信息熵的公式来源!2 信息量信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?多少信息用信息量来衡转载 2017-04-25 14:44:54 · 3944 阅读 · 0 评论 -
通俗理解条件熵
1 信息熵以及引出条件熵我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望这个还是比较抽象,下面我们解释一下:设有随机变量(X,Y),其联合概率分布为转载 2017-04-25 14:48:26 · 45420 阅读 · 14 评论 -
通俗理解决策树算法中的信息增益
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。1 概念我们前面说了,信息熵是代表随机变量的复杂度(不确定度)通俗理解信息熵,条件熵代表在某一个条件下,随机变量的复杂度(不确定度)通俗理解条件熵而我们的信息增益恰好是转载 2017-04-27 20:30:41 · 7931 阅读 · 1 评论 -
简单阐述深度学习与机器学习的差异
深度学习与机器学习的差异性主要表现在以下几个方面: 1、数据依赖性深度学习一般需要大量数据用于训练,而机器学习相对于深度学习没有那么大的数据依赖量,在数据相对较少的情况下也适用。2、硬件依赖深度学习复杂性更大,处理数据的硬件要求比较高,一般使用GPU并行处理,而机器学习相关模型一般在CPU上就可以完成处理。3、特征工程深度学习算法尝试从数据中学习到更加抽象的特征,使得用户不原创 2017-04-11 23:39:13 · 2133 阅读 · 0 评论