机器学习
yeler082
本科就读于新疆大学软件学院,现阶段在西安交通大学攻读软件工程硕士,研方向为计算机视觉(图像识别、目标检测)
展开
-
无监督学习面临的众多挑战
首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?最简单也最普遍的一类机器学习算法就是分类(classification)。翻译 2017-10-06 18:15:35 · 2359 阅读 · 0 评论 -
【04】贝叶斯学习
4.1 极大似然估计定义 所谓极大似然法( maximum likelihood method )是指选择使事件发生概率最大的可能情况的参数估计方法。极大似然法包括2个步骤: 1)建立包括有该参数估计量的似然函数( likelihood function ) 2)根据实验数据求出似然函数达极值时的参数估计量或估计值 对于离散型随机变量,似然函数是多个独立事件的概率函数的乘积,该乘积是概率...原创 2018-05-15 17:05:08 · 2772 阅读 · 0 评论 -
常用卷积神经网络从基本原理到结构汇总
CNN的经典结构始于1998年的LeNet,成于2012年历史性的AlexNet,从此大盛于图像相关领域,主要包括: 1、LeNet,1998年 2、AlexNet,2012年 3、ZF-net,2013年 4、GoogleNet,2014年 5、VGG,2014年 6、ResNet,2015年LeNet前面博文已介绍,下面再补充介绍下其它几种网络结构。AlexNetAlexNet说明...转载 2018-07-16 09:46:42 · 4977 阅读 · 0 评论 -
过拟合欠拟合与交叉验证集说明
过拟合是指模型能很好地拟合训练的样本,但是对新出现的数据预测的准确性不是很好。欠拟合是指模型还不能很好的拟合训练当中的样本,当然对于新出现的数据预测的准确性也不好。下面通过一段python代码对一个函数式子方程进行拟合以说明过拟合、适中、欠拟合的情况。上图中蓝色部分是用一次函数拟合散点,对于欠拟合的情况;黄色三次函数得到的适当拟合情况;绿色为十次函数得到的过拟合曲线。impo...原创 2018-08-20 16:28:22 · 3120 阅读 · 4 评论 -
机器学习领域 几种距离度量方法【1】
一、欧氏距离(Euclidean Distance)二、曼哈顿距离(Manhattan Distance)三、切比雪夫距离 (Chebyshev Distance)四、闵可夫斯基距离(Minkowski Distance)五、标准化欧氏距离 (Standardized Euclidean Distance)六、马氏距离(Mahalanobis Distance)1 ...原创 2019-01-04 21:55:35 · 1010 阅读 · 0 评论 -
机器学习领域 几种距离度量方法【2】
七、巴氏距离(Bhattacharyya Distance)八、余弦距离(Cosine Distance)九、汉明距离(Hamming Distance)十、杰卡德距离(Jaccard Distance)十一、相关距离(Correlation distance)十二、卡方距离(Chi-square measure)巴氏距离(Bhattacharyya Distance)...原创 2019-01-04 22:10:30 · 1976 阅读 · 0 评论 -
机器学习领域 几种距离度量方法【3】
十三、堪培拉距离 (Canberra Distance)十四、布雷柯蒂斯距离(Bray Curtis Distance)十五、交叉熵(Cross Entropy)十六、相对熵(relative entropy)十七、js散度(Jensen-Shannon)十八、测地距离(Geodesic distance)堪培拉距离 (Canberra Distance)被认为是曼...原创 2019-01-04 22:23:12 · 5301 阅读 · 0 评论 -
马尔科夫随机场
1、介绍首先介绍一下什么是随机过程,随机过程就是描写叙述某个空间上粒子的随机运动过程的一种方法。它是一连串随机事件动态关系的定量描写叙述。随机过程与其他数学分支,如微分方程、复变函数等有密切联系。是自然科学、project科学及社会科学等领域研究随机现象的重要工具。如果将随机过程引入到马尔科夫模型便得到马尔科夫随机过程,它是指下一个时间点的值只与当前值有关系,与以前的值没有关系,即未来决定...原创 2019-01-08 11:22:06 · 2352 阅读 · 1 评论 -
L1,L2正则化
一、概括:L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。我们知道,正则化的目的是限制参数过多或者过大,...原创 2019-04-30 09:39:20 · 1128 阅读 · 0 评论 -
kmeans聚类实现图像分割
#!/usr/bin/env python# encoding: utf-8'''@author: lele Ye@contact: 1750112338@qq.com@software: pycharm 2018.2@file: kmeans.py@time: 2019/1/7 19:36@desc:基于聚类的图像分割'''import numpy as npfrom P...原创 2019-05-19 11:12:22 · 4454 阅读 · 3 评论 -
Sigmoid函数与softmax函数
一、sigmoid函数函数:f(z) = 1 / (1 + exp( −z))导数:f(z)' =f(z)(1 −f(z))推导过程:函数图像:tensorflow实现:#!/usr/bin/env python# -*- coding: utf-8 -*- import tensorflow as tf input_data = tf.Var...原创 2019-05-09 20:41:43 · 1406 阅读 · 0 评论 -
【02】机器学习绪论
1.1 机器学习的发展与应用1.1.1机器学习的发展图1 传统机器学习方法的发展历程James(1890)-神经元相互连接: 人脑中当两个基本处理单元同时活动,或两个单元靠得比较近时,一个单元的兴奋会传到另一个单元。而且一个单元的活动程度与他周围的活动数目与活动密度成正比。McCulloch, Pitts(1943): 描述了一个简单的人工神经元模型的活动是服从二值(兴奋和抑制)变化的...原创 2018-05-14 16:05:48 · 649 阅读 · 0 评论 -
【03】机器学习的三种范式
机器学习当中最常见的三种范式包括:有监督学习、无监督学习和半监督学习。一、监督学习1、线性分类1.1任务训练数据的特征:标定的训练过程:根据目标输出与实际输出的误差信号来调节参数典型方法全局:BN,NN,SVM, Decision Tree局部:KNN图1 有监督学习的任务要求极其实现效果1.2监督学习中的线性模型分类什么是线性分类呢?就是在一个空间当中找到决策面。在下图中分别画出了二维空间的决策...原创 2018-05-13 22:23:10 · 8035 阅读 · 0 评论 -
深度学习框架的评估与比较
人工智能无疑是计算机世界的前沿领域,而深度学习无疑又是人工智能的研究热点,那么现在都有哪些开源的深度学习工具,他们各自的优缺点又是什么呢?最近zer0n和bamos在GitHub上发表了一篇文章,对Caffe、CNTK、TensorFlow、Theano和Torch等深度学习工具从网络、模型能力、接口、部署、性能、架构、生态系统、跨平台等方面做了比较。网络和模型能力Caffe可能是第一个主流的工业...原创 2017-10-08 12:29:10 · 771 阅读 · 0 评论 -
CNN—卷积神经网络
目录1、卷积神经网络 2、基本操作 4、pooling层BP 5、im2col 6、code1、卷积神经网络 卷积神经网络(convolutional neural network)是利用模型特性来处理掉输入的波动而获得不变性特征,由LeCun提出,目前广泛的应用于图像数据。2、基本操作 卷积操作主要是f(x)g(x)在重合区域的积分。一维卷积 如下图...原创 2017-10-08 16:47:52 · 828 阅读 · 0 评论 -
【01】机器学习浅谈
导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:图1 机器学习界的执牛耳者与原创 2017-10-25 17:07:42 · 818 阅读 · 0 评论 -
机器学习当中的一些概念
Machine Learning1.什么是机器学习?1、一般应用 垃圾邮件分类、图像识别、人脸识别、数字识别 传统解决思路: 编写规则,定义“垃圾邮件”,让计算机执行:将一封邮件输入到传统算法,经判断输出结果; 弊端:对问题本身的规则很难定义;规则在不断变化;2、人类学习过程 通过一定的样本资料,经过大脑的学习、归纳、整理、...原创 2018-01-11 20:56:38 · 2882 阅读 · 0 评论 -
机器学习算法概述
3.机器学习算法概述3.1 朴素贝叶斯分类器算法手动分类网页,文档,电子邮件或任何其他冗长的文本注释将是困难且实际上不可能的。 这是朴素贝叶斯分类器机器学习算法来解决。 分类器是从可用类别之一分配总体的元素值的函数。 例如,垃圾邮件过滤是朴素贝叶斯分类器算法的流行应用程序。 此处的垃圾邮件过滤器是一种分类器,可为所有电子邮件分配“垃圾邮件”或“不垃圾邮件”标签。朴素贝叶斯分类器算法是最...原创 2018-04-08 23:01:25 · 960 阅读 · 0 评论 -
Bagging和Boosting 概念及区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1、Bagging (bootstrap aggregating)Bagging即套袋法,其算法过程如下:A)从原始样...原创 2018-04-09 11:32:57 · 521 阅读 · 0 评论 -
AdaBoost算法
一、AdaBoost算法简介 Boosting, 也称为增强学习或提升法,是一种重要的集成学习技术,能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计提供了一种有效的新思路和新方法。其中最为成功应用的是,Yoav Freund 和 Robert Schapire 在 1995 年提出的 AdaBoost算法[1]。Ada...原创 2018-04-17 22:46:00 · 728 阅读 · 0 评论 -
分类模型的评估指标--精确率(precision)与召回率(recall)
1 、几个常用的术语这里首先介绍几个 常见 的 模型评价术语,现在假设我们的分类目标只有两类,计为正例(positive)和负例(negtive)分别是:1)True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;3...原创 2018-05-11 13:18:43 · 6817 阅读 · 0 评论 -
过拟合问题的一些探讨
1、什么是过拟合?过拟合(overfitting)是指学习时选择的模型所包含的参数过多(即模型容量很大),以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。下图中反映了在线性模型中欠拟合、适当拟合和过拟合的图像。(图片来自于吴恩达机器学习课程)下图中反映了在逻辑回归模型中欠拟合、适当拟合和过拟合的图像。(图片来自于吴恩达机器学习课程)2、产生过拟合的原因产生过拟合的主要原因可以...原创 2018-05-13 14:25:43 · 1137 阅读 · 0 评论 -
极大似然估计法的原理和方法
1、极大似然估计的理解与应用2、深入浅出最大似然估计(Maximum Likelihood Estimation)3、极大似然估计的原理和方法——强烈推荐,PPT其实讲的已经很清楚了4、极大似然估计详解...转载 2018-05-13 15:58:29 · 8536 阅读 · 0 评论 -
神经网络训练时loss不下降的问题
当我们训练一个神经网络模型的时候,我们经常会遇到这样的一个头疼的问题,那就是,神经网络模型的loss值不下降,以致我们无法训练,或者无法得到一个效果较好的模型。导致训练时loss不下降的原因有很多,而且,更普遍的来说,loss不下降一般分为三种,即:训练集上loss不下降,验证集上loss不下降,和测试集上loss不下降。这里,首先默认各位都能理解过拟合和欠拟合的概念,如果有不清楚...转载 2019-05-16 22:27:57 · 50077 阅读 · 14 评论