![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 81
zhuwei0710
慎独
展开
-
机器学习资料与攻略超强整理吐血推荐(二)
在前文《机器学习资料与攻略超强整理吐血推荐(一) 》中,我们讲到要进入人工智能的圈子,数学是不可逾越的第一关,然后我们又推荐了一些你必须掌握的数学方面的资料。接下来,在这一篇中,我们将介绍关于机器学习的理论与工具方面的资料。二、工具篇工欲善其事,必先利其器。大数据时代,人工智能的工具趋势是显而易见且确定无疑的。作为一名数据科学家,其实你可以选择的工具非常多,转载 2017-03-31 11:19:02 · 938 阅读 · 0 评论 -
非码农也能看懂的“机器学习”原理
我们先来说个老生常谈的情景:某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,啊外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈,人生完整了?呵呵呵。告诉你吧人生就是各种麻烦等你回到家,尝了下芒果。有些确实挺甜,有些就不行了。额转载 2017-09-03 10:24:32 · 1028 阅读 · 0 评论 -
聊聊我的R语言学习路径和感受
作者:刘顺祥个人微信公众号:每天进步一点点2015 第一次接触R语言是我读研的时候,算到现在有5年多了。R语言可以算得上是我进入编程世界的启蒙语言,尽管在大学期间为了考试而被迫学习过计算机二级,但那真心是没有一丁点的兴趣可言。进入R的世界后,真的越来越喜欢,可以帮助我解决学术研究过程中的很多探索,最起码读研期间的所有小论文和毕业论文的案例分析都是通过R语言完成的。工作后,数据分析、可视...转载 2018-11-03 20:18:56 · 1414 阅读 · 0 评论 -
分类指标准确率(Precision)和正确率(Accuracy)的区别
第一个字母T和F代表true和false,是形容词。第二个字母代表P和N阴性阳性,positive和negative,是预测结果。所以现在翻译一下:TP: true positive, 正确的阳性,说明预测是阳性,而且预测对了,那么实际也是正例。TN: true negative, 正确的阴性,说明预测是阴性,而且预测对了,那么实际也是负例。FP: false positive, 假...转载 2018-11-07 08:55:21 · 16719 阅读 · 2 评论 -
准确率(accuracy),精确率(Precision),召回率(Recall)和综合评价指标(F1-Measure )
自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。 现在我先假定一个具体场景作为例子:假如某个班级...转载 2018-11-07 14:04:24 · 2771 阅读 · 0 评论 -
什么是 ROC AUC
本文结构:什么是 ROC? 怎么解读 ROC 曲线? 如何画 ROC 曲线? 代码? 什么是 AUC? 代码?ROC 曲线和 AUC 常被用来评价一个二值分类器的优劣。先来看一下混淆矩阵中的各个元素,在后面会用到:1. ROC :纵轴为 TPR 真正例率,预测为正且实际为正的样本占所有正例样本的比例。横轴为 FPR 假正例率,预测为正但实际为负的样本占所有负例样本...转载 2018-11-08 08:47:38 · 1366 阅读 · 0 评论 -
机器学习-浅谈模型评估的方法和指标
以处理流程为骨架来学习方便依照框架的充实细节又不失概要(参考下图机器学习处理流程的一个实例<<Python数据分析与挖掘实战>>),今天就充实一下模型评估(模型评价)的部分吧.图-1-机器学习处理流程实例 本"故事"以<<Python数据分析与挖掘实战>>中预测用户是否窃漏电的例子来展开,自问自答,为什么要评估和怎么评估,具体的概念在...转载 2018-11-08 08:50:22 · 2172 阅读 · 0 评论 -
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混淆矩阵如下表所示:一个三类问题的混...转载 2018-11-08 10:48:04 · 756 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision...转载 2018-11-08 11:01:46 · 424 阅读 · 0 评论 -
AUC计算方法总结
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity...转载 2018-11-08 11:41:43 · 1369 阅读 · 0 评论 -
ROC曲线详解及matlab绘图实例
在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种坐标图式的分析工具,用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议。ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌...转载 2018-11-08 11:53:59 · 17591 阅读 · 2 评论 -
分类问题-----多标签(multilabel)、多类别(multiclass)
转自:大致上,解决multilabel的方法有两种1)转化问题。把问题转化为一个或多个单目标分类问题,或是回归问题。2)算法适应。修改学习算法使得能直接处理multilabel的数据。问题转化方法 dubbed PTx法。包括PT1 对有多标签的数据随机选取一个标签 PT2 直接把标签数大于1的都丢掉 PT3 对标签集合进行排列组合,即组合好的成为一个新...转载 2018-11-08 14:13:27 · 8617 阅读 · 0 评论 -
从二分类到多分类的迁移策略
一般情况下问题研究为二分类问题,在解决多分类问题时有时可以直接推广到多分类,有时不能,不能推广的时候主要用三种拆分策略对问题进行研究一对一的策略给定数据集DD这里有NN个类别,这种情况下就是将这些类别两两配对,从而产生N(N−1)/2个二分类任务,在测试的时候把样本交给这些分类器,然后进行投票一对其余策略将每一次的一个类作为正例,其余作为反例,总共训练NN个分类器。测试的时候若仅有一个...转载 2018-11-08 14:44:18 · 1107 阅读 · 0 评论 -
解决多标签分类问题(包括案例研究)
由于某些原因,回归和分类问题总会引起机器学习领域的大部分关注。多标签分类在数据科学中是一个比较令人头疼的问题。在这篇文章中,我将给你一个直观的解释,说明什么是多标签分类,以及如何解决这个问题。1.多标签分类是什么?让我们来看看下面的图片。如果我问你这幅图中有一栋房子,你会怎样回答? 选项为“Yes”或“No”。或者这样问,所有的东西(或标签)与这幅图有什么关系?在这些类...转载 2018-11-08 14:44:47 · 1916 阅读 · 0 评论 -
SVM技术贴集合
http://www.blogjava.net/zhenandaci/category/31868.html转载 2018-12-03 20:31:45 · 299 阅读 · 0 评论 -
分类器设计之线性分类器和线性SVM(含Matlab代码)
对于高维空间的两类问题,最直接的方法是找到一个最佳的分类超平面,使得并且,对于所有的正负训练样本和. 因此,以上问题可以表达为:0,i=1,....,n& \\ &&&w^Ty_j+b问题P0可以转化为0& \end{align*}" alt="" style="border:none; max-width:100%">两边除以\epsilon,并且转载 2017-09-01 18:10:53 · 4577 阅读 · 0 评论 -
模式识别: 线性分类器
一、实验目的和要求目的:了解线性分类器,对分类器的参数做一定的了解,理解参数设置对算法的影响。 要求:1. 产生两类样本2. 采用线性分类器生成出两类样本的分类面3. 对比线性分类器的性能,对比参数设置的结果二、实验环境、内容和方法环境:windows 7,matlab R2010a内容:通过实验,对生成的实验数据样本转载 2017-09-01 18:09:22 · 613 阅读 · 0 评论 -
机器学习资料与攻略超强整理吐血推荐(一)
2016年3月,谷歌的AlphaGo对弈世界顶级围棋棋手韩国人李世石。最终,AlphaGo以五局四胜的战绩击败李世石,一时风光无限,同时也在网络上极大的激起了小伙伴们对人工智能(AI)的兴趣。岁末年初,一个名叫“Master”的神秘网络围棋手轰动了围棋界,自去年12月29日开始,它在几个知名围棋对战平台上轮番挑战中日韩围棋高手,并在1月3日晚间击败了中国顶级围棋手柯洁,取得了50胜0负的惊人战绩。转载 2017-03-31 11:18:22 · 822 阅读 · 0 评论 -
深度学习的几种库
Python1. Theano是一个Python类库,用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。 1.Keras是一个简洁、高度模块化的神经网络库,它的设计参考了Torch,用Python语言编写,支持调用GPU和CPU优化后的Theano运算。 2.Pylearn2是一个集成大量深度学习常见模转载 2017-05-01 10:34:50 · 836 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后转载 2017-04-23 22:31:00 · 345 阅读 · 0 评论 -
对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2017-04-23 22:32:00 · 312 阅读 · 0 评论 -
深度学习在图像识别中的研究进展与展望
深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展,并探讨其发展趋势。1. 深度学习发展历史的回顾现有的深度学习模型属于神经网络。神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理转载 2017-05-05 16:33:25 · 5573 阅读 · 0 评论 -
干货|如何调试神经网络(深度神经网络)?
神经网络的调试基本上难于绝大多数的程序,因为大部分的神经网络的错误不会以类型错误或运行时错误显现,他们只是使得网络难以收敛。如果你是一个新人,这可能会让你非常沮丧。一个有经验的网络训练者可以系统的克服这些困难,尽管存在着大量似是而非的错误信息,比如:你的网络训练的不太好。对缺少经验的人来说,这个信息令人却步;但对有经验的人来说,这是一个非常好的错误消息。它意味着样板转载 2017-05-05 16:36:05 · 433 阅读 · 0 评论 -
公开的海量数据集 Public Research-Quality Datasets
海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。 相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机转载 2017-05-05 16:37:32 · 437 阅读 · 0 评论 -
入门级攻略:机器学习 VS. 深度学习
楔子: 机器学习和深度学习现在很火,你会发现突然间很多人都在谈论它们。如下图所示,机器学习和深度学习的趋势对比(来自Google trend,纵轴表示搜索热度): 本文将会以简单易懂的语言及示例为大家详细解释深度学习和机器学习的区别,并介绍相关用途。机器学习和深度学习简介机器学习 Tom Mitchell 关于机器学习的定义被广转载 2017-05-05 17:23:50 · 1582 阅读 · 0 评论 -
从入门到精通:卷积神经网络初学者指南
这是一篇向初学者讲解卷积神经网络的系列文章,机器之心编译了已经发表了的 Part 1 和 Part 2。此系列文章若有更新,机器之心依然会分享给大家。 Part 1:图像识别任务介绍卷积神经网络,听起来像是计算机科学、生物学和数学的诡异组合,但它们已经成为计算机视觉领域中最具影响力的革新的一部分。神经网络在 2012 年崭露头角,Alex Krizh转载 2017-04-25 11:36:51 · 442 阅读 · 0 评论 -
[大神贴]卷积:如何成为一个很厉害的神经网络
什么是卷积神经网络?又为什么很重要?卷积神经网络(Convolutional Neural Networks, ConvNets or CNNs)是一种在图像识别与分类领域被证明特别有效的神经网络。卷积网络已经成功地识别人脸、物体、交通标志,应用在机器人和无人车等载具。图1在上面的图1当中,卷积网络能够识别场景而系统可以自动推荐相关标签如“桥”、“铁路”、“网球”等。图2则展示了卷积网转载 2017-05-09 08:49:24 · 1336 阅读 · 0 评论 -
【机器学习】 Matlab 2015a 自带机器学习算法汇总
【引言】今天突然发现MATLAB 2015a的版本自带了许多经典的机器学习方法,简单好用,所以在此撰写博客用以简要汇总(我主要参考了MATLAB自带的帮助文档)。MATLAB每个机器学习方法都有很多种方式实现,并可进行高级配置(比如训练决策树时设置的各种参数),这里由于篇幅的限制,不再详细描述。我仅列出我认为的最简单的使用方法。详细使用方法,请按照我给出的函数名,在MATLAB中使用如下命转载 2017-08-15 22:42:17 · 1490 阅读 · 0 评论 -
深度学习与计算机视觉 看这一篇就够了
人工智能是人类一个非常美好的梦想,跟星际漫游和长生不老一样。我们想制造出一种机器,使得它跟人一样具有一定的对外界事物感知能力,比如看见世界。在上世纪50年代,数学家图灵提出判断机器是否具有人工智能的标准:图灵测试。即把机器放在一个房间,人类测试员在另一个房间,人跟机器聊天,测试员事先不知道另一房间里是人还是机器 。经过聊天,如果测试员不能确定跟他聊天的是人还是机器的话,那么图灵测试就通转载 2017-08-30 16:11:27 · 951 阅读 · 0 评论 -
近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning.《Deep Learnin转载 2017-08-30 16:17:40 · 6289 阅读 · 0 评论 -
当我们在谈论机器学习时我们到底在谈些什么
深度学习最近两年在音频分析,视频分析,游戏博弈等问题上取得了巨大的成果。由于微软,谷歌等科技巨头的推动及应用上的可见突破,使得深度学习成为目前学术界和工业界的超热门话题。包括国内很多公司也乐见其成,适时宣布自己的产品或算法也拥抱了深度学习。不过对于具体如何使用,达到了什么效果等问题讳莫如深。事实上,关于深度学习的大量研究成果在上世纪已经完成,包括卷积神经网络(CNN)、长短时记忆网络(LS转载 2017-08-30 16:19:24 · 786 阅读 · 0 评论 -
我爱机器学习网机器学习类别文章汇总
机器学习领域的几种主要学习方式From Stumps to Trees to ForestsKDD-2014 – The Biggest, Best, and Booming Data Science Meeting前景目标检测1(总结)行人检测5 Tips for Predictive Modeling SuccessSibyl: Google’s转载 2017-09-26 18:15:09 · 17096 阅读 · 2 评论 -
机器学习之正则化(Regularization)
1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠拟合(underf...转载 2018-12-14 12:23:20 · 572 阅读 · 2 评论