2018年11月_zhuwei0710

转载解决多标签分类问题(包括案例研究)

由于某些原因，回归和分类问题总会引起机器学习领域的大部分关注。多标签分类在数据科学中是一个比较令人头疼的问题。在这篇文章中，我将给你一个直观的解释，说明什么是多标签分类，以及如何解决这个问题。1.多标签分类是什么?让我们来看看下面的图片。如果我问你这幅图中有一栋房子，你会怎样回答? 选项为“Yes”或“No”。或者这样问，所有的东西(或标签)与这幅图有什么关系?在这些类...

2018-11-08 14:44:47 1842

转载从二分类到多分类的迁移策略

一般情况下问题研究为二分类问题，在解决多分类问题时有时可以直接推广到多分类，有时不能，不能推广的时候主要用三种拆分策略对问题进行研究一对一的策略给定数据集DD这里有NN个类别，这种情况下就是将这些类别两两配对，从而产生N(N−1)/2个二分类任务，在测试的时候把样本交给这些分类器，然后进行投票一对其余策略将每一次的一个类作为正例，其余作为反例，总共训练NN个分类器。测试的时候若仅有一个...

2018-11-08 14:44:18 1077

转载分类问题-----多标签（multilabel）、多类别（multiclass）

转自：大致上，解决multilabel的方法有两种1）转化问题。把问题转化为一个或多个单目标分类问题，或是回归问题。2）算法适应。修改学习算法使得能直接处理multilabel的数据。问题转化方法 dubbed PTx法。包括PT1 对有多标签的数据随机选取一个标签 PT2 直接把标签数大于1的都丢掉 PT3 对标签集合进行排列组合，即组合好的成为一个新...

2018-11-08 14:13:27 8477

转载 ROC曲线详解及matlab绘图实例

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种坐标图式的分析工具，用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议。ROC曲线首先是由二战中的电子工程师和雷达工程师发明的，用来侦测战场上的敌...

2018-11-08 11:53:59 17390 2

转载 AUC计算方法总结

一、roc曲线1、roc曲线：接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴：负正类率(false postive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(1-Specificity)纵轴：真正类率(true postive rate TPR)灵敏度，Sensitivity...

2018-11-08 11:41:43 1255

转载 ROC和AUC介绍以及如何计算AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点，以及更为深入地，讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision...

2018-11-08 11:01:46 418

文是研究者和整个学术界交流最重要的方式，其重要性强调再多也不为过。如何通过写作的方式将自己的想法、方法和科学发现以“简洁易懂、准确无误”地传达给读者，需要极为深厚的功力。笔者写本文的目的绝不是在吹嘘我是一个多好的写作者，恰恰相反，我的写作水平很差，包括表达能力、沟通能力都还需要进一步提高。我希望以写文章的方式总结写一篇好论文的要点，以便经常反省。如果你发现这篇文章恰好对你也有帮助，那再好不过了...

2018-11-08 10:54:57 5097

转载机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

在分类任务中，人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有一个普遍适用的称为混淆矩阵(confusion matrix)的工具，它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测，这个预测的三类问题的混淆矩阵如下表所示：一个三类问题的混...

2018-11-08 10:48:04 716

转载机器学习-浅谈模型评估的方法和指标

以处理流程为骨架来学习方便依照框架的充实细节又不失概要(参考下图机器学习处理流程的一个实例<<Python数据分析与挖掘实战>>),今天就充实一下模型评估(模型评价)的部分吧.图-1-机器学习处理流程实例本"故事"以<<Python数据分析与挖掘实战>>中预测用户是否窃漏电的例子来展开,自问自答,为什么要评估和怎么评估,具体的概念在...

2018-11-08 08:50:22 2118

转载什么是 ROC AUC

本文结构：什么是 ROC？怎么解读 ROC 曲线？如何画 ROC 曲线？代码？什么是 AUC？代码？ROC 曲线和 AUC 常被用来评价一个二值分类器的优劣。先来看一下混淆矩阵中的各个元素，在后面会用到：1. ROC ：纵轴为 TPR 真正例率，预测为正且实际为正的样本占所有正例样本的比例。横轴为 FPR 假正例率，预测为正但实际为负的样本占所有负例样本...

2018-11-08 08:47:38 1352

转载准确率（accuracy），精确率（Precision），召回率（Recall）和综合评价指标（F1-Measure ）

自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同，所以一般情况下推荐使用英文。现在我先假定一个具体场景作为例子：假如某个班级...

2018-11-07 14:04:24 2706

转载分类指标准确率(Precision)和正确率(Accuracy)的区别

第一个字母T和F代表true和false，是形容词。第二个字母代表P和N阴性阳性，positive和negative，是预测结果。所以现在翻译一下：TP: true positive, 正确的阳性，说明预测是阳性，而且预测对了，那么实际也是正例。TN: true negative, 正确的阴性，说明预测是阴性，而且预测对了，那么实际也是负例。FP: false positive, 假...

2018-11-07 08:55:21 16393 2

转载聊聊我的R语言学习路径和感受

作者：刘顺祥个人微信公众号：每天进步一点点2015 第一次接触R语言是我读研的时候，算到现在有5年多了。R语言可以算得上是我进入编程世界的启蒙语言，尽管在大学期间为了考试而被迫学习过计算机二级，但那真心是没有一丁点的兴趣可言。进入R的世界后，真的越来越喜欢，可以帮助我解决学术研究过程中的很多探索，最起码读研期间的所有小论文和毕业论文的案例分析都是通过R语言完成的。工作后，数据分析、可视...

2018-11-03 20:18:56 1356

CAD之路