Machine Learning
文章平均质量分 87
Wang_AI
这个作者很懒,什么都没留下…
展开
-
使用sklearn做特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。...转载 2016-05-06 15:10:17 · 11052 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit方法居然和模型训练方法fit同名(不光同名转载 2016-05-06 15:16:49 · 3122 阅读 · 0 评论 -
分类器性能评估之ROC和AUC(2)
ROC上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):Sensitivity(覆盖率,True Positive Rate)1-Specificity (Specificity,转载 2016-05-06 20:48:02 · 1549 阅读 · 0 评论 -
分类器性能评估之混淆矩阵(1)
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样转载 2016-05-06 20:45:05 · 4066 阅读 · 0 评论 -
分类器性能评估之Lift和Gain(3)
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵分类模型的性能评估——转载 2016-05-06 20:52:47 · 8548 阅读 · 0 评论 -
0.机器学习实战(Peter Harrington 著)笔记目录
从文本中构建文档向量In [1]:# create Data# postingList 表示切分后的文档集合 classVec表示类别标签集合def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],原创 2016-05-13 20:41:16 · 1628 阅读 · 0 评论 -
4.机器学习实战之朴素贝叶斯
返回目录上一篇:决策树1.简单理论介绍1.1 贝叶斯定理了解贝叶斯定理之前,需要先了解下条件概率。P(A|B)表示在事件B已经发生的条件下事件A发生的概率: P(A|B)=P(AB)P(B)daf afdfd假如我们已经知道了P(A|B),但是现在我们想要求P(B|A),也就是在事件A发生的条件下事件B发生的概率,这时贝叶斯...原创 2016-05-15 21:30:59 · 7214 阅读 · 1 评论 -
5.机器学习实战之Logistic回归
返回目录上一篇:朴素贝叶斯1. 简单理论介绍1.1 Sigmoid函数 在线性代数中都知道有一个单位阶跃函数,但是该函数在跳跃点上从0瞬间跳跃到1,这个瞬间跳跃过程有时很难处理,幸好有一个函数具有类似的性质,而且更容易处理,这就是Sigmoid函数。Sigmoid函数的计算公式如下: 输入一个z,得到的结果总在0~1之间。下面给出Sigmoid函数的原创 2016-07-24 23:11:29 · 1898 阅读 · 0 评论 -
机器学习中你不可不知的几个算法常识
本文是《机器学习宝典》第 2 篇,读完本文你能够掌握机器学习几个算法常识:欠拟合和过拟合、没有免费的午餐定理、偏差和方差以及贝叶斯误差。PS:文末附有练习题读完 机器学习基础 之后,你已经知道了到底什么是机器学习以及机器学习的学习任务。在这篇给大家介绍一些机器学习中必须要了解的几个算法常识,这些算法常识在之后从事机器学习方面研究和工作时是非常重要的。欠拟合与过拟合我们已经知道,我们...原创 2018-10-08 00:14:55 · 486 阅读 · 0 评论 -
一篇让文科生也能读懂机器学习的文章
本文是《机器学习宝典》第 1 篇,读完本文你能够掌握机器学习的基本常识!什么是机器学习对于没有经验的同学来说,直接给出一个关于机器学习的定义太不友好了,所以我们通过换个方式来说明到底什么是机器学习(machine learning)。当你看到路上有一堆密密麻麻的蚂蚁在搬家,心想快要下雨了,我得早点回家;当你在街道上看到一个眼睛蓝色、头发金色、鼻梁高挺的人,心想这肯定又是一个白种人老...原创 2018-09-18 22:17:24 · 757 阅读 · 0 评论 -
sklearn.pipeline.Pipeline类的用法
这一篇我会总结sklearn.pipeline.Pipeline。1、sklearn.pipeline.Pipeline类先给出官方的文档链接:http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.htmlclass sklearn.pipeline.Pipeline(steps)转载 2016-04-17 19:11:00 · 2404 阅读 · 0 评论 -
sklearn.preprocessing.PolynomialFeatures类的使用
在之前的代码中多次出现了使用sklearn.pipeline.Pipeline和sklearn.preprocessing.PolynomialFeatures这两个类。我在找相关资料的时候发现很少有写这方面的文章和博客。除了官网的英文文档,其实这个文档写的非常好。但考虑到自己的英文水平有限,于是想写点什么来记录这两个类。1、sklearn.preprocessing.PolynomialFe转载 2016-04-17 19:08:45 · 2459 阅读 · 0 评论 -
近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost 到随机森林、Deep Learning.《Deep Learnin转载 2016-04-18 17:23:35 · 1355 阅读 · 0 评论 -
常用的数据挖掘&机器学习知识(点)
原文鏈接:http://m.blog.csdn.net/article/details?id=39299913Basis(基础):MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Square Methods 最小二乘法),MLE(Maximum LikelihoodEstimation最大似然估计)转载 2016-04-18 17:31:32 · 725 阅读 · 0 评论 -
The Steps of Machine Learning with Python
开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。从哪里开始?本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?我假定本文的读者不是以转载 2016-04-28 19:02:47 · 725 阅读 · 0 评论 -
理解TF和TF-IDF
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作转载 2016-05-03 16:21:47 · 3021 阅读 · 0 评论 -
sklearn数据预处理
本文小编通过用sklearn的preprocessing模块来介绍常见的数据预处理方法。1. 标准化 (Standardization) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。>>> sklearn.preprocessing.scale(X) 一般会把train和转载 2016-05-03 16:30:30 · 1652 阅读 · 0 评论 -
应用机器学习建议
这篇文章是以Bremen大学机器学习课程的教程为基础的。本文总结了使用机器学习解决新问题的一些建议。包括:可视化数据的方法选择一个适合当前问题的机器学习方法鉴别和解决过拟合和欠拟合问题 处理大数据库问题(注意:不是非常小的) 不同损失函数的利弊本文以Andrew Ng的《应用机器学习的建议 | Advice for applying Machine Learning》为基础。这个笔转载 2016-05-03 17:24:35 · 1250 阅读 · 0 评论 -
Chapter1—Basic of Machine Learning
1 监督学习(supervised learn)与无监督学习(unsupervised learn)机器学习系统通常被看作是有无人类监督学习两种方式。监督学习问题是,从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习。而无监督学习是程序不能从已经标记好的数据中学习。它需要在数据中发现一些规律。假如我们获取了人的身高和体重数据,非监督学习的例原创 2016-05-03 18:19:42 · 6668 阅读 · 0 评论 -
2.机器学习实战之K-近邻算法
发原创 2016-05-13 20:44:16 · 1265 阅读 · 0 评论 -
3.机器学习实战之决策树
返回目录上一篇:k-近邻算法1.简单理论介绍 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。1.1 熵 设D为用类别对训练集进行的划分,则D的熵(entropy)表示为:其中...原创 2016-05-15 13:31:11 · 10187 阅读 · 0 评论 -
一份非常全面的机器学习分类与回归算法的评估指标汇总
本文是《机器学习宝典》第 3 篇,读完本文你能够掌握分类与回归算法的评估指标。PS:文末附有练习题读完机器学习算法常识之后,你已经知道了什么是欠拟合和过拟合、偏差和方差以及贝叶斯误差。在这篇给大家介绍一些机器学习中离线评估模型性能的一些指标。当我们训练得到了多个模型之后,如何衡量这几个模型的性能呢?也就是说我们需要一个能够衡量模型“好坏”的标准,我们称之为评估指标。在对比不同的模型...原创 2018-10-09 04:50:58 · 2737 阅读 · 0 评论