![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 58
xiaopihaierletian
这个作者很懒,什么都没留下…
展开
-
MLaPP Chapter 2 Probability 概率论
2.1 Introduction 简介对概率一般有两种理解(interpretations):frequentist interpretation, 这个层面上是说,概率可以看作是多次事件实验的发生的频率的逼近举个例子,假如进行很多次抛硬币实验,会发现最终硬币会出现正面的概率为0.5Bayesian interpretation, 贝叶斯派常把概率当做是量化事件不确原创 2017-10-04 22:24:27 · 1035 阅读 · 0 评论 -
MLaPP Chapter 1 Introduction
1.1 Machine Learning: what and why?由于现在处于信息爆炸的时代,机器学习的意义在于,发现数据中的模式,并用于新数据的预测之中。而本书则会偏向于概率论的角度来看待机器学习。1.1.1 Types of Machine Learning机器学习大概分成下面三种,有监督学习predictive or supervised method给定原创 2017-10-04 21:23:00 · 451 阅读 · 0 评论 -
MLaPP 读书笔记-概述
MLaPP 全称是 Machine Learning:A Probabilistic Prospective,是 2012 年出的一本讲机器学习的一本书。我在2017年秋季决定读这本书,但是只读前半部分基础的部分 。原书的封面见下图,我在读书的过程中,发现这本书的内容很难啃,但是干货很多,所以又不得不硬着头皮啃下去,只好边读书边写下笔记。感觉做笔记有很多的好处,用自己的话翻原创 2017-10-04 21:20:07 · 904 阅读 · 0 评论 -
数据预处理_数据归约03
概述 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同( 或几乎形同)的分析结果。注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。数据挖掘策略包括维归约、数量归约和数据压缩。 1) 维归约(dimensionlity):减少所考虑的原创 2017-06-12 19:57:13 · 1159 阅读 · 0 评论 -
数据预处理_数据集成02
概述 数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。1、实体识别问题数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。自数据集成时,有许多问题需要考虑。模式集成原创 2017-06-12 19:55:58 · 1113 阅读 · 0 评论 -
数据预处理_数据规范化04
概述 所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]原创 2017-06-12 19:57:42 · 701 阅读 · 0 评论 -
数据预处理_数据清理01
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 -原创 2017-06-12 19:49:53 · 1039 阅读 · 0 评论 -
相似度计算方式的总结:java或python实现代码
缘由这是之前定了的方案:我想要对比由不同相似度计算出来的歌曲相似度表,再由不同的歌曲相似度表来产生推荐列表,比较推荐列表中出现的我随机删除了的本来就被用户收藏了的歌曲的数量肯定有一种相似度计算公式最优根据原理分析为什么这种相似度方案最优即可产生理论,有了论据所以,现在我目标是总结常见的几种相似度计算方式的原理,并且利用mahout找到其实现的源代码,能够利用源代码做一些简答转载 2017-05-24 11:14:05 · 2002 阅读 · 0 评论 -
scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)
在工作中进行机器学习的数据一般都包含Nominal属性和Numric属性,在scikit-learn中提供了处理numric方法像Normalization方法等,也提供了处理Nominal的方法(OneHotEncoder方法)。本文将展示OneHotEncoder方法处理Nominal数据,并将数据应用到机器学习的流程。一、准备数据本文使用的数据是csv格式的,数据中的属性有N原创 2017-04-19 13:51:31 · 851 阅读 · 0 评论 -
scikit-learn:0.5. Choosing the right estimator(你的问题适合什么estimator来建模呢)
内容来自:http://scikit-learn.org/stable/index.html虽说特征很重要,其实选择合适的estimator也同样总要,这下可以方便参考了。。。。。Often the hardest part of solving a machine learning problem can be finding the right estimator原创 2017-04-20 22:58:53 · 665 阅读 · 0 评论 -
scikit-learn使用joblib持久化模型过程中的问题详解
在机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:[python] view plain copy原创 2017-04-19 13:21:55 · 1711 阅读 · 0 评论 -
scikit-learn:0.2. 加载自己的原始数据
这里不讨论加载常用的公用数据集,而是讨论加载自己的原始数据(即,实际中遇到的数据)http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.htmlsklearn.datasets.load_files(container_path, de原创 2017-04-19 14:04:43 · 1006 阅读 · 0 评论 -
scikit-learn:0.4.构建文本分类的“pipeline”简化分类过程、网格搜索调参
前两篇分别将“加载数据”和“提取tf、tf-idf,进而构建分类器”,其实这个过程,vectorizer => transformer => classifier,早已被“scikit-learn provides a Pipeline class”一下就可以搞定:本篇翻译:http://scikit-learn.org/stable/tutorial/text_analyti原创 2017-04-19 14:35:36 · 595 阅读 · 0 评论 -
scikit-learn:CountVectorizer提取tf都做了什么
http://scikitlearn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizerclass sklearn.feature_extraction.tex原创 2017-04-20 22:58:11 · 1296 阅读 · 0 评论 -
scikit-learn blog 参考
http://blog.csdn.net/mmc2015/article/category/5617969/1原创 2017-05-04 09:57:45 · 509 阅读 · 0 评论 -
scikit-learn:3.1. Cross-validation: evaluating estimator performance
参考:http://scikit-learn.org/stable/modules/cross_validation.htmloverfitting很常见,所以提出使用test set来验证模型的performance。给个直观的例子:[python] view plain copy>>> import numpy as原创 2017-05-04 09:56:44 · 557 阅读 · 0 评论 -
scikit-learn:0.3. 从文本文件中提取特征(tf、tf-idf)、训练一个分类器
上一篇讲了如何加载数据。本篇参考:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html主要讲解如下部分:Extracting features from text filesTraining a classifier原创 2017-04-19 14:15:53 · 459 阅读 · 0 评论 -
scikit-learn:3. Model selection and evaluation
参考:http://scikit-learn.org/stable/model_selection.html有待翻译,敬请期待:3.1. Cross-validation: evaluating estimator performance翻译文章参考:http://blog.csdn.net/mmc2015/article/details/4709927原创 2017-04-21 09:05:56 · 474 阅读 · 0 评论 -
scikit-learn:0. user_guide——需要学习的所有内容
内容来自:http://scikit-learn.org/stable/index.html1. Supervised learning1.1. Generalized Linear Models1.2. Linear and quadratic discriminant analysis1.3. Kernel ridge regression1原创 2017-04-17 09:09:18 · 522 阅读 · 0 评论 -
scikit-learn:0.1. 数据集格式和预测器
http://scikit-learn.org/stable/tutorial/statistical_inference/settings.html1、数据集:数据集都是2维的,第一维度是“样本维”,第二维度是“特征维”。>>> from sklearn import datasets>>> iris = datasets.load_iris()>>>原创 2017-04-17 09:11:32 · 418 阅读 · 0 评论 -
XGBoost Plotting API以及GBDT组合特征实践
XGBoost Plotting API以及GBDT组合特征实践写在前面:最近在深入学习一些树模型相关知识点,打算整理一下。刚好昨晚看到余音大神在Github上分享了一波 MachineLearningTrick,赶紧上车学习一波!大神这波节奏分享了xgboost相关的干货,还有一些内容未分享….总之值得关注!我主要看了:Xgboost的叶子节点位置生成新特征封装的函数。之前就看过转载 2017-04-21 10:15:38 · 1795 阅读 · 1 评论 -
xgboost入门以及windows下安装及使用二
如果看到上篇,xgboost没有安装成功的可以提问我,本文主要讲xgboost的测试例子,例子模仿别人的,但补充了很多,希望能帮到更多人![python] view plain copyimport sys,os sys.path.append('E:\\xgboost-master\\xgboost-master\\wrapper')原创 2017-04-20 10:39:37 · 585 阅读 · 0 评论 -
xgboost入门以及windows下安装及使用一
听说xgboost不仅运行速度快,而且集成了一系列算法,关于入门简介,可参考如下网址:http://cos.name/2015/03/xgboost/?replytocom=6610http://www.tuicool.com/articles/FNzI3aZ本文只是简介一下如何在windows下Python下安装及运行(1)首先配置好pytho原创 2017-04-20 10:38:42 · 503 阅读 · 0 评论 -
xgboost入门与实战(实战调参篇)
前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNIST data—手写数字识别,每个样本相当于一原创 2017-04-20 18:56:56 · 1034 阅读 · 0 评论 -
xgboost入门与实战(原理篇)
1.序 距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在最后的参考文献中会给出地址)2.xgboost vs gbdt转载 2017-04-20 17:04:59 · 2655 阅读 · 0 评论 -
深度学习(一)深度学习学习资料
原文地址:http://blog.csdn.net/hjimce/article/details/45421595作者:hjimce一、学习清单1、综合类(1)收集了各种最新最经典的文献,神经网络的资源列表:https://github.com/robertsdionne/neural-network-papers 里面包含了深度学习领域经典、以及最新最牛逼的转载 2017-06-29 15:38:28 · 385 阅读 · 0 评论 -
机器学习经典书籍
入门书单《数学之美》 PDF作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》(《集体智慧编程》)PDF作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《数据转载 2016-10-28 15:07:33 · 452 阅读 · 0 评论 -
机器学习实战笔记2(k-近邻算法)
1:算法简单描述 给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。2:python代码实现创建一个kNN.py文件,将核心代码放在里面了。(1) 创建数据[python] v原创 2016-09-19 20:47:58 · 687 阅读 · 0 评论 -
随机森林(Random Forest)入门与实战
前言集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务,主要包含两类,一是个体学习器间存在强依赖关系、必须串行生成的序列化方法,比如前几篇博文介绍提升学习方法、提升树GBDT 详解、xgboost等,主要思想是boosting迭代将弱学习器提升为强学习器;二是个体学习器之间不存在强依赖关系、可同时生成的并行化方法,该类的代表是bagging和随机森林原创 2017-04-20 22:49:38 · 4533 阅读 · 0 评论 -
scikit-learn主要模块和基本使用方法
从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。另附一个关于scikit-learn官网翻译版blog!!!引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。原创 2017-03-31 09:13:33 · 379 阅读 · 0 评论 -
统计学习方法笔记(8)——PAC可学习性
PACPAC可学习性 训练学习器的目标是,能够从合理数量的训练数据中通过合理的计算量可靠的学习到知识。 机器学习的现实情况: 1、除非对每个可能的数据进行训练,否则总会存在多个假设使得真实错误率不为0,即学习器无法保证和目标函数完全一致 2、训练样本是随机选取的,训练样本总有一定的误导性什么是PAC可学习的 弱化对学习器的要求: 1、我们不要求学习器输出零错原创 2016-11-20 15:49:00 · 1348 阅读 · 0 评论 -
统计学习方法笔记(8)——提升方法之前向分布算法和提升树
上一节讲解了Adaboost算法,下面我们要通过Adaboost的另一种解释引申到前向分布算法,进而通过上面这些引出提升树,最后学习梯度提升。Adaboost算法的另一种解释 Adaboost算法还有另一种解释,即:可以认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。前向分布算法原创 2016-11-20 15:28:31 · 1650 阅读 · 0 评论 -
≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(一)
在准备找工作阶段,借由巩固总结之前所学,恰好碰到这样一本书,简略看一下,顺便做个总结:前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人原创 2017-08-20 09:03:03 · 685 阅读 · 1 评论 -
伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布
1. 伯努利分布伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)。伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等如果试原创 2016-10-31 23:00:53 · 7966 阅读 · 0 评论 -
python - lightgbm相关实践
相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_models Anfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论 0.1 内存更小 0.2 速度更快 .原创 2020-10-13 14:37:27 · 1073 阅读 · 0 评论 -
【算法比赛】主流机器学习/深度学习模型代码模板
摘要最近又开始混乱且忙碌的科研学习,双十一过后,钱包空了,就再不想买买买了,打比赛的议程又提上来了,首先给大家分享两个非常非常非常好的repo,昨天晚上才发现的,又请教了一个博士点经验,踏踏实实准备,浮躁的心就能沉淀下来~更新最新最全的算法比赛信息:https://github.com/iphysresearch/DataSciComp各种比赛的top解决方案:https://github.com/Smilexuhc/Data-Competition-TopSolution一定要多交流多交原创 2020-10-12 16:28:44 · 525 阅读 · 0 评论 -
最大似然估计(MLE)和最大后验概率(MAP)
最大似然估计:最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。最大似然估计中采样需满足一个很重要的假设,就是转载 2016-10-24 11:07:52 · 438 阅读 · 0 评论 -
统计学习方法笔记(8)——提升方法之梯度树提升GTB(GBRT)
Introduction决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不太理想。模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,如random原创 2016-11-20 15:29:24 · 1356 阅读 · 0 评论 -
SVM支持向量机-拉格朗日,对偶算法的初解
许多地方得SVM讲得都很晦涩,不容易理解,最近看到一篇不错的博文写得很好,同时加上自己的理解,重新梳理一下知识要点http://blog.csdn.net/zouxy09/article/details/17291543一、引入SVM是个分类器。我们知道,分类的目的是学会一个分类函数或分类模型(或者叫做分类器),该模型能把数据库中的数据项映射到给定类别中原创 2016-11-10 20:59:24 · 1086 阅读 · 0 评论 -
light-gbm使用
转载自:https://www.cnblogs.com/wanglei5205/以后会补充自己的东西的~安装LGBpip install lightgbm验证是否安装成功:import lightgbm as lgb用案例#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on Sat Mar 31 21:19:09 2018@author: hello4720"""import numpy a.转载 2020-10-12 15:48:18 · 379 阅读 · 0 评论