机器学习
向阳争渡
这个作者很懒,什么都没留下…
展开
-
机器学习基础100天---day01 数据预处理
GitHub链接 GitHub有大神出的机器学习100天教程,仅在此记录下我的学习生活。数据预处理数据集 Country Age Salary Purchased 0 France 44.0 72000.0 No 1 Spain 27.0 48000.0 Yes 2 Germany 30.0 54000.0 ...原创 2018-09-11 21:51:58 · 405 阅读 · 0 评论 -
集成学习
集成学习的基本策略:BoostingBoosting是一种串行模式,主要代表算法有:Adaboost、GDBTBoosting的基本策略:先构建一个基学习器,新的学习器是在前面的基学习器的基础上生成的。基学习器之间存在依赖关系基本思路:先从初始训练集构建一个基学习器,所有数据集的样本都是等权重的;根据上一个学习器的结果调整样本权重,增加分类错误样本的曝光度(增大权重);基于调...原创 2019-03-12 21:21:16 · 291 阅读 · 0 评论 -
决策树、GDBT、Xgboost、LightGBM
决策树决策树的学习通常包含3个步骤:特征选择、决策树的生成、决策树的修剪决策树算法通常是递归地选择最优特征,并根据该特征对训练数据进行分割。特征选择选取对训练数据具有分类能力的特征。通常的准则是信息增益或者信息增益比。信息增益越大,表示该特征不确定性越强,越适合作为特征进行特征分类。决策树的裁剪决策树生成算法递归地选取最优特征产生决策树,知道不能继续下去为止。但是这样容易产...原创 2019-03-12 21:17:42 · 310 阅读 · 0 评论 -
机器学习100天---day06 NMF非负矩阵分解
NMF,非负矩阵分解。这种方法只能应用于每个特征都是非负的数据。基本思想:将大矩阵分解成两个小矩阵,使两个小矩阵相乘后能够尽可能的还原成大矩阵。公式为:Vn∗m=Wn∗k∗Hk∗mW矩阵:基础数据矩阵,相当于从V中抽取出K个特征,每一列表示一个特征,每行表示一个对象(比如:用户,图像像素);它们的值表示用户与这一特征的相关性;H矩阵:系数矩阵,表示系数m与特征k之间的关联。矩阵优化目标:...原创 2018-09-30 14:35:29 · 329 阅读 · 0 评论 -
机器学习100天---day05 主成分分析Python Numpy实现
#_*_coding:utf-8_*_'''PCA:降维''''''将数据转换为只保留前N个主成分特征空间1、去除平均值2、计算协方差矩阵3、计算协方差矩阵的特征值和特征向量4、将特征值排序保留前N个最大特征值对应的特征向量5、将数据转换到上面得到的N个特征向量构建的特征空间(实现了特征压缩)'''import numpy as npimport pandas as p...原创 2018-09-29 18:02:41 · 354 阅读 · 0 评论 -
机器学习100天---day07 k近邻
#!/usr/bin/env python# coding: utf-8# KNN 是一个简单的无显示学习过程,非泛化学习的监督学习模型。在分类和回归中均有应用。import numpy as npimport pandas as pdfrom sklearn.preprocessing import LabelEncoderimport matplotlib.pyplot as ...原创 2018-10-12 14:02:19 · 174 阅读 · 0 评论 -
机器学习基础100天---day02 简单线性回归模型
数据集: Hours,Scores 2.5,21 5.1,47 3.2,27 8.5,75 3.5,30 1.5,20 9.2,88 5.5,60 8.3,81 2.7,25 7.7,85 5.9,62 4.5,41 3.3,42 1.1,17 8.9,95 2.5,30 1.9,2...原创 2018-09-13 17:21:36 · 167 阅读 · 0 评论 -
机器学习基础100天---day03 多元线性回归
R&D Spend,Administration,Marketing Spend,State,Profit 165349.2,136897.8,471784.1,New York,192261.83 162597.7,151377.59,443898.53,California,191792.06 153441.51,101145.55,407934.54,Flor...原创 2018-09-14 11:29:13 · 297 阅读 · 0 评论 -
机器学习基础100天---day04 逻辑回归
该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV,我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以及他是否购买SUV的决定。...原创 2018-09-17 17:14:47 · 285 阅读 · 0 评论 -
sklearn 绘制多分类ROC曲线
from rasa_nlu.model import Interpreterfrom sklearn.metrics import precision_scorefrom sklearn.metrics import recall_scorefrom sklearn import metricsfrom sklearn.preprocessing import OneHotEncoder...原创 2019-06-14 14:08:30 · 5398 阅读 · 2 评论