机器学习
文章平均质量分 92
主要讲解机器学习领域的一些算法
葑歆
多积累
展开
-
聚类分析(超全超详细版)
聚类分析是一种典型的无监督学习, 用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律聚类算法在银行、零售、保险、医学、军事等诸多领域有着广泛的应用聚类分析基础聚类分析的概念聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是...原创 2020-04-20 20:50:31 · 214371 阅读 · 19 评论 -
梯度提升树(GBDT)
Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(boosting tree)系列算法。提升树系列算法里面应用最广泛的是梯度提升树(Gradient Boosting Decison Tree, 简称GBDT)GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradie...原创 2020-03-24 14:43:46 · 955 阅读 · 0 评论 -
生成模型与判别模型总结
生成模型,就是生成(数据的分布)的模型;判别模型,就是判别(数据输出量)的模型。生成式模型:朴素贝叶斯混合高斯模型隐马尔科夫模型(HMM)贝叶斯网络Sigmoid Belief Networks马尔科夫随机场(Markov Random Fields)深度信念网络(DBN)判别式模型:K近邻(KNN)线性回归(Linear Regression)逻辑斯蒂回归(Logistic Regression)神经网络(NN)支持向量机(SVM)高斯过程(Gaussian Proces.转载 2020-08-12 16:38:05 · 286 阅读 · 0 评论 -
选择合适的算法
如何选择合适的算法选择实际可用的算法,必须考虑下面两个问题:一、使用机器学习算法的目的,想要算法完成何种任务,比如是预测明天下雨的概率还是对投票者按照兴趣分组;二、需要分析或收集的数据是什么。首先考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如果目标变量是离散型,如是/否、1/...转载 2020-04-16 18:37:10 · 491 阅读 · 0 评论 -
随机森林
阅读这篇文章,先阅读些更通俗移动的文章:随机森林, 再阅读下面的内容,可直接阅读Bagging与随机森林算法原理小结集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。bagging:Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。...原创 2020-04-11 20:45:01 · 278 阅读 · 0 评论 -
scikit-learn的高级介绍
环境:Jupyter Notebook作者的github:https://github.com/glemaitre/pyparis-2018-sklearn翻译和整理:光城,黄海广A more advanced introduction to scikit-learnscikit-learn的高级介绍We will draw couple of plots during the tut...转载 2019-11-19 20:55:42 · 1400 阅读 · 0 评论 -
人工神经网络的一些基础知识
人工神经网络 人工神经网络(artificial neural network, ANN)是对神经网络的一种数学描述形式。我们经常用"神经网络"来称呼"人工神经网络"。它是由简单神经元经过相互连接形成网状结构,通过调节各连接的权重值改变连接的强度,进而实现感知判断。他的训练目的是希望能够学习到一个模型,...原创 2020-04-01 00:31:40 · 1383 阅读 · 0 评论 -
降维(PCA和LDA)
1. 主成分分析(PCA)1.1 主成分分析介绍PCA是最常用的无监督线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。它如果尽可能地把所有的点都映射到一起,那么几乎所有的区分信息都将丢失,而如果映射后方差尽可能的大,那么数据点则会分散开来,特征更加明显。PCA是丢失原始数据信息最少...原创 2020-03-28 22:58:10 · 4569 阅读 · 1 评论 -
朴素贝叶斯分类模型
朴素贝叶斯分类模型是一种简单的构造分类器的方法。朴素贝叶斯分类模型是将问题分为特征向量和决策向量,并假设问题的特征向量都是相互独立地作用于决策向量的,即问题的特征之间都是互不相关的。尽管有这样过于简单的假设,但朴素贝叶斯分类模型能指数级降低贝叶斯网络构建的复杂性,同时还能较好地处理训练样本的噪声和无关属性,所以朴素贝叶斯分类模型仍然在很多现实问题中有着高效的应用,例如入侵检测和文本分类等领域。目...原创 2020-03-28 15:49:21 · 1236 阅读 · 0 评论 -
随机子空间(RSM)
Random subspace method(RSM)又叫attribute bagging 或者 feature bagging,是集成学习的一种。随机子空间通过使用随机的部分特征而不是所有的特征来训练每个分类器,来降低每个分类器之间的相关性。类似bagging, bagging是随机使用部分训练数据,而Random subspace method是随机使用部分特征,因此Random subs...翻译 2020-03-27 15:01:13 · 7122 阅读 · 1 评论 -
机器学习评估方法
sklearn.metrics中的评估方法介绍(accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix)原创 2020-03-25 11:49:07 · 255 阅读 · 0 评论 -
GridSearchCV(网格搜索)
了解网格搜索,可以阅读:Python机器学习笔记 Grid SearchCV(网格搜索)GridSearchCV其实可以拆分为GridSearch和CV,即网格搜索和交叉验证。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数以随机森林为例说明GridSearch网格搜索中运行print(gsearch1.g...原创 2020-03-25 10:57:31 · 4233 阅读 · 0 评论 -
运行roc_auc_score(y_true, y_scores)报错
关于运行roc_auc_score(y_true, y_scores)报错:ValueError: multiclass format is not supported,原因在于ROC只能用于二分类问题,所以,对于多分类问题,我们不用ROC曲线去评估,可以选用accuracy_score进行评估另外,补充查询帮助,它有给出该函数的使用example:from sklearn.metrics i...原创 2020-03-24 16:02:40 · 5184 阅读 · 0 评论 -
SMOTE算法(处理非平衡数据)
在实际应用中,类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中,欺诈类观测在样本集中毕竟占少数;客户流失问题中,忠实的客户往往也是占很少一部分;在某营销活动的响应问题中,真正参与活动的客户也同样只是少部分。如果数据存在严重的不平衡,预测得出的结论往往也是有偏的,即分类结果会偏向于较多观测的类。为了解决数据的非平衡问题,2002年Chawla提出了SMOTE算法,即合成少...转载 2020-03-24 14:54:44 · 6219 阅读 · 1 评论 -
支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)属于有监督学习模型,主要用于解决数据分类问题。通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类,主要应用场景有图像分类、文本分类、面部识别和垃圾邮件检测等领域。支持向量机模型:在高维或无限维空间中构造超平面或超平面集合,将原有限维空间映射到维数高得多的空间中,在该空间中进行分离可能会更容易...原创 2020-03-19 16:17:24 · 864 阅读 · 0 评论 -
AdaBoost算法(附代码且代码超完整)
首先,阅读我写的这篇文章,需要先学习Adaboost算法相关原理个人推荐刘建平Pinard整理的下面两篇文章(因为代码编写根据这两篇文章来的)集成学习之Adaboost算法原理小结scikit-learn Adaboost类库使用小结理论上任何学习器都可以用于Adaboost。但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树,Adaboost分类用了...原创 2020-03-12 11:35:56 · 18339 阅读 · 5 评论 -
分类算法之决策树+集成学习(详细)
1.1. 决策树算法,是机器学习中的一个经典的监督式学习算法,被广泛应用F金融分析、生物学、天文学等多个领域1.2. 本节首先介绍决策树的ID3、C4.5、 C5. 0、CART 等常用算法,然后讨论决策树的集成学习,包括装袋法、提升法、随机森林、GBDT、 AdaBoost 等算法。决策树算法分支处理连续属性离散化过拟合问题分类效果评价集成学习装袋法提升法GBGT...原创 2020-03-10 19:39:40 · 5476 阅读 · 1 评论 -
解决reg:linear is now 和 Series.base is deprecated and will be removed in a future version报错信息
学习赵卫东老师的XGBoost树时,运用老师的代码报了三个错误,经过查询,把代码进行修改,以帮助也学习这门课的朋友们import pandas as pdimport xgboost as xgbdf = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]})X_train = df.drop('y',axis=1)Y_train = df['y']x...原创 2020-03-10 18:28:09 · 4193 阅读 · 0 评论 -
机器学习 --- 刘建平整理
刘建平Pinard的博客配套代码http://www.cnblogs.com/pinard 刘建平Pinard之前不少朋友反应我博客中的代码都是连续的片段,不好学习,因此这里把文章和代码做一个整理。代码有部分来源于网络,已加上相关方版权信息。部分为自己原创,已加上我的版权信息。目录机器学习基础与回归算法机器学习分类算法机器学习聚类算法机器学习降维算法机器学习集...转载 2020-02-19 14:55:39 · 3675 阅读 · 2 评论 -
机器学习的数据基础
数学基础知识文章目录数学基础知识高等数学线性代数行列式矩阵向量线性方程组矩阵的特征值和特征向量二次型概率论和数理统计随机事件和概率随机变量及其概率分布多维随机变量及其分布随机变量的数字特征数理统计的基本概念数据科学需要一定的数学基础,但仅仅做应用的话,如果时间不多,不用学太深,了解基本公式即可,遇到问题再查吧。以下是以前考研考博时候的数学笔记,难度应该在本科3年级左右。高等数学1.导数定...转载 2019-10-22 15:31:46 · 354 阅读 · 0 评论 -
特征工程之特征选择
特征工程之特征选择Python机器学习库SKLearn:数据集转换之特征提取原创 2019-08-10 19:32:50 · 247 阅读 · 0 评论 -
随机森林
大纲随机森林思想的提出随机森林的基本概念随机森林的结构随机森林的优缺点随机森林学习过程1. 随机森林思想的提出由于决策树(DT)会产生过拟合现象,导致泛化能力变弱,美国贝尔实验室大牛采用随机森林(RF)投票机制来改善决策树2. 随机森林的基本概念随机森林(Random Forests):是一个包含多个决策树的分类器,并且其输出的类别是由个别树输...原创 2019-05-19 22:59:09 · 536 阅读 · 0 评论 -
决策树----iris案例(代码)
from sklearn.datasets import load_irisfrom sklearn import preprocessingfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import e...原创 2019-05-01 12:00:38 · 3747 阅读 · 2 评论 -
监督学习里面的数据处理部分
#(1)数据准备import numpy as npfrom sklearn import preprocessingdata=np.array([[3,-1.5,2,-5.4],[0,4,-0.3,2.1],[1,3.3,-1.9,-4.3]])#(2)均值移除data_standardized=preprocessing.scale(data) #均值移除以保证均值为0以此来消除特...原创 2019-04-28 14:08:06 · 291 阅读 · 0 评论 -
线性回归器的创建(监督学习的线性回归内容)
# 创建线性回归器#(1)数据读取import sysimport numpy as npfilename=sys.argv[1]x=[]y=[]with open(filename,'r')as f: for line in f.readlines() : xt,yt=[float(i) for i in line.split(',')] x...原创 2019-04-28 14:05:53 · 170 阅读 · 0 评论 -
多项式回归+房价与房价尺寸关系的非线性拟合
#房价与房屋尺寸关系的非线性拟合(多项式回归)import numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_modelfrom sklearn.preprocessing import PolynomialFeatures as PFplt.rcParams['font.sans-serif']=...原创 2019-04-28 14:00:01 · 819 阅读 · 0 评论 -
线性回归——房价
#房价与房屋尺寸关系的线性拟合(线性回归)import numpy as npimport matplotlib.pyplot as pltfrom sklearn import linear_model#画图时有中文需要设置字体plt.rcParams['font.sans-serif']='SimHei'plt.rcParams['axes.unicode_minus']=Fal...原创 2019-04-28 13:54:23 · 816 阅读 · 1 评论 -
监督学习---决策树
决策树 (Decision Tree): 是一种树形归纳分类算法,通过对训练集数据的学习,挖掘出一定的规则,用于对测试集数据进行预测。决策树的学习目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。决策树的结构:决策树提供了一种展示在什么条件下会得到什么类别这种规则的方法.决策树包括:根节点,内部节点,分支和叶子节点, eg:每个内部结点代表对某个属...原创 2019-04-02 00:19:48 · 498 阅读 · 0 评论 -
python----机器学习练习题1
学习来源:http://fintech.ftwhale.com/home/courses/p08/lessons/ 机器学习部分1.# Step 1.从`sklearn.neighbors`导入`KNeighborsClassifier`。from sklearn.neighbors import KNeighborsClassifier# Step 2.为特征和目标变量创建数组`X`...原创 2019-05-10 16:11:55 · 2204 阅读 · 0 评论 -
python----机器学习练习题2
# Step 1.导入必要的模块。from sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matrix, classification_report# Step 2.创建训练集和测试集。X_train, X_test, y_train, y_test = train_...原创 2019-05-10 18:08:17 · 633 阅读 · 0 评论 -
TF-IDF实现、TextRank、jieba、关键词提取
关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank关键词:TF-IDF实现、TextRank、jieba、关键词提取数据来源:语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据数据处理参考前一篇文章介绍:介绍了文本关键词提取的原理...原创 2019-08-10 19:24:05 · 1837 阅读 · 0 评论 -
自然数编码(Label encoding)-----sklearn.preprocessing.LabelEncoder
sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统一转换成range(标签值个数-1)范围内In [5]: from sklearn import preprocessing ...: le =preprocessing.LabelEncoder() ...: le.fit(["paris", "paris", "tokyo", ...转载 2019-08-09 15:58:26 · 4295 阅读 · 0 评论 -
机器学习中的数据预处理---数据归一化
数据归一化数据归一化处理就是将所有数据都映射到同一尺度最值归一化均值方差归一化最值归一化最值归一化(normalization)把所有数据映射到0-1之间。使用这种标准化方法的原因是,有时数据集的标准差非常非常小,有时数据中有很多很多零(稀疏数据)需要保存住0元素。xscale=x−xminxmax−xminx_{scale}=\frac{x-x_{min}}{x_{max}...转载 2019-08-09 13:54:56 · 1393 阅读 · 1 评论 -
支持向量机
支持向量机:Support Vector Machines, SVM提纲:线性分类举例间隔与支持向量对偶问题线性不可分SVM核方法1. 线性分类举例(1)给定训练数据集,线性分类器最基本的想法是:在样本空间中寻找一个超平面,将不同类别的样本分开;而且,他的方法不止一两种,可以有很多很多的分类方法。eg:分类法1分类法2能将训练样本分开的超平面可...原创 2019-05-26 10:25:09 · 206 阅读 · 0 评论 -
降维---主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保留原始数据的信息。sklearn中主成分分析在sklearn库中,可以使用sklearn.decomposition.PC...原创 2019-05-16 20:29:08 · 606 阅读 · 0 评论 -
监督学习---线性回归
1.监督学习(supervised learning):在有标记样本上建立机器学习模型数据有标签、一般为回归或分类等任务2. 监督学习三要素:标注数据 => 学习模型 => 损失函数即:标识类别信息的数据=> 如何学习得到映射模型 => 如何对学习结果进行度量(预测值与真实值的差值)3. 分类和回归的区别:分类:要预测的目标函数是离散的;回归:要预测的目标函数是...原创 2019-04-01 20:53:14 · 563 阅读 · 0 评论