机器学习
文章平均质量分 75
刘星星儿
怕什么真理无穷,进一步有一步的欢喜。
展开
-
图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp
Cora数据集(引文网络)由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是:1)基于案例;2)遗传算法;3)神经网络;4)概率方法;5)强化学习;6)规则学习;7)理论每篇论文都由一个1433维的词向量表示,所以,每个样本点具有1433个特征。词向量的每个元素都对应一个词,且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。所有的词来源于一个具有1433个词的字典。每篇论文原创 2021-05-06 10:51:38 · 20751 阅读 · 12 评论 -
论文笔记----DeepWalk: Online Learning of Social Representations(DeepWalk:在线学习社会表征)
DeepWalk论文笔记一.概述二.研究问题三.研究方法四.研究结果分析五.总结一.概述本文主要介绍了DeepWalk,这是一种用于学习网络中顶点的潜在表示的方法。论文的引言部分介绍了提出DeepWalk的原因:它是针对网络表示学习的稀疏性提出来的,网络表示学习的稀疏性虽然可以设计高效的离散算法,但是对于统计学习任务有一定难度。DeepWalk使用从截断的随机游走中获得的本地信息,得出一个网络的社会表示。DeepWalk还具有可扩展的优点,能够适应网络的变化。二.研究问题其次文章介绍了研究的问题,将原创 2020-08-27 20:35:08 · 759 阅读 · 0 评论 -
机器学习十大算法实现代码汇总(python)----线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯、K邻近算法、K-均值算法、随机森林、降低维度算法、梯度增强算法
目录引入一、线性回归 (Linear Regression)二、逻辑回归 (Logistic Regression)三、决策树 (Decision Tree)四、支持向量机算法 (Support Vector Machine,SVM)五、K邻近算法(K-Nearest Neighbors,KNN)六、K-均值算法(K-means)七、朴素贝叶斯 (Naive Bayes)八、随机森林 (Random Forest)九、降低维度算法(Dimensionality Reduction)十、梯度增强算法Gradi原创 2020-08-06 17:47:00 · 3985 阅读 · 0 评论 -
机器学习----降低维度(Dimensionality Reduction)算法原理及python实现
通常情况下,在收集数据集时会有很多的特征,这代表着数据是高冗余的表示,但是对于某个工程来说其实可能并不需要那么多的特征。所以就需要给数据进行降维(Dimensionality Reduction)。降维可以简化数据,使数据集更易使用,降低时间开销,而且能减少一部分噪音的影响,使最后的效果变好。目前,主要降维方法有:主成分分析法(Principal Component Analysis, PCA)、因子分析法(Factor Analysis)、独立成分分析(Independent Component原创 2020-08-06 17:26:13 · 2366 阅读 · 0 评论 -
机器学习----随机森林 (Random Forest)算法原理及python实现
随机森林是一个高度灵活的机器学习方法,利用多个决策树对样本进行训练、分类并预测,主要应用于回归和分类场景。在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择(即引入随机特征选择)。简单来说,随机森林就是对决策树的集成,但随机森林中决策树的分类特征是在所有特征中随机选择的。随机森林中有许多的分类树。我们要将一个输入样本进行分类,我们需要将输入样本输入到每棵树中进行分类,森林中的每棵树都是独立的,学习器根据每棵树的预测结果来得出最终的结果,99.9%不相关的树做原创 2020-08-06 17:16:40 · 2090 阅读 · 0 评论 -
机器学习----朴素贝叶斯 (Naive Bayes)算法原理及python实现
朴素贝叶斯算法是一种有监督的分类算法,可以进行二分类,或者多分类。基于概率论的贝叶斯定理,应用非常广泛,从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景,例如利用花瓣的长度和宽度来预测花的类型。“朴素”的内涵可以理解为特征和特征之间独立性强。算法python实现如下,共收集两个代码,代码1为使用iris数据集,仅输出预测准确率,代码2使用简单的文字词语,进行预测某些词语是否为垃圾邮件关键词。代码1 :import numpy as npimport matplot原创 2020-08-06 17:07:34 · 2302 阅读 · 0 评论 -
机器学习----K-均值(K-means)算法原理及python实现
K-均值是通过对数据集进行分类来聚类的,属于无监督学习,为聚类问题提供了一种解决方案。在数据集没有标注的情况下,便于对数据进行分群。而K-Means中的K即指将数据集分成K个子集合。算法把 n 个点(可以是样本的一次观察或一个实例)划分到 k 个集群(cluster),使得每个点都属于离他最近的均值(即聚类中心,centroid)对应的集群。重复上述过程一直持续到重心不改变。k均值类算法仅在凸形簇(类似于椭圆形)结构上效果较好。在如下图这种情况k均值效果不好:算法过程:输入为样本集D和聚类簇数k,输原创 2020-08-06 16:49:48 · 1448 阅读 · 0 评论 -
机器学习----K邻近(K-Nearest Neighbors,KNN)算法原理及python实现
k近邻(k-Nearest Neihbor , kNN)学习就是一种常用的监督学习方法。它的工作机制:给定测试样本,基于距离度量找出训练集中与测试样本最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。K近邻算法通过在整个训练集中搜索 K个最相似的实例(欧氏距离最近的k个),并为所有这些K个实例分配一个公共输出变量,来对预测对象进行分类。属于有监督学习,是一种基于实例的学习,是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k 值是预测精度的一个关键因素,无论.原创 2020-08-06 16:37:38 · 1385 阅读 · 0 评论 -
机器学习----支持向量机 (Support Vector Machine,SVM)算法原理及python实现
支持向量机(Support Vector Machine,SVM) 是一种用于分类问题的监督算法。SVM模型将实例表示为空间中的点,将使用一条直线(超平面)分隔数据点,且是两类数据间隔(边距:超平面与最近的类点之间的距离)最大。只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。如下图:H1 没有将这两个类分开。但 H2 有,不过只有很小的边距。而 H3 以最大的边距将它们分开了。python实现代码如下:from numpy原创 2020-08-06 11:49:33 · 2039 阅读 · 0 评论 -
机器学习----决策树 (Decision Tree)算法原理及python实现
决策树(Decision tree) 是一种特殊的树结构,由一个决策图和可能的结果(例如成本和风险)组成,用来辅助决策。决策树仅有单一输出,通常该算法用于解决回归和分类问题。机器学习中,决策树是一个预测模型,树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。在每个节点上,我们根据可用的特征询问有关数据的问题。左右分支代表可能的答案。最终节点(即叶节点)对应于一个预测值。每个特征的重要性是通过自顶向下方法确定的。节点越高,其.原创 2020-08-06 11:29:14 · 1896 阅读 · 0 评论 -
机器学习----逻辑回归 (Logistic Regression)算法原理及python实现
逻辑回归(Logistic regression) 与线性回归类似,但它是用于输出为二进制的情况(即,当结果只能有两个可能的值)。一般用于需要明确输出的场景,如某些事件的发生(预测是否会发生降雨)。通常,逻辑回归使用某种函数将概率值压缩到某一特定范围。对最终输出的预测是一个非线性的 S 型函数,称为 logistic function, g()。这个逻辑函数将中间结果值映射到结果变量 Y,其值范围从 0 到 1。然后,这些值可以解释为 Y 出现的概率。S 型逻辑函数的性质使得逻辑回归更适合用于分类任.原创 2020-08-05 22:13:53 · 2513 阅读 · 0 评论 -
机器学习----线性回归 (Linear Regression)算法原理及python实现
线性回归(Linear Regression) 可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。线性模型:给定由d个属性描述的示例,线性模型试图学得一个通过属性的线性组合来进行预测的函数。f(x) = wTx+b线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记,公式:f(xi) = wxi + b,使得f(xi) ≈ yi我们的任务就是求出w和b,可用均方误差最小化的方法,基于均方误差最小化来进行模型求解的方法称为最小二乘法,在线性回.原创 2020-08-05 21:51:12 · 3396 阅读 · 2 评论 -
机器学习----第十一章特征选择与稀疏学习 学习笔记
目录子集搜索与评价过滤式选择包裹式选择嵌入式选择与L1正则化稀疏表示与字典学习压缩感知子集搜索与评价我们先来理解以下概念:相关特征:对当前学习任务有用的属性;无关特征:对当前学习任务无用的属性;特征选择:从给定的特征集合中选择出相关特征子集的过程,相当于直接在属性操作上降维,但是过程中必须保证不丢失重要特征。为什么要进行特征选择?原因:①为了解决属性过多导致的维数灾难问题;②去除不相关的特征往往会降低学习任务的难度。要在初始的特征集合中选取一个包含了所有重要信息的特征子集,我们必须要避免遭原创 2020-08-03 20:19:51 · 881 阅读 · 0 评论 -
机器学习----第十章降维与度量学习 学习笔记
目录k近邻(k-Nearest Neihbor , kNN)学习低维嵌入主成分分析(Principal Component Analysis , PCA)核化线性降维流形学习(manifold learning)等度量映射(Isometric Mapping , Isomap)局部线性嵌入(Locally Linear Embedding , LLE)度量学习(metric learning)k近邻(k-Nearest Neihbor , kNN)学习首先我们先来理解**“有监督学习”**:对具有概念标原创 2020-08-02 21:20:37 · 1227 阅读 · 0 评论 -
机器学习----流行学习(manifold learning)的通俗理解
流形学习(manifold learning)是一类借鉴了拓扑流行概念的降维方法,在降维时,若低维流行嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去十分复杂,但在局部上仍具有欧式空间(对现实空间的规则抽象和推广)的性质。我们先来理解流形: 流形(manifold)是一般几何对象的总称,包括各种维度的曲线与曲面等,和一般的降维分析一样,流形学习是把一组在高维空间中的数据在低维空间中重新表示。不同之处是,在流形学习中假设:所处理的数据采样与一个潜在的流形上,或者说对于这组数据存在一个潜在的流形。为原创 2020-08-02 17:30:35 · 11336 阅读 · 4 评论 -
机器学习-----有监督学习和无监督学习
通俗的理解有监督学习和无监督学习有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对样本集外的数据进行标记(分类)预测,相当于有明确的分类目标。有监督学习可分为回归和分类。通俗的来说:有监督学习就是训练样本的标记信息是已知的,我们完成一个分类任务时,我们是知道要分为哪些类的,只是对数据进行提取属性再直接分类就好。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识,所有的标记(分类)都是未知的。无监督学习的典型就是聚类。通俗的来说:无监督学习就是训练原创 2020-07-31 21:17:20 · 2425 阅读 · 0 评论 -
密度聚类与层次聚类的基本概念理解
密度聚类密度聚类也称为基于密度的聚类,此算法假设聚类结构能够通过样本分布的紧密程度确定。DBSCAN是一种著名的密度聚类算法,它基于一组邻域(对于xj,其邻域包含的样本集与xj的距离不大于ε)参数来刻画样本分布的紧密程度。先理解以下概念:核心对象:对于xj,它的邻域中必须至少包含m个样本,则xj是一个核心对象(邻域足够大);密度直达:xj位于xi的邻域中,且xi是核心对象,则xj由xi密度直达;密度可达:对于x1,x2与x3,x1为核心对象的邻域里有x2,x2为核心对象的邻域里有x3,则x3可由原创 2020-07-31 20:45:32 · 709 阅读 · 0 评论 -
几种主要的原型聚类----k均值(k-means)、学习向量量化(LVQ)、高斯混合聚类(Mixture-of-Gaussian)
引入原型聚类也称为基于原型(样本空间中具有代表性的点)的聚类,通常算法先对原型进行初始化,然后对原型进行迭代更新求解,采用不同的原型表示、不同的求解方式,将产生不同的算法。K均值(K-means)算法针对聚类所得簇划分最小化平方误差E(具体公式见P202),式子在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度,E越小则簇内样本相似度越高。k均值类算法仅在凸形簇(类似于椭圆形)结构上效果较好。由于最小化式子E并不容易,找到它的最优解需要考查样本集D的所有可能划分,这是一个NP问题。K均值算法采用原创 2020-07-31 20:45:04 · 2180 阅读 · 0 评论 -
机器学习----第九章聚类 学习笔记
文章目录引入性能度量距离计算原型聚类K均值(K-means)学习向量量化(Learning Vector Quantization,LVQ)高斯混合聚类(Mixture-of-Gaussian)(有点难理解)密度聚类层次聚类引入首先我们先来理解“无监督学习”:它是指训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。通俗来讲就是,当我们想要完成一个分类任务时,我们完全不知道应该分为几类,具体的类别也是未知的。无监督学习中研究最多、应用最广的就是“聚类”(cluste原创 2020-07-31 20:44:42 · 1446 阅读 · 0 评论 -
玻尔兹曼机(Boltzmann机)和深度置信网络基本概念
玻尔兹曼机(Boltzmann机)是一种随机神经网络,借鉴了模拟退火思想。普通玻尔兹曼机是一种递归神经网络,受限玻尔兹曼机则不是。它具有一定的“爬山能力”(跳出局部最优)。Boltzmann机是一种“基于能量的模型”,其为网络状态定义一个“能量”,当能量最小化时网络达到理想状态。它的特点是:两层结构,显层与隐层,显层即代表输入也代表输出,隐层则被理解为数据的内部表达;神经元是布尔型。深度置信网络(Deep Belief Networks)DBN算法是神经网络的一种,既可以用于非监督学习,也可以用于监督学原创 2020-07-30 17:14:32 · 1217 阅读 · 0 评论 -
几种主要的神经网络----全连接神经网络、前馈神经网络、卷积神经网络、循环神经网络
几种主要的神经网络一、全连接神经网络二、前馈神经网络(Feedforward neural network,FNN)三、卷积神经网络(Convolutional Neural Network,CNN)四、循环神经网络(Recurrent neural network,RNN )一、全连接神经网络顾名思义,全连接神经网络中,对n-1层和n层而言,n-1层的任意一个节点,都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候,激活函数的输入是n-1层所有节点的加权,这个激活函数是非线性的。它的缺点就是原创 2020-07-29 22:18:12 · 22751 阅读 · 0 评论 -
机器学习----第五章神经网络 学习笔记
引入原创 2020-07-27 21:32:13 · 2568 阅读 · 0 评论 -
机器学习----第四章决策树 学习笔记
引入决策树希望从给定训练数据集学得一个模型用以对新示例进行分类。一棵决策树的根节点包含的是样本全集,内部结点表示各种判断元素,每个节点的连接路径对应一个判断测试序列,叶子结点即表示分类结果。决策树是基于树结构来进行决策的,看起来比较简单,但在实际操作过程中,不仅要考虑要将数据的哪些属性纳入决策树判断来,而且要考虑这些属性在决策树中作用的先后顺序。划分选择如何选择最优属性,我们可以由信息熵及信息增益来得出。其中,熵就相当于对于一种事物的不确定性;信息就是一种可以调整概率/排除干扰/清楚不原创 2020-07-25 17:55:38 · 208 阅读 · 0 评论 -
机器学习----第三章线性模型 学习笔记
引入线性模型:给定由d个属性描述的示例,线性模型试图学得一个通过属性的线性组合来进行预测的函数。f(x) = wTx+b线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记,公式:f(xi) = wxi + b,使得f(xi) ≈ yi方法我们的任务就是求出w和b,可用均方误差最小化的方法,基于均方误差最小化来进行模型求解的方法称为最小二乘法,在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到达直线的欧氏距离最小。除了利用线性模型进行回归学习,也可以利用线性模型处理分类任务,我原创 2020-07-24 20:26:06 · 353 阅读 · 0 评论 -
机器学习----对于信息熵和信息增益的理解(基于决策树)
引入在了解信息熵和信息增益之前我们先明确以下几个概念:1.信息:某人(模型)判断一个宏观态属于哪个微观态时对我们判断有所帮助的物理量,以上简单来说就是信息就是分类时有用的东西。它的作用有调整概率、排除干扰、确定某种情况等。2.概率:某件事(宏观态)属于某个情况(微观态)的确定性。3.熵:某人(模型)对于某件事(宏观态)属于某个情况(微观态)的不确定性。决策树由于信息熵和信息增益在决策树中是个较为重要的应用,所以我们在这里先介绍决策树。决策树希望从给定训练数据集学得一个模型用以对新示例进行分类原创 2020-07-24 20:08:05 · 1129 阅读 · 0 评论