刘星星儿-CSDN博客

原创图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp

Cora数据集(引文网络)由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。该数据集共2708个样本点，每个样本点都是一篇科学论文，所有样本点被分为8个类别，类别分别是：1）基于案例；2）遗传算法；3）神经网络；4）概率方法；5）强化学习；6）规则学习；7）理论每篇论文都由一个1433维的词向量表示，所以，每个样本点具有1433个特征。词向量的每个元素都对应一个词，且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中，取1表示在论文中。所有的词来源于一个具有1433个词的字典。每篇论文

2021-05-06 10:51:38 20938 12

原创 NIRec:An Efficient Neighborhood-based Interaction Model for Recommendation on Heterogeneous Graph

An Efficient Neighborhood-based Interaction Model for Recommendation on Heterogeneous Graph——一种基于邻域的异构图推荐交互模型异构信息网络G=(V,E)包括不同类型的对象和关系，每个对象属于一个特定的对象类型，每个关系属于一个特定的关系类型。比如说文献网络、社交媒体网络等。文献信息网络是一种典型的异构信息网络，包含了四种不同类型的对象：作者(A)，论文§，会议期刊©，关键词(K)。有多种链接类型连接不同类型的对

2021-05-05 20:11:42 863 2

原创论文笔记——NSHE:Network Schema Preserving Heterogeneous Information Network Embedding（网络模式保留的异质信息网络嵌入）

论文题目：Network Schema Preserving Heterogeneous Information Network Embedding许多现有的HIN嵌入方法采用元路径引导的随机游走来保持不同类型节点之间的语义和结构相关性(得到embedding)。然而，元路径的选择仍然是一个开放的问题，它要么依赖于领域知识，要么从标签信息中学习。在NSHE中，首先提出一种网络模式采样方法来生成子图(即模式实例)（图c和d中显示了一个例子，从中我们可以看到模式实例描述了这四个节点的高阶结构信息，以及两个节

2021-05-05 15:16:50 1990 1

原创 One-Hot Encoding（独热编码）通俗理解

由来机器学习任务中，特征有连续的值和分类的值；所以我们进行预处理时，对离散特征的编码分为了以下两种情况：1.像color[red,black,blue]这样离散特征的取值之间没有大小的意义，就可以使用one-hot编码；2.像size[S,M,L,XL]这样离散特征的取值有大小的意义，就直接使用数值的映射{S:1,M:2,L:3,XL:4}.这里借用一个比较常用的例子：考虑三个特征：[“male”, “female”][“from Europe”, “from US”, “from A

2020-11-19 20:12:47 1762 2

原创论文笔记----struc2vec: Learning Node Representations from Structural Identity（从结构标识中学习结点表示）

目录论文简介struc2vec: Learning Node Representations from Structural Identity（从结构标识中学习结点表示）论文简介对于传统的例如DeepWalk、LINE、SDNE等graph embedding方法都是基于近邻相似假设的；其中DeepWalk、Node2vec是通过窗口在walk长度以内的随机游走在图中对顶点序列进行采样拉来构造顶点的邻近集合的，LINE是构造邻接点对和顶点的距离为1的集合；上述算法对于远距离具有构造相似性的节点就无能为

2020-09-27 20:08:38 1213

原创论文笔记----LINE: Large-scale Information Network Embedding（大规模信息网络嵌入）

目录论文链接：[http://de.arxiv.org/pdf/1503.03578](http://de.arxiv.org/pdf/1503.03578)论文简介论文的主要成果相关工作问题定义算法介绍模型介绍一阶近似的LINE模型：二阶近似的LINE模型：模型优化实验数据集定量结果总结论文链接：http://de.arxiv.org/pdf/1503.03578论文简介论文主要研究的问题是将大型信息网络嵌入到低维向量空间中（即降维，将原本的高维空间转变为一个低维子空间），这个问题在可视化、节点分类

2020-09-23 19:34:50 1201

原创论文笔记----node2vec: Scalable Feature Learning for Networks（可扩展的网络特性学习）

目录论文链接简介本篇文章的四个主要贡献：两个预测任务：算法随机游走实验论文链接论文链接：https://arxiv.org/pdf/1607.00653.pdf简介node2vec的思想同DeepWalk一样：生成随机游走，对随机游走采样得到（节点，上下文）的组合，然后用处理词向量的方法对这样的组合建模得到网络节点的表示。不过在生成随机游走过程中做了一些创新。论文为node2vec: Scalable Feature Learning for Networks（可扩展的网络特性学习），是为了解

2020-09-20 11:13:05 1800

原创论文笔记----Network Dissection:Quantifying Interpretability of Deep Visual Representations（深层视觉表征的量化解释）

论文地址：https://arxiv.org/pdf/1704.05796.pdf论文提出了一种名为“Network Dissection”的通用框架，通过评估单个隐藏单元与一系列语义概念间的对应关系，来量化 CNN 隐藏表征的可解释性。这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签，这些概念包括物体、组成部分、场景、纹理、材料和颜色等。论文使用该方法测试了“单元的可解释性等同于单元的随机线性结合”的假设。该方法可以揭示 CNN 模型和训练

2020-09-15 16:46:28 620

原创最短路径算法----Dijkstra算法和Floyd算法

一、Dijkstra：有向正权图使用广度优先搜索，解决加权有向图或无向图的单源最短路径问题。算法最终得到一个最短路径树，我们可以得知由该点出发到其他所有点的最短路径情况；Dijkstra只能作用于权重为正的情况。当图里的所有路径权重都为1时，Dijkstra就等同于BFS。时间复杂度为O(n^2)。Dijkstra首先有一个初始点，先将这个初始点归为集合一，其他的结点归为集合二，每次访问到一个结点时，就将这个结点从集合二加入到集合一，就这样以广度优先遍历的加入，总保持从初始点到集合一中各结点的最短路径长

2020-09-12 16:58:31 395

原创论文笔记----DeepWalk: Online Learning of Social Representations（DeepWalk：在线学习社会表征）

DeepWalk论文笔记一．概述二．研究问题三．研究方法四．研究结果分析五．总结一．概述本文主要介绍了DeepWalk，这是一种用于学习网络中顶点的潜在表示的方法。论文的引言部分介绍了提出DeepWalk的原因：它是针对网络表示学习的稀疏性提出来的，网络表示学习的稀疏性虽然可以设计高效的离散算法，但是对于统计学习任务有一定难度。DeepWalk使用从截断的随机游走中获得的本地信息，得出一个网络的社会表示。DeepWalk还具有可扩展的优点，能够适应网络的变化。二．研究问题其次文章介绍了研究的问题，将

2020-08-27 20:35:08 760

原创 Tensorflow学习笔记----生成对抗网络GAN原理及实现

生成对抗网络（Generative Adversarial Networks，GAN）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。生成对抗网络模型主要包括两部分：生成模型(Generator) 和判别模型(Discriminator) 。生成模型是指我们可以根据任务、通过模型训练由输入的数据生成文字、图像、视频等数据。下图为一个典型的生成对抗网络，输入就是一副图像，会存在两个数据集，一个是真实数据集，另一个是生成模型造出来的；判别模型判断并输出就是一个概率值，用于判断真假使.

2020-08-25 17:28:47 670

原创 Tensorflow学习笔记----Auto-Encoders自动编码器原理及代码实现

这里写自定义目录标题有监督无监督Auto-Encoders概念Auto-Encoders变种：Denoising AutoEncoders(去噪AutoEncoders)Dropout AutoEncodersAdversarial AutoEncoders(对抗 AutoEncoders)Auto-Encoders代码实现有监督无监督我们在之前所学习的模型大多都是有监督学习，而Auto-Encoders是无监督的，我们先来理解有监督、无监督的概念。有监督学习（Supervised Learnin

2020-08-24 19:58:09 1175

原创 Tensorflow学习笔记----循环神经网络RNN原理及实现

循环神经网络（Recurrent Neural Network，RNN）是一类具有短期记忆能力的神经网络，在循环神经网络中，神经元不仅可以接受其他神经元的信息，还可以接受自身的信息，形成一个环路结构。在很多现实任务中，网络的输出不仅和当前的输入有关，也和过去一段时间的输出相关。从网络结构上，循环神经网络会记忆之前的信息，并利用之前的信息影响后面结点的输出。即：循环神经网络的隐藏层之间的结点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。常用于文本填充、时间序列、语音识别等序列

2020-08-23 14:27:06 398

原创 Tensorflow学习笔记----ResNet原理及实战

ResNet深度残差网络：我们之前学的所有网络似乎都有预示着更高的网络层数就会有更加好的训练和预测，但后来人们发现，网络的加深会造成梯度爆炸和梯度弥散、性能下降问题，为了解决这个问题，所以提出了ResNet。它的基本单元组成如下：假定某段神经网络的输入是x，期望输出是H(x)，即H(x)是期望的复杂潜在映射；我们需要使输入x近似于输出H(x)，以保持在后面的层次中不会造成精度下降。在上图的残差网络结构图中，通过“shortcut connections（捷径连接）”的方式，直接把输入x传到输出作为初

2020-08-22 21:21:00 672

原创 Tensorflow学习笔记----CIFAR100实战

本文主要是对cifar100数据集进行训练的实战。流程：Load Datasets -> Build Network -> Train -> Test使用十三层的网络结构进行训练：这里的十三层是由十层卷积层与三层全连接层组成的，代码如下所示：import tensorflow as tffrom tensorflow.keras import layers, optimizers, datasets, Sequentialimport osos.environ

2020-08-21 20:27:21 1104

原创 Tensorflow学习笔记----卷积神经网络（Convolutional Neural Network，CNN）

对于很多数据，一般的全连接层网络很难解决复杂的图片数据问题，存在着很多内存占用和计算能力的问题无法解决。而卷积神经网络是一种具有局部连接，权重共享等特性的深层前馈神经网络，卷积过程就是kernel 所有权重与其在输入图像上对应元素亮度之和。一般是由卷积层，汇聚层，全连接层交叉堆叠而成，使用反向传播算法进行训练。其有三个结构上的特征：局部连接，权重共享以及汇聚。这些特征使得卷积神经网络具有一定程度上的平移，缩放和旋转不变性。较前馈神经网络而言，其参数更少。这里的局部连接是相对于全连接来说的，全连

2020-08-20 21:33:13 406

原创 Tensorflow笔记----自定义网络、模型保存与加载

一．自定义网络（CustomNetwork）通过自定义的网络我们可以将一些现有的网络和我们自己的网络串联起来，从而实现各种高效的网络。Keras.Sequential：可以将现有的层跟我们自己的层串联在一起，也可以很方便的组织层的参数；不过我们要使用Sequential需要准守一些协议：1.我们自定义的层必须继承自Keras.layers.Layer；2.我们自己的模型需要继承自Keras.Model；model = Sequential([ #五层的网络的一个容器 layers

2020-08-20 21:03:09 1309

原创 Tensorflow学习笔记----Keras自定义网络实战

在之前，我们已经学习了Keras高层接口的应用，主要是compile()和fit()函数，前者装配模型，后者控制训练流程，十分的方便；networks.compile(optimizers = optimizers.Adam(lr=0.01),#定义优化器 loss = tf.losses.CategoricalCrossentropy(from_logits=True), #指定Loss metrics = ['accuracy'] #

2020-08-19 18:12:33 464

原创 Tensorflow学习笔记----Himmelblau函数优化、TensorBoard可视化、Keras高层接口

一．Himmelblau函数优化（FunctionOptimization）此函数为：图像如下所示：图上四个蓝点的最小值都是0（z轴，即函数值），分别为f(3.0,2.0)=0.0、f(-2.805,3.131)=0.0、f(-3.779,-3.283)=0.0、f(3.584,-1.848)=0.0；分别位于x-y平面的第一、二、三、四象限；我们先来自己画出这个函数图像：import tensorflow as tfimport numpy as npimport matplotlib.p

2020-08-19 17:59:59 505

原创 Tensorflow学习笔记----TensorBoard数据可视化安装与使用

安装：一般情况下现在的Tensorflow里是自动安装了Tensorboard的，可以直接使用，如果没有的话，就直接在命令行中输入activate tensorflow进入tensorflow环境，再输入pip install tensorboard安装即可；打开：运用一个生成可视化的py文件，在文件同目录下生成了一个log文件后，在这个目录进入命令行，输入tensorboard --logdir=logs，命令行会生成一个地址，直接进入就是tensorboard的界面啦，一般情况下这个地址是本机地址+6

2020-08-18 21:18:43 370

原创 Tensorflow学习笔记----FashionMnist线性层实战

之前我们有张量基础上对mnist手写数字集进行处理，现在我们要在“层”的基础上对FashionMnist进行处理。这样的话比起张量层要方便许多，对于“层”的方面，我们只需要使用layers.Dense()来进行封装五层网络从而降维，而不需要使用张量中的out = relu{relu{relu[X@W1+b1]@W2+b2}@W3+b3} ；此外求解梯度也会简单许多。在这里附上张量实现的连接：https://blog.csdn.net/weixin_43580130/article/details/10

2020-08-17 21:44:46 331

原创 Tensorflow学习笔记----损失函数、链式法则、反向传播

一．损失函数（LossFunction）MSE：loss = 1/NΣ( y - out )2#MSEy = tf.constant([1,2,3,0,2])y = tf.one_hot(y,depth=4)#独热编码指的是在分类问题中，将存在数据类别的那一类用X表示，不存在的用Y表示，这里的X常常是1， Y常常是0。y = tf.cast(y,dtype = tf.float32)out = tf.random.normal([5,4])#以下三种方式是求loss的不同方式print("

2020-08-17 16:03:12 733

原创 Tensorflow学习笔记----梯度下降

目录一．梯度（Gradient）的理解：二．激活函数（Activation Function）及其梯度：三．损失（Loss）函数及其梯度四．单输出感知机及其梯度五．多输出感知机及其梯度一．梯度（Gradient）的理解：导数：一维函数沿x轴的变动率；偏微分：二维函数沿各个方向的变动率；梯度：三维及以上函数沿各个方向的变动率，当函数沿某一方向的值突然变动很大时，它在这个方向的此数梯度就会大；可以利用梯度来寻找函数的最小值，即寻找全局最优，方法就是从任一点出发，然后重复朝着梯度的反方向（变小的方向

2020-08-15 21:36:39 412

原创 Tensorflow笔记----数据集加载、全连接层、输出方式

一．数据加载（DataLoading）Kreas.datasets：tensorflow提供的常用小型数据集；Tf.data.Dataset.from_tensor_slices：将数据变为tensor类型加载到内存中；from tensorflow.keras import datasets#mnist手写数字集(x,y),(x_test,y_test) = datasets.mnist.load_data() #(x,y)为训练集，(x_test,y_test)为测试集print("x

2020-08-14 20:15:52 569

原创 Tensorflow笔记----填充复制、数据限幅、高阶操作

一．填充与复制（FillAndCopy）tf.pad(a,[[x,y],[m,n]])：填充(一般值为0)，在a上面和下面分别填充x行和y行，左边和右边分别填充m列和n列可用于处理图像和文字，填充使格式整齐方便处理；a = tf.reshape(tf.range(9),[3,3])print(a)# tf.Tensor(# [[0 1 2]# [3 4 5]# [6 7 8]], shape=(3, 3), dtype=int32)print(tf.pad(a,[[1,0],[0,1]]

2020-08-14 19:43:35 347

原创 Tensorflow学习笔记----合并分割、数据统计、张量排序

一．合并与分割（MergeAndSplit）这里的合并于分割是基于张量提出的，所以我们要先理解一下张量是什么意思：张量：几何代数中的张量是基于向量和矩阵的推广，通俗一点理解，我们可以将标量视为零阶张量，矢量视为一阶张量，矩阵就是二阶张量。也就是说，我们可以将张量理解为n维数组。在Tensorflow中，张量其实就是tensor。0维张量/标量：标量是一个数字1维张量/向量：1维张量称为“向量”。2维张量：2维张量称为矩阵3维张量：公用数据存储在张量，如：文本数据、彩色图片(RGB)张量合并

2020-08-13 20:30:58 477

原创 Tensorflow学习笔记----维度变换、broadcasting、数学运算

一．维度变换**tf.reshape(a,[……])：**可以重新定义元素的shape以便数据被更好的利用#要保证reshape中[]中的所有值之积 = a的各维的数之积a = tf.random.normal([4,28,28,3])print(tf.reshape(a,[4,784,3]).shape) #out:(4,784,3)，4*28*28*3 = 4*784*3print(tf.reshape(a,[4,-1,3]).shape) #out:(4,784,3),这里-1相

2020-08-12 21:01:06 305

原创对于张量的通俗理解（Tensorflow中）

Tensorflow中，我们时常会提到张量，以下为Tensorflow中张量的通俗理解。张量：几何代数中的张量是基于向量和矩阵的推广，通俗一点理解，我们可以将标量视为零阶张量，矢量视为一阶张量，矩阵就是二阶张量。也就是说，我们可以将张量理解为n维数组。在Tensorflow中，张量其实就是tensor。0维张量/标量：标量是一个数字1维张量/向量：1维张量称为“向量”。2维张量：2维张量称为矩阵3维张量：公用数据存储在张量，如：mnist手写数字集中一张图片的表示为[28,28,3]...

2020-08-12 17:11:12 434

原创 Tensorflow学习笔记----前向传播实战(MNIST手写数字集)

在TensorFlow中，可以通过矩阵乘法的方法，实现神经网络的前向传播过程。a = tf.nn.relu(tf.matmul(x, w1)+b1)y = tf.nn.relu(tf.matmul(a, w2)+b2)在上面的代码中并没有定义w1、w2、b1、b2，TensorFlow可以通过变量(tf.Variable)，来保存和更新神经网络中的参数。比如通过下面语句可以定义w1：weights = tf.Variable(tf.random_normal([2, 3], stddev=2))这

2020-08-12 16:40:23 380

原创 Tensorflow学习笔记----数据类型、创建tensor、索引切片

一．数据类型List：对于list里面的数据没有类型限制，如[1 , 1.2 , ’hello’ , …]np.array：能够很方便的存储大量数据的图片数据，不过不支持gpu计算、自动求导等。tf.Tensor：没有上述两种的缺点。Tensor(广泛的概念):Scalar：标量，如1.1，是0维的数据，Dim=0Vector：向量，如[1.1] , [1.1,2.2,…]，是一维的，Dim=1Matrix：矩阵，如[[1.1,2.2],[3.3,4.4],[5.5,6.6]]是一个2×3的

2020-08-11 17:19:05 436

原创 Tensorflow2.0安装教程（CPU版本，windows环境）

首先我们需要安装Anaconda，这是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载文件是比较大的，要有一些耐心。这里推荐参考这个博客来安装Anaconda：https://blog.csdn.net/weixin_43715458/article/details/100096496具体不做赘述。Anaconda安装完成后，我们就可以来安装Tensorflow了，由于Tensorflow的GPU版本需要有nvidia显卡，而我没有n卡，所以在这里只能

2020-08-08 20:43:44 6283

原创机器学习十大算法实现代码汇总（python）----线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯、K邻近算法、K-均值算法、随机森林、降低维度算法、梯度增强算法

目录引入一、线性回归 (Linear Regression)二、逻辑回归 (Logistic Regression)三、决策树 (Decision Tree)四、支持向量机算法 (Support Vector Machine,SVM)五、K邻近算法（K-Nearest Neighbors，KNN）六、K-均值算法（K-means）七、朴素贝叶斯 (Naive Bayes)八、随机森林 (Random Forest)九、降低维度算法（Dimensionality Reduction）十、梯度增强算法Gradi

2020-08-06 17:47:00 4028

原创机器学习----降低维度（Dimensionality Reduction）算法原理及python实现

通常情况下，在收集数据集时会有很多的特征，这代表着数据是高冗余的表示，但是对于某个工程来说其实可能并不需要那么多的特征。所以就需要给数据进行降维（Dimensionality Reduction）。降维可以简化数据，使数据集更易使用，降低时间开销，而且能减少一部分噪音的影响，使最后的效果变好。目前，主要降维方法有：主成分分析法(Principal Component Analysis, PCA)、因子分析法(Factor Analysis)、独立成分分析(Independent Component

2020-08-06 17:26:13 2391

原创机器学习----随机森林 (Random Forest)算法原理及python实现

随机森林是一个高度灵活的机器学习方法，利用多个决策树对样本进行训练、分类并预测，主要应用于回归和分类场景。在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择（即引入随机特征选择）。简单来说，随机森林就是对决策树的集成，但随机森林中决策树的分类特征是在所有特征中随机选择的。随机森林中有许多的分类树。我们要将一个输入样本进行分类，我们需要将输入样本输入到每棵树中进行分类，森林中的每棵树都是独立的，学习器根据每棵树的预测结果来得出最终的结果，99.9%不相关的树做

2020-08-06 17:16:40 2111

原创机器学习----朴素贝叶斯 (Naive Bayes)算法原理及python实现

朴素贝叶斯算法是一种有监督的分类算法，可以进行二分类，或者多分类。基于概率论的贝叶斯定理，应用非常广泛，从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景，例如利用花瓣的长度和宽度来预测花的类型。“朴素”的内涵可以理解为特征和特征之间独立性强。算法python实现如下，共收集两个代码，代码1为使用iris数据集，仅输出预测准确率，代码2使用简单的文字词语，进行预测某些词语是否为垃圾邮件关键词。代码1 ：import numpy as npimport matplot

2020-08-06 17:07:34 2317

原创机器学习----K-均值（K-means）算法原理及python实现

K-均值是通过对数据集进行分类来聚类的，属于无监督学习，为聚类问题提供了一种解决方案。在数据集没有标注的情况下，便于对数据进行分群。而K-Means中的K即指将数据集分成K个子集合。算法把 n 个点（可以是样本的一次观察或一个实例）划分到 k 个集群（cluster），使得每个点都属于离他最近的均值（即聚类中心，centroid）对应的集群。重复上述过程一直持续到重心不改变。k均值类算法仅在凸形簇（类似于椭圆形）结构上效果较好。在如下图这种情况k均值效果不好：算法过程：输入为样本集D和聚类簇数k，输

2020-08-06 16:49:48 1463

原创机器学习----K邻近（K-Nearest Neighbors，KNN）算法原理及python实现

k近邻(k-Nearest Neihbor , kNN)学习就是一种常用的监督学习方法。它的工作机制：给定测试样本，基于距离度量找出训练集中与测试样本最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。K近邻算法通过在整个训练集中搜索 K个最相似的实例（欧氏距离最近的k个），并为所有这些K个实例分配一个公共输出变量，来对预测对象进行分类。属于有监督学习，是一种基于实例的学习，是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k 值是预测精度的一个关键因素，无论.

2020-08-06 16:37:38 1410

原创机器学习----支持向量机 (Support Vector Machine,SVM)算法原理及python实现

支持向量机（Support Vector Machine，SVM）是一种用于分类问题的监督算法。SVM模型将实例表示为空间中的点，将使用一条直线（超平面）分隔数据点，且是两类数据间隔（边距：超平面与最近的类点之间的距离）最大。只通过几个支持向量就确定了超平面，说明它不在乎细枝末节，所以不容易过拟合，但不能确保一定不会过拟合。可以处理复杂的非线性问题。如下图：H1 没有将这两个类分开。但 H2 有，不过只有很小的边距。而 H3 以最大的边距将它们分开了。python实现代码如下：from numpy

2020-08-06 11:49:33 2065

原创机器学习----决策树 (Decision Tree)算法原理及python实现

决策树（Decision tree）是一种特殊的树结构，由一个决策图和可能的结果（例如成本和风险）组成，用来辅助决策。决策树仅有单一输出，通常该算法用于解决回归和分类问题。机器学习中，决策树是一个预测模型，树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。在每个节点上，我们根据可用的特征询问有关数据的问题。左右分支代表可能的答案。最终节点（即叶节点）对应于一个预测值。每个特征的重要性是通过自顶向下方法确定的。节点越高，其.

2020-08-06 11:29:14 1928

原创机器学习----逻辑回归 (Logistic Regression)算法原理及python实现

逻辑回归（Logistic regression）与线性回归类似，但它是用于输出为二进制的情况（即，当结果只能有两个可能的值）。一般用于需要明确输出的场景，如某些事件的发生（预测是否会发生降雨）。通常，逻辑回归使用某种函数将概率值压缩到某一特定范围。对最终输出的预测是一个非线性的 S 型函数，称为 logistic function, g()。这个逻辑函数将中间结果值映射到结果变量 Y，其值范围从 0 到 1。然后，这些值可以解释为 Y 出现的概率。S 型逻辑函数的性质使得逻辑回归更适合用于分类任.

2020-08-05 22:13:53 2556

空空如也

空空如也