![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
前行的zhu
程序员小白的前行之路
展开
-
pytorch使用逻辑回归进行二分类并打印出模型参数
数据格式如下,第一列为标签,分别有0和1两个值;第2到4行分别为输入x的特征,也就是x有三个特征。代码如下:import torch # torch 是一种科学计算框架import torch.nn as nn # torch.nn 神经网络的接口import numpy as np # numpy 科学计算的软件包data = np.loadtxt("train.txt")n, l = data.shapefor j in range(1,l): meanVal = np.me原创 2020-07-10 17:16:53 · 886 阅读 · 0 评论 -
KNN伪代码(简易版和复杂版)
简单来写: def fit(train, k): self.train = train self.k = k def predict(test): # a. 从训练数据train中获取和当前数据test距离最近的k个样本 neighbors = fetch_k_neighbors(self.train, test, self.k) # b. 合并这K个最近样...原创 2019-11-17 20:26:17 · 1435 阅读 · 0 评论 -
一个实例讲透GBDT
GBDT(Gradient Boosting Regression Tree,梯度提升回归树)是Boosting算法的一种,但是和AdaBoost算法不同,区别如下:AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值,然后一轮一轮迭代;GBDT虽然也是迭代,但是GBDT要求弱学习器必须是CART回归树,而且GBDT在训练的时候,要求模型预测的样本损失尽可能的小。在GBDT的迭代中,...原创 2019-10-17 21:19:13 · 530 阅读 · 0 评论 -
logistic回归与softmax回归的区别与联系
logistic回归是机器学习中的经典分类方法,我们提到logistic回归一般多指二项logistic回归模型,由条件概率分布P(Y|X)表示,这里随机变量X取值为实数,随机变量Y取值为1或0.logistic回归模型源自logistic分布,其分布函数是Sigmoid函数。logistic模型是由输入的线性函数表示的输出的对数几率模型。如下图所示为Sigmoid函数表达式,也就是logis...原创 2019-09-16 15:26:59 · 1031 阅读 · 0 评论 -
理解主题模型LDA(这一篇就足够了)
潜在狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是一种基于贝叶斯算法,利用先验分布对数据进行似然估计并最终得到后验分布的一种常用的主题模型。LDA在文本数据挖掘,图像处理,生物信息处理等领域被广泛使用。LDA模型是文本集合的生成概率模型,假设每个文本由主题的一个多项分布表示,每个主题由单词的一个多项式分布表示,特别假设文本的主题分布的先验分布是狄利克雷分布,...原创 2019-09-03 16:52:24 · 3321 阅读 · 0 评论 -
哑编码(One-Hot),词袋法(BOW),词集法(SOW),词频--逆文档频率(TF-IDF)
哑编码(One-Hot):是一种将非数值型的特征值(或称为属性)转换为数值型的数据的编码方法。一般是将类别数据编码成为对应的数值数据以供后续的算法使用。使用哑编码保证了两两类别(假设类别间相互独立)间的空间距离是相等的,这样避免了人为引入额外的类别差异性,进而有利于后续(比如loss函数)的计算。描述过程为:假设某个变量的取值有k个(也即变量具有k个特征值或者说k个属性),如果对这些特征值用1到...原创 2019-08-27 17:13:10 · 3268 阅读 · 0 评论 -
两句话透彻理解HMM(隐马尔科夫模型)
HMM即隐马尔科夫模型,它是处理序列问题的统计学模型,描述过程为:由隐马尔科夫链随机生成不可观测的状态随机序列,然后各个状态分别生成一个观测,从而产生观测随机序列。HMM是关于时序的概率模型,描述一个含有含有未知参数的马尔科夫链所生成的不可观测的状态随机序列,再由各个状态生成观测随机序列的过程,HMM是一个双重随机过程——由马尔科夫链随机生成的不可观测的状态序列和由状态生成的随机的观测序列。另...原创 2019-08-26 15:08:24 · 179 阅读 · 0 评论 -
贝叶斯公式的简单理解
作者是看了csdn的一篇关于贝叶斯公式的博客结合自己的学习体验,于是想到了自己也可以适当输出一下,以作巩固,并把自己的理解添加进去以启迪后来者。先写出几个基本概念:1,联合概率:联合概率指的是包含多个条件且所有条件同时成立的概率,记作P(X=a,Y=b)或P(a,b)2,边缘概率:边缘概率是与联合概率对应的,P(X=a)或P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率...原创 2019-08-16 14:42:05 · 1380 阅读 · 0 评论 -
简单理解正则表达式
无意中在百度上浏览了一个机器之心的帖子新手上路:图文解读助你理解和使用正则表达式 ,看了感觉确实不错,对于新手来讲确实十分友好,于是想着输出一下加深印象,顺便也附上英文原文的链接,感兴趣的话可以看一下: Regex For Noobs (like me!) - An Illustrated Guide首先从定义上来将,正则表达式是一种定义搜索模式的字符序列,也就是说正则表达式本质是字符序列,目的...原创 2019-08-23 16:50:55 · 337 阅读 · 0 评论 -
马尔科夫性质,马尔科夫过程,马尔科夫链(简洁精炼描述)
马尔科夫性质:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,此性质即为马尔科夫性质。马尔科夫过程:具有马尔可夫性质的随机过程称之为马尔可夫过程。马尔科夫链:马尔科夫链是随机过程的一个数列,令随机过程{Xn, n = 0, 1, 2, . . . , }取有限或可数的正值,当Xn = i 时我们称该过程在时间n时的状态为i,而从状态i到状态j转移的概...原创 2019-08-07 12:42:05 · 4950 阅读 · 1 评论 -
KD tree如何查找最近邻
KD Tree是KNN算法中用于计算最近邻的快速便捷的方法,尤其适合当样本数量比较大的情况。KD Tree的构建方式比较简单,简单来说分为以下几步:一,确定根节点,在m个样本的n维特征中,分别计算n个特征的方差并对这n个方差做一个比较,使用方差最大的那个特征(假设是第k个特征的方差最大)nk作为根节点;二,确定划分点,然后对这m个样本的该特征值(nk)进行升序排列,找到中间那个值作为划分点,若...原创 2019-07-27 09:07:47 · 673 阅读 · 0 评论