- 博客(27)
- 收藏
- 关注
原创 文本分类TextRNN_Att模型(pytorch实现)
TextRNN_Att模型在TextRNN的基础上添加了Attention模块 使提取到的特征更具针对性
2024-05-15 20:54:44
1058
原创 TextCNN网络详解(pytorch实现文本分类)
textcnn网络在NLP文档分类任务上有较好的性能,让我们来了解一个TextCNN的网络结构及pytorch代码实现
2024-05-13 16:45:52
1069
原创 深度学习pytorch之dataclass
为了解释Dataclass,我们可以自己实现一个类,然后通过@dataclass装饰器来实现同样的功能,这个类能够存储一个数字,拥有比大小的功能。通过上面,很明显使用dataclass装饰器,很大程度上减少了代码量,很方便。除了上面的整型外,还可以使用其他的类型,包括自己定义的数据类型。深度学习pytorch之@dataclass。
2023-10-09 20:59:19
137
原创 ERNIE 3.0知识增强大模型
Ernie3.0框架,试图对包括大量纯文本和知识图谱在内的大规模无监督语料进行预训练,此外,为了是model学到更多的有价值的词汇、句法和语义信息组成的不同层次的知识,其中预训练任务分布在三个任务范式中,即自然语言理解、自然语言生成和知识提取,因此,ERNIE 3.0创新性地设计了一个连续的多范式统一预训练框架,以实现多任务范式间的协同预训练。ERNIE 3.0,使不同的任务范式能够共享在一个共享网络中学习的底层抽象特征,并分别利用在他们自己的特定任务网络中学习的特定任务顶层具体特征。
2023-09-25 15:52:20
272
1
原创 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(论文解读)
but also片段递归机制(segment-level recurrence mechanism )相对位置编码机制(relative positional encoding)提升了序列的长期依赖能力(capturing longer-termdependency)解决了上下文碎片问题(context segmentation problem)提升模型的预测速度和准确率。
2023-09-22 18:24:00
141
原创 经典卷积神经网络LeNet
softmax层:(84,10)模型的初衷是为了做数字识别故最后是10分类。5)的卷积核,卷积之后图片变为(32-5+2。5)的卷积核,卷积之后图片变为(14-5+2。0+1)/1=10,所以图片的大小为(16。1)的卷积核,卷积之后图片变为(5-1+2。0+1)/1=28,所以图片的大小为(6。0+1)/1=5,所以图片的大小为(16。32),通过6个形状为(1。14),通过16个形状为(6。2),故图片大小变为(16。28),池化核大小为(2。10),池化核大小为(2。5),16个形状为(16。
2023-08-21 17:19:38
109
1
原创 VGGNet------超经典神经网络结构与PyTorch实现
times$2的MaxPooling,并没有出现AlexNet中的11x11卷积核、5x5卷积核、3x3 MaxPooling等较大卷积和池化操作。2、VGGNet中是在卷积神经网络中使用1x1卷积核,见网络结构C中。1x1的卷积层的主要意义在于非线性变换和降维,在这里则是非线性变换。\times$3的卷积核,stride,输入输出高和宽度不变。但输出通道是输入通道的2倍。1、VGGNet基本上采用的都是3$\times。,每次高和宽度都减半。
2023-08-05 21:30:19
147
2
原创 AlexNet网络结构详解(含各层维度大小计算过程)与PyTorch实现
以往池化的大小PoolingSize与步长stride一般是相等的,例如:图像大小为256*256,PoolingSize=2×2,stride=2,这样可以使图像或是FeatureMap大小缩小一倍变为128,此时池化过程没有发生层叠。2.激活函数:ReLU。256)卷积核,padding=1,stride=1,所以经过变化(13-3+2。384)卷积核,padding=1,stride=1,所以经过变化(13-3+2。834)卷积核,padding=1,stride=1,所以经过变化(13-3+2。
2023-08-05 18:54:41
4465
1
原创 pytorch 小功能之TensorDataset和DataLoader
一起用(批量处理数据),把数据划分为相同大小(除了最后一个。的作用是将数据打包,一般个。类型的数据绑在一起。
2023-07-31 18:10:31
288
1
原创 BERT参数计算,RBT3模型结构
Bert沿用了惯用的全连接层大小设置,即4 * dmodle = 3072,其中用到了两个参数W1,W2,其中W1(768,3072),W2(3072,768),b1(768,1),b2(3072,1)。的模型由多层双向的Transformer编码器组成,由12层组成,768隐藏单元,12个head,总参数量110M,约1.15亿参数量。解释:m为输入的单词的数量,768位每个词的维度,64是因为分成了12个head(768/12)。:词汇量的大小为30522,每个词都是768维,共30522*768。
2023-07-21 13:12:10
972
1
原创 决策树(ID3,C4.5,CART)
ID3ID3ID3采用信息增益进行划分,C4.5C4.5C4.5采用信息增益率进行划分克服ID3ID3ID3对特征选择值比较多的偏好,CARTCARTCART采用基尼指数进行划分,克服C4.5C4.5C4.5计算量大的缺点。选择的标准是信息增益(率)越大越好,而基尼指数越小越好。ID3ID3ID3没有剪枝策略,C4.5C4.5C4.5是通过悲观剪枝策略来修正树的准确性,而CARTCARTCART是通过代价复杂度剪枝。ID3。
2023-06-24 14:34:48
222
1
原创 EM算法的理解
EM算法解决这个问题使用的是迭代的方法,既然我们无法直接求解出模型的参数,那就先猜想缺失的数据(EM算法的E步),然后再利用观测样本和猜想的缺失数据极大化对数似然函数,求解模型的参数(EM的M步)。由于我们之前的缺失的数据是猜想来的,故第一次求解出来的参数大概率不是最终的结果,不过没关系,基于当前的参数,我们可以继续利用样本猜测缺失的数据(EM算法的E步),然后继续极大化对数似然,求解我们的模型参数(EM算法的M步)。以此类推,不断的迭代下去,直到模型分布参数基本无变化,算法收敛,找到合适的模型参数。
2023-06-22 13:24:49
50
1
原创 机器学习 聚类
KKK一张图带你看明白密度聚类上面分别是采用K-Means,Gaussian Mixture ,DBSCAN(密度聚类)的方式来对样本进行分类的结果。可以直观看到,密度聚类的优势在于能够发现任何形状的类。层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集划分既可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。AGNES算法(agglomerative nesting,自底向上的层次聚类算法)是比较常用的一种层次聚类算法。
2023-06-18 22:41:59
686
1
原创 利用K_means分割图像(opencv的安装,K_means代码)
安装包:,这里只需要找到自己所需要的版本号即可,不用手动安装。我们目测一下图中有7中不同颜色的区域,故k=7。然后看下面这个教程,跟着教程做。安装完成之后,就可以写代码了。,然后根据版本号安装。
2023-06-16 13:55:12
295
1
原创 基于词向量的faq问答(附代码)
模型保存可以有很多种格式,根据格式的不同可以分为2种,一种是保存为.model的文件,一种是非.model文件的保存。这两种方式的加载在获取词向量的时候应该是差别不大,区别就是.model可以继续训练,但是考虑到存在这样的场景,模型训练以后,会有新的语料,也就存在新词,这个时候新词用。里面的每一个question分词,并且过滤掉停用词,并把过滤之后的词放到。并不可视,它们的内存占用要少一些,加载的时间要多一点。相当于用户提出的问题,按照上面的方式进行分词,文件中的问答卷,将其中的。(貌似这样的,反正就是。
2023-06-15 22:19:44
132
3
原创 逻辑回归(详细)
线性回归模型到逻辑回归模型的区别与联系:线性回归与逻辑回归对目标函数求导形式相同线性回归与逻辑回归都使用了最大似然估计的思想求得目标函数,并用梯度下降的方法求得参数w输出类型:线性回归是用于连续数值预测的回归问题,它的输出是一个实数。逻辑回归是用于分类问题,输出是一个介于0和1之间的概率值,表示样本属于某一类别的概率。数据分布假设:线性回归假设因变量与自变量之间存在线性关系,并且误差项服从正态分布。逻辑回归假设因变量服从二项分布,即分类结果服从伯努利分布。
2023-06-15 11:16:02
1131
2
原创 机器学习线性回归
极大似然估计的思想:寻找一个参数www,使得似然函数Lw∣x1x2⋯xnLw∣x1x2⋯xn,达到最大,也就是说,找到一个参数w使得观测样本出现的概率最大。独立同分布假设:在采样时,每个样本都是从总体中独立、随机地抽取出来的,并且每个样本的特征与响应变量之间的关系相同。随机误差假设:误差项 ϵ 是独立同分布的随机变量,且满足均值为 0,方差为σ2σ^2σ2的正态分布线性回归的考虑参数的先验分布则损失函数包含正则化,否则不包含正则化项。
2023-06-12 23:08:45
596
原创 机器学习SVM(1-5)
SVM上篇1 . SVM分类的基本思想1.1 线性分类器1.2 支撑平面和支撑向量1.3 margin的表示及目标函数1.4 SVM的约束条件1.5 最优化问题2 . 构造拉格朗日乘数法2.1 等式约束优化2.2不等式约束优化2.3 SVM的kkt条件3.对偶问题3.1拉格朗日对偶问题3.2为什么引入对偶问题而不直接求解呢4.利用拉格朗日对偶求解SVM参数5.soft SVM5.1 解决实际问题5.2优化目标以及求解5.3 损失的表示5.3.1 0/1损失5.3.2 0/1损失的替代损失5.4 与SVM
2023-06-09 21:08:04
239
原创 机器学习SVM(6-10)
支持向量机(SVM)的思想是在特征空间中寻找最优的超平面,将不同类别的样本分开,并且使得超平面到最近的样本点的距离最大化。
2023-06-09 21:04:41
81
原创 文本转变向量的几种常用的方法(one-hot,TF-IDF,word2vec)
本文讲解文本转变向量的几种方法,主要有one-hot,TF—IDF,word2vec,只讲解原理,不涉及代码和公式
2023-05-21 15:13:01
4070
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人