自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Embedding #notebook

上一个篇章我们讲解了tokenizer的使用,这一个篇章我们继续讲解所谓的embedding,这是通向模型的第一个层,它实际上就是一个全连接层,那么从一个text文本’我爱中南大学’,经过tokenizer得到了每个token在vocab.txt中的id编码,即[101, 2769, 4263, 704, 1298, 1920, 2110, 102] (),那么接下来经过embedding层的时候会得到什么呢?

2024-03-23 18:27:58 649

原创 huggingface tokenizer #notebook

当你需要使用和学习tokenizer时,首先你需要关注:huggingface所以这个教程只是一个简易版本,仅供参考。所有tokenizer的目标都是为了将语料进行分词处理,然后再输入给语言模型处理。那么他们的输入和输出是什么就显得尤为重要,对于一个并非长期专注NLP领域的人而言,当需要用到Tokenizer时,只需要理解Tokenizer的输入和输出即可。

2024-03-23 18:23:44 804

原创 约束优化算法(2)罚函数法 #notebook

本文来自。约束优化算法的标准处理方式是将其转化为无约束优化算法,有三种常见的转化方式,分别是lagrangian乘子法,罚函数法以及增广lagrangian乘子法(lagrangian乘子法+罚函数法)。下面分别介绍。

2024-03-17 22:32:08 984 1

原创 约束优化算法(1) Lagrangian乘子法 #notebook

本文来自。约束优化算法的标准处理方式是将其转化为无约束优化算法,有三种常见的转化方式,分别是lagrangian乘子法,罚函数法以及增广lagrangian乘子法(lagrangian乘子法+罚函数法)。下面分别介绍。

2024-03-17 22:27:22 763 1

原创 BERT源码解析-#notebook-code

回顾:BERT结构BERT模型结构基本上就是Transformer的Encoder部分,BERT-base对应的是12层encoder,BERT-large对应的是24层encoder.BERT模型结构BERT Tokenization 分词模型(BertTokenizer)BERT Model 本体模型(BertModel)BertEmbeddingsBertEncoderBertLayerBertAttentionBertIntermediateBertOutput

2024-03-15 12:16:58 1397 1

原创 一元高次方程的快速数值解计算方法 #notebook-code

定理:设fxxna1​xn−1⋯an−1​xan​;是数域P上的任意多项式,那么方程fx0的根与矩阵AA​−a1​−a2​⋮−an−1​−an​​10⋮00​01⋮00​⋯⋯⋱⋯⋯​00⋮00​00⋮10​​。

2024-03-13 22:46:23 901

原创 PGM-Proximal Gradient Methods -#notebook

PGM方法,解决的是可以分离的非光滑凸优化问题,推导过程实际上采用的是泰勒展开和配方法(结合梯度下降更新公式)。问题背景近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种,其英文名称为proximal gradident descent,其中,术语中的proximal一词比较耐人寻味,将proximal翻译成“近端”主要想表达"(物理上的)接近"。与经典的梯度下降法和随机梯度下降法相比,近端梯度下降法的适用范围相对狭窄。对于凸优化问题,当其目标函数存在不可微部分(例如目

2024-02-15 22:10:22 965 1

原创 Transformer核心代码-#notebook

定义了一个名为的类,该类继承自PyTorch的nn.Module类。这表明是一个可以集成到PyTorch模型中的自定义模块。这个模块在多头注意力机制中扮演关键角色,通过对keyquery和value向量进行适当的线性变换和重塑,使得它们能够被分配到不同的“头”中。这种分配使得模型能够在不同的表示子空间中并行捕获信息,从而提高了模型处理复杂信息的能力。输入d_model:输入向量的维度;heads:要分割的头的数量;d_k:分割后每个头中向量的维度,即dkdmodelheadsdk​d。

2024-02-14 22:21:48 835 2

原创 Transformer-#notebook

Multi-head attention机制的提出是受到了卷积神经网络(CNN)中多通道(channel)概念的启发。在CNN中,每个通道可以捕捉到图像的不同特征信息,这样做增强了模型对图像细节的捕捉能力。类似地,在处理序列数据时,一个关键的想法是是否可以设计一种机制,像Self-attention那样,能够从不同维度和不同距离的token中提取丰富的信息。为了更好地理解Multi-head attention与CNN中技术的相似之处,首先介绍一下group卷积。Group卷积将。

2024-02-13 22:33:06 1198 2

原创 Sinkhorn algorithm #notebook

Sinkhorn算法是一种用于解决正则化的最优传输问题的迭代算法。它基于Sinkhorn-Knopp矩阵缩放方法,用于计算两个离散概率分布之间的Sinkhorn距离,这是一种在最优传输理论中的距离度量。

2023-12-27 00:30:51 1493 2

原创 图像任务的常见指标计算

图像任务重常用指标计算。

2023-12-12 19:46:57 1135

原创 统计机器学习中的重要分布及其代码和图例

统计,机器学习中常用的概率分布,概率密度函数

2023-12-12 17:02:22 1107

原创 高等代数学习

纯基础知识

2023-11-29 21:26:25 1000 1

原创 PyTorch计算机视觉训练中的基础知识点和细节

一般用pytorch进行深度学习的简单流程大概是:先使用训练数据对搭建好的神经网络模型进行训练并完成参数优化;然后使用优化好的模型对测试数据进行预测,对比预测值和真实值之间的损失值,同时计算出结果预测的准确率。预备知识pytorch中图像处理主要用到两个核心库,torch和torchvisiontorch.nn中的类是实现网络搭建的核心类torchvision主要实现数据处理,导入和预览等对于一般的数据集如MNIST,COCO,ImageNet,CIFCAR等都可以通过torchvision

2022-05-20 19:29:50 387

原创 Pytorch基础学习(修改,简化,速成)

pytorch 简要介绍

2022-04-30 00:11:50 5086

原创 有用的网站

一些有用的网站

2022-04-24 21:52:11 665

原创 Anaconda 中的一些常用命令和镜像源

anaconda 常用命令等

2022-04-05 20:17:54 2302

原创 遗传算法图像拟合

遗传算法图像拟合

2022-03-31 21:26:01 2313 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除