倔强青铜ⅳ-CSDN博客

原创 Embedding #notebook

上一个篇章我们讲解了tokenizer的使用，这一个篇章我们继续讲解所谓的embedding，这是通向模型的第一个层，它实际上就是一个全连接层，那么从一个text文本’我爱中南大学’，经过tokenizer得到了每个token在vocab.txt中的id编码，即[101, 2769, 4263, 704, 1298, 1920, 2110, 102] ()，那么接下来经过embedding层的时候会得到什么呢？

2024-03-23 18:27:58 649

原创 huggingface tokenizer #notebook

当你需要使用和学习tokenizer时，首先你需要关注:huggingface所以这个教程只是一个简易版本,仅供参考。所有tokenizer的目标都是为了将语料进行分词处理，然后再输入给语言模型处理。那么他们的输入和输出是什么就显得尤为重要，对于一个并非长期专注NLP领域的人而言，当需要用到Tokenizer时，只需要理解Tokenizer的输入和输出即可。

2024-03-23 18:23:44 804

原创约束优化算法(2)罚函数法 #notebook

本文来自。约束优化算法的标准处理方式是将其转化为无约束优化算法，有三种常见的转化方式，分别是lagrangian乘子法，罚函数法以及增广lagrangian乘子法（lagrangian乘子法+罚函数法）。下面分别介绍。

2024-03-17 22:32:08 984 1

原创约束优化算法(1) Lagrangian乘子法 #notebook

本文来自。约束优化算法的标准处理方式是将其转化为无约束优化算法，有三种常见的转化方式，分别是lagrangian乘子法，罚函数法以及增广lagrangian乘子法（lagrangian乘子法+罚函数法）。下面分别介绍。

2024-03-17 22:27:22 763 1

原创 BERT源码解析-#notebook-code

回顾:BERT结构BERT模型结构基本上就是Transformer的Encoder部分，BERT-base对应的是12层encoder，BERT-large对应的是24层encoder.BERT模型结构BERT Tokenization 分词模型（BertTokenizer）BERT Model 本体模型（BertModel）BertEmbeddingsBertEncoderBertLayerBertAttentionBertIntermediateBertOutput

2024-03-15 12:16:58 1397 1

原创一元高次方程的快速数值解计算方法 #notebook-code

定理：设fxxna1xn−1⋯an−1xan;是数域P上的任意多项式，那么方程fx0的根与矩阵AA−a1−a2⋮−an−1−an10⋮0001⋮00⋯⋯⋱⋯⋯00⋮0000⋮10。

2024-03-13 22:46:23 901

原创 PGM-Proximal Gradient Methods -#notebook

PGM方法，解决的是可以分离的非光滑凸优化问题，推导过程实际上采用的是泰勒展开和配方法（结合梯度下降更新公式）。问题背景近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种，其英文名称为proximal gradident descent，其中，术语中的proximal一词比较耐人寻味，将proximal翻译成“近端”主要想表达"（物理上的）接近"。与经典的梯度下降法和随机梯度下降法相比，近端梯度下降法的适用范围相对狭窄。对于凸优化问题，当其目标函数存在不可微部分（例如目

2024-02-15 22:10:22 965 1

原创 Transformer核心代码-#notebook

定义了一个名为的类，该类继承自PyTorch的nn.Module类。这表明是一个可以集成到PyTorch模型中的自定义模块。这个模块在多头注意力机制中扮演关键角色，通过对keyquery和value向量进行适当的线性变换和重塑，使得它们能够被分配到不同的“头”中。这种分配使得模型能够在不同的表示子空间中并行捕获信息，从而提高了模型处理复杂信息的能力。输入d_model:输入向量的维度；heads:要分割的头的数量；d_k:分割后每个头中向量的维度，即dkdmodelheadsdkd。

2024-02-14 22:21:48 835 2

原创 Transformer-#notebook

Multi-head attention机制的提出是受到了卷积神经网络（CNN）中多通道（channel）概念的启发。在CNN中，每个通道可以捕捉到图像的不同特征信息，这样做增强了模型对图像细节的捕捉能力。类似地，在处理序列数据时，一个关键的想法是是否可以设计一种机制，像Self-attention那样，能够从不同维度和不同距离的token中提取丰富的信息。为了更好地理解Multi-head attention与CNN中技术的相似之处，首先介绍一下group卷积。Group卷积将。

2024-02-13 22:33:06 1198 2

原创 Sinkhorn algorithm #notebook

Sinkhorn算法是一种用于解决正则化的最优传输问题的迭代算法。它基于Sinkhorn-Knopp矩阵缩放方法，用于计算两个离散概率分布之间的Sinkhorn距离，这是一种在最优传输理论中的距离度量。

2023-12-27 00:30:51 1493 2

原创图像任务的常见指标计算

图像任务重常用指标计算。

2023-12-12 19:46:57 1135

原创统计机器学习中的重要分布及其代码和图例

统计，机器学习中常用的概率分布，概率密度函数

2023-12-12 17:02:22 1107

原创高等代数学习

纯基础知识

2023-11-29 21:26:25 1000 1

原创 PyTorch计算机视觉训练中的基础知识点和细节

一般用pytorch进行深度学习的简单流程大概是：先使用训练数据对搭建好的神经网络模型进行训练并完成参数优化；然后使用优化好的模型对测试数据进行预测，对比预测值和真实值之间的损失值，同时计算出结果预测的准确率。预备知识pytorch中图像处理主要用到两个核心库，torch和torchvisiontorch.nn中的类是实现网络搭建的核心类torchvision主要实现数据处理，导入和预览等对于一般的数据集如MNIST，COCO,ImageNet，CIFCAR等都可以通过torchvision

2022-05-20 19:29:50 387

原创 Pytorch基础学习（修改，简化，速成）

pytorch 简要介绍

2022-04-30 00:11:50 5086

原创有用的网站

一些有用的网站

2022-04-24 21:52:11 665

原创 Anaconda 中的一些常用命令和镜像源

anaconda 常用命令等

2022-04-05 20:17:54 2302

原创遗传算法图像拟合

遗传算法图像拟合

2022-03-31 21:26:01 2313 1

weixin_53162487的博客