details
SimpleLearing
Keep on learning as long as you live!
展开
-
BERT模型中句子Tokenize和ID转换的过程
当我们使用BERT或其他类似的预训练语言模型时,将句子转换为token的过程通常涉及以下几个步骤:初始化Tokenizer:首先,我们需要导入相应的Tokenizer类,并根据需求选择合适的预训练模型进行初始化。分词(Tokenization):分词是将句子分割成单词或者子词(subword)的过程。这个过程通常包括将句子转换为小写(如果使用的模型支持小写输入)、识别并标记单词边界、将单词分割为子词(如果使用的是基于WordPiece或Byte-Pair Encoding的模型),等等。原创 2024-03-26 19:10:40 · 602 阅读 · 0 评论 -
Embedding层的简述及其代码实现
Embedding层是深度学习中常用的一种层类型,主要用于将离散的符号(如单词、字符等)映射到连续的低维稠密向量空间中。它在自然语言处理(NLP)任务中得到广泛应用,用于将词汇表中的单词映射为向量表示,从而方便神经网络模型理解和处理文本数据。原创 2024-03-26 17:30:37 · 567 阅读 · 0 评论 -
C++ 中的 unordered_map 用法文档
是 PyTorch 中用于生成标量张量的函数之一。它会创建一个包含一个元素且值为1的标量张量,通常用于表示单个数值,比如损失函数的值或者模型的参数初始化值。原创 2024-03-25 20:06:51 · 292 阅读 · 0 评论 -
细节之PyTorch 中的 torch.ones([])
是 PyTorch 中用于生成标量张量的函数之一。它会创建一个包含一个元素且值为1的标量张量,通常用于表示单个数值,比如损失函数的值或者模型的参数初始化值。原创 2024-03-25 16:01:31 · 540 阅读 · 0 评论