什么是未登录词（OOV）

Ash Butterfield

于 2025-02-08 10:08:21 发布

阅读量1k

点赞数 10

分类专栏：自然语言处理（NLP）专栏文章标签： npl

本文链接：https://blog.csdn.net/weixin_67075116/article/details/145509450

版权

自然语言处理（NLP）专栏专栏收录该内容

18 篇文章

订阅专栏

未登录词（OOV，Out-of-Vocabulary） 指的是在模型训练时**未出现在词汇表（Vocabulary）**中的单词。在自然语言处理（NLP）任务中，未登录词通常会带来挑战，因为模型在训练时从未见过这些单词，因此无法直接为它们提供词向量或处理它们的语义信息。

1. 为什么会有未登录词？

未登录词出现的原因有很多，比如：

训练数据不足：如果某个词在训练语料中没有出现过，模型就无法学习到它的词向量。
拼写错误：如果用户输入的单词拼写错误（如“thier”而不是“their”），模型可能无法识别它。
新词或专有名词：随着时间推移，新词（如新技术、新流行语）会不断涌现，而训练数据可能无法及时更新。
不同语言的混合：如果词向量是在某个特定语言的数据集上训练的，而输入中包含其他语言的单词，那么这些词就可能是未登录词。

2. 未登录词对 NLP 任务的影响

未登录词会导致模型在处理文本时遇到困难，比如：

词向量无法查询：在 Word2Vec 或 GloVe 这类模型中，每个单词都有一个预定义的词向量，如果某个词不在词汇表中，就无法获取它的向量表示。
文本分类、机器翻译等任务的性能下降：如果关键单词是未登录词，模型可能无法正确理解句子的意思。
语音识别、对话系统出现错误：如果语音识别系统无法识别新词，它可能会生成错误的转录文本。

3. 如何处理未登录词？

为了解决 OOV（未登录词）问题，通常会使用以下方法：

（1）使用 FastText 处理 OOV

FastText（基于 Word2Vec）可以有效处理未登录词，它的核心思想是将单词拆分成子词（subwords），然后通过这些子词来计算词向量。例如：

词 "banking" 可能会被拆成 ["ban", "ank", "kin", "ing"]。
即使 "banking" 没有出现在词汇表中，模型仍然可以通过子词来计算它的向量。

FastText 的示例代码：

from gensim.models import FastText

# 训练 FastText 模型
sentences = [["banking", "finance", "loan"], ["dog", "cat", "animal"]]
model = FastText(sentences, vector_size=100, window=5, min_count=1)

# 查询一个未登录词
print(model.wv["bankinnng"])  # 拼写错误的 "banking"，仍然能找到向量

➡ FastText 通过子词（n-grams）来计算未登录词的向量，因此即使单词不在训练数据中，也可以找到合适的词向量。

（2）使用 UNK（Unknown Token）

在一些 NLP 任务中，未登录词可以被映射为一个特殊的 <UNK> 令牌（Unknown Token）。

这样，即使某个单词不在词汇表中，模型仍然可以用 <UNK> 代替它，避免报错。
例如，在机器翻译任务中，未登录词可能被映射成 <UNK>，然后根据上下文预测合适的单词。

示例：

word_to_index = {"hello": 0, "world": 1, "<UNK>": 2}
sentence = ["hello", "AI"]
indexed_sentence = [word_to_index.get(word, word_to_index["<UNK>"]) for word in sentence]
print(indexed_sentence)  # ['hello' 的索引, '<UNK>' 的索引]

➡ 如果 "AI" 不是词汇表中的词，它会被替换为 <UNK>。

（3）使用子词分解（Subword Tokenization）

在 Transformer 相关的 NLP 模型（如 BERT、GPT）中，通常使用子词分解方法，如：

BPE（Byte Pair Encoding）
WordPiece
SentencePiece

这些方法可以将罕见词拆分为更小的子单元，例如：

词 "unhappiness" 可能被拆成 ["un", "happiness"]。
词 "banking" 可能被拆成 ["bank", "##ing"]（WordPiece 方式）。

这种方式使得即使未登录词本身不存在，模型仍然可以根据子词推断其含义。

示例（使用 Hugging Face 的 BERT Tokenizer）：

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 处理未登录词 "bankinnng"
tokens = tokenizer.tokenize("bankinnng is a good place")
print(tokens)

➡ BERT Tokenizer 会将未知单词拆成更小的子词，从而减少未登录词的影响。