1、NLP分词

遥望盼望

已于 2024-11-29 17:29:05 修改

阅读量2.1k

点赞数 26

分类专栏： NLP 文章标签：自然语言处理人工智能

于 2024-05-18 00:11:01 首次发布

本文链接：https://blog.csdn.net/weixin_44986037/article/details/139015146

版权

NLP 专栏收录该内容

15 篇文章

订阅专栏

分词处理

1、token（词汇单元）

“token”主要用于文本数据的预处理阶段，将文本拆分为基本的词汇单元；“embedding”主要用于将离散的词汇单元连续向量化表示，以便在复杂的机器学习模型中进行处理；“encoding”则主要用于将文本数据转换为神经网络等深度学习模型可处理的向量表示。在自然语言处理（NLP）中，token是指文本中最小的语义单元。比如，一个句子可以被分割成若干个单词，每个单词就是一个token。例如，“I love you”这个句子可以被分割成三个token：“I”，“love”和“you”。token可以帮助我们把文本分解成更容易处理和分析的部分。

token：模型输入基本单元。比如中文BERT中，token可以是一个字，也可以是等标识符。
embedding：一个用来表示token的稠密的向量。token本身不可计算，需要将其映射到一个连续向量空间，才可以进行后续运算，这个映射的结果就是该token对应的embedding。
encoding：表示编码的过程。将一个句子，浓缩成为一个稠密向量，也称为表征，（representation），这个向量可以用于后续计算，用来表示该句子在连续向量空间中的一个点。理想的encoding能使语义相似的句子被映射到相近的空间。

2、Tokenizer（分词）

参考：https://zhuanlan.zhihu.com/p/649543347
通常情况下，Tokenizer有三种粒度：word/char/subword
word: 按照词进行分词，如: Today is sunday. 则根据空格或标点进行分割[today, is, sunday, .]
character：按照单字符进行分词，就是以char为最小粒度。如：Today is sunday. 则会分割成[t， o， d，a，y， … ，s，u，n，d，a，y， .]
subword：按照词的subword进行分词。如：Today is sunday. 则会分割成[to， day，is ， s，un，day， .]
可以看到这三种粒度分词截然不同，各有利弊。常见的子词算法有Bye-Pair Encoding (BPE) / Byte-level BPE（BBPE）、Unigram LM、WordPiece、SentencePiece等。
SentencePiece：SentencePiece它是谷歌推出的子词开源工具包，它是把一个句子看作一个整体，再拆成片段，而没有保留天然的词语的概念。一般地，它把空格也当作一种特殊字符来处理，再用BPE或者Unigram算法来构造词汇表。SentencePiece除了集成了BPE、ULM子词算法之外，SentencePiece还能支持字符和词级别的分词。
Tokenizer包括训练和推理两个环节。训练阶段指得是从语料中获取一个分词器模型。推理阶段指的是给定一个句子，基于分词模型切分成一连串的token。

概括：
1.分词粒度：根据不同的切分粒度可以把tokenizer分为，基于词的切分，基于字的切分和基于subword的切分。基于subword的切分是目前的主流切分方式。
2. subword的切分包括: BPE(/BBPE), WordPiece 和 Unigram三种分词模型。其中WordPiece可以认为是一种特殊的BPE。
3. 完整的分词流程包括：文本归一化，预切分，基于分词模型的切分，后处理。
4. SentencePiece是一个分词工具，内置BEP等多种分词方法，基于Unicode编码并且将空格视为特殊的token。这是当前大模型的主流分词方案。
在这里插入图片描述
参考：https://zhuanlan.zhihu.com/p/652520262

1.word（词）粒度
2.char（字符）粒度
3.subword（子词）粒度
3.1 WordPiece
3.2 Byte-Pair Encoding (BPE)
3.3 Byte-level BPE(BBPE)
3.1-3.3为subword的分词方法

作用：
1.分词。tokenizer将字符串分为一些sub-word token string，再将token string映射到id，并保留来回映射的mapping。从string映射到id为tokenizer encode过程，从id映射回token为tokenizer decode过程。映射方法有多种，例如BERT用的是WordPiece，GPT-2和RoBERTa用的是BPE等等，后面会详细介绍。
2.扩展词汇表。部分tokenizer会用一种统一的方法将训练语料出现的且词汇表中本来没有的token加入词汇表。对于不支持的tokenizer，用户也可以手动添加。
3.识别并处理特殊token。特殊token包括[MASK], <|im_start|>, <sos>, <s>等等。tokenizer会将它们加入词汇表中，并且保证它们在模型中不被切成sub-word，而是完整保留。

子词分词：

Byte Pair Encoding (BPE)
Byte-Pair Encoding(BPE)是最广泛采用的subword分词器。
训练方法：从字符级的小词表出发，训练产生合并规则以及一个词表
编码方法：将文本切分成字符，再应用训练阶段获得的合并规则
经典模型：GPT, GPT-2, RoBERTa, BART, LLaMA, ChatGLM等
WordPiece
Google的Bert模型在分词的时候使用的是WordPiece算法。与BPE算法类似，WordPiece算法也是每次从词表中选出两个子词合并成新的子词。与BPE的最大区别在于，如何选择两个子词进行合并：BPE选择频数最高的相邻子词合并，而WordPiece选择能够提升语言模型概率最大的相邻子词加入词表。
bert用的是wordpiece, wordpiece算法可以看作是BPE的变种。不同的是，WordPiece基于概率生成新的subword而不是下一最高频字节对。WordPiece算法也是每次从词表中选出两个子词合并成新的子词。BPE选择频数最高的相邻子词合并，而WordPiece选择使得语言模型概率最大的相邻子词加入词表。总结来说，WordPiece每次选择合并的两个子词，通常在语料中以相邻方式同时出现。比如说 P(ed) 的概率比P(e) + P(d)单独出现的概率更大，可能比他们具有最大的互信息值，也就是两子词在语言模型上具有较强的关联性。
Unigram Language Model (ULM)
与WordPiece一样，Unigram Language Model(ULM)同样使用语言模型来挑选子词。不同之处在于，BPE和WordPiece算法的词表大小都是从小到大变化，属于增量法。而Unigram Language Model则是减量法,即先初始化一个大词表，根据评估准则不断丢弃词表，直到满足限定条件。ULM算法考虑了句子的不同分词可能，因而能够输出带概率的多个子词分段。

如何使用上述子词算法？一种简便的方法是使用SentencePiece，它是谷歌推出的子词开源工具包，其中集成了BPE、ULM子词算法。除此之外，SentencePiece还能支持字符和词级别的分词。更进一步，为了能够处理多语言问题，sentencePiece将句子视为Unicode编码序列，从而子词算法不用依赖于语言的表示。https://zhuanlan.zhihu.com/p/191648421

3、ElasticSearch 分词器（Analyzer）

ES内置了多种分词器，standard分词器是默认分词器，按词拆分、小写；simple分词器:按非字母拆分，小写，过滤非字母；wihtespace分词器：按空格分词。IK分词器是推荐较多的中文分词器，支持粗力度和细粒度分词，需要安装插件使用。

分词器的组成
分词器是专门处理分词的组件，分词器由以下三部分组成：
Character Filters：针对原始文本处理，比如去除 html 标签
Tokenizer：按照规则切分为单词，比如按照空格切分
Token Filters：将切分的单词进行加工，比如大写转小写，删除 stopwords，增加同义语
在这里插入图片描述
同时 Analyzer 三个部分也是有顺序的，从图中可以看出，从上到下依次经过 Character Filters，Tokenizer 以及 Token Filters，这个顺序比较好理解，一个文本进来肯定要先对文本数据进行处理，再去分词，最后对分词的结果进行过滤。

其中，ES 内置了许多分词器：
Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分（符号被过滤），小写处理
Stop Analyzer - 小写处理，停用词过滤（the ，a，is）
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当做输出
Pattern Analyzer - 正则表达式，默认 \W+
Language - 提供了 30 多种常见语言的分词器
Customer Analyzer - 自定义分词器

4、分词工具

分词器简单而言就是将字符序列转化为数字序列，对应模型的输入。
分词器是用来实现分词的，分词器由三部分组成：字符过滤器、分词器和Token过滤器，字符过滤器：对原始文本进行过滤；分词器：按照一定规则进行分词；Token过滤器：对分词进行处理，转小写，移除停用词，添加同义词。
分词器由Character Filter、Tokenizer和Token Filter三部分组成，其工作流程依次为Character Filter、Tokenizer和Token Filter，其中Character Filter和Token Filter可以为空。
在这里插入图片描述
一、中文分词工具
https://cloud.tencent.com/developer/article/1747734
（1）Jieba
（2）snowNLP分词工具
（3）thulac分词工具
（4）pynlpir 分词工具
（5）StanfordCoreNLP分词工具
（6）Hanlp分词工具
哈工大LTP、中科院计算所NLPIR、清华大学THULAC、jieba
二、英文分词工具

NLTK：
SpaCy：
StanfordCoreNLP

在目前的分词技术中，有几个比较流行和广泛应用的分词工具。下面介绍一些比较常用的分词工具，以供参考。

结巴分词（jieba）：结巴分词是基于Python的中文分词工具，具有功能强大、速度快、准确度高等特点。它支持三种分词模式：精确模式、全模式和搜索引擎模式，并且可以通过调用不同的AI实现不同的分词功能。
LTP（Language Technology Platform）：LTP是一种基于深度学习的中文自然语言处理工具包，其中包括了分词、词性标注、命名实体识别等多个功能模块。LTP的分词模块采用了深度学习方法，具有较高的准确度和鲁棒性。
NLTK（Natural Language Toolkit）：NLTK是一个Python库，提供了丰富的自然语言处理功能。其中包括了中文分词的功能，可以通过调用NLTK的分词模块实现中文分词。
HanLP：HanLP是由人民日报社自然语言处理与社会人文计算实验室开发的一套自然语言处理工具。其中包括了中文分词功能，并且支持多种分词算法，如基于最大熵模型和条件随机场等。
THULAC：THULAC（THU Lexical Analyzer for Chinese）是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具。它具有较高的准确度和速度，适用于大规模中文文本的分词任务。
以上仅是介绍了一些常用的中文分词工具，每个工具都有其优势和适用的场景。在选择使用哪个分词工具时，可以根据具体的需求和任务来进行选择。建议可以对比不同工具的分词效果、效率和易用性等方面，并结合自己的需求来做出选择。

比较 ：
准确率、社区活跃度、适应范围、速度等。北京大学PKUse和清华大学THULAC可供参考。 
可根据个人不同的需求去选择不同的分词工具。将自己的语料实际放进去看一下最后的结果。
这样会给你一些参考价值。综合速度、社区活跃度、更新频率和语料结果，
个人更倾向于jieba分词，专业的领域交给专业的团队去做。
只有Thulac的结果比较特别，StanfordCoreNLP的运行占用大量内存和CPU，
尝试另一句话‘这本书很不错’，jieba无法分出‘本’，其他都可以完整分词，
不过StanfordCoreNLP依然占用大量内存和CPU。
https://github.com/ysc/cws_evaluation

1、一个好的分词工具不应该只能在一个数据集上得到不错的指标，而应该在各个数据集都有很不错的表现。从这一点来看，thulac和ltp都表现非常不错。
2、因为分词是个基础部件，分词速度对于一个分词工具来说也至关重要。从这一点来看，thulac和jieba表现的不错。
3、大家都知道，基本的分词依赖模型，但真正想用分词工具来解决应用层面上的问题，都需要借助于词库，本文测试的4个工具均支持用户自定义词库。
4、特别需要强调的一点是，哈工大的ltp支持分词模型的在线训练，即在系统自带模型的基础上可以不断地增加训练数据，来得到更加丰富、更加个性化的分词模型。https://www.sohu.com/a/120375125_465975

5、Transformer分词

https://blog.csdn.net/Together_CZ/article/details/132187744
Transformer分词（如BERT Tokenizer）：Transformer模型中常使用一种称为BERT Tokenizer的分词器。它可以将文本划分为基于词、子词或字符级别的标记，并生成对应的词嵌入。

Transformer是一种基于注意力机制的分词算法，常用于处理序列数据，其中包括自然语言处理任务。Transformer算法的原理如下：
自注意力机制（Self-Attention）：Transformer使用自注意力机制来建立词与词之间的关系。对于输入的序列，通过计算每个词与其他词之间的相似度得到注意力权重，然后将注意力权重作用于词向量上，从而关注到序列中重要的关键词。
编码器-解码器结构（Encoder-Decoder Architecture）：在机器翻译等任务中，Transformer使用了编码器-解码器结构。编码器将输入序列转换为中间表示，解码器通过自注意力机制和编码器的输出生成目标序列。
多头注意力机制（Multi-Head Attention）：为了对不同的词之间的依赖关系进行建模，Transformer使用了多头注意力机制。它将注意力机制应用到多个线性映射的投影中，然后将它们拼接起来并通过一个线性映射得到最终的表示。
位置编码（Positional Encoding）：为了处理序列中的位置信息，Transformer引入了位置编码。位置编码是一种对词的位置进行编码的方式，它可以与词向量相加获得每个词的综合表示。

Transformer算法的优缺点如下：
优点：
并行计算：由于Transformer使用自注意力机制，每个词都可以并行计算其与其他词之间的关系，从而加快计算速度，使得Transformer在大规模数据上具有较高的效率。
长距离依赖性：通过自注意力机制，Transformer更好地处理长距离的依赖关系，能够捕捉到更远距离的上下文信息，提供更准确的语义表示能力。
上下文感知：Transformer利用自注意力机制可以对每个词进行不同程度的关注，从而更好地理解上下文的语意。
可解释性：由于Transformer使用自注意力机制，可以直观地观察到哪些词对于当前词最重要，提供了一定的可解释性。
缺点：
训练复杂性：Transformer中包含了大量的参数和复杂的计算过程，导致训练过程相对较慢，尤其在处理大规模数据时需要更多的计算资源。
学习长距离依赖性的挑战：尽管Transformer可以较好地处理长距离的依赖关系，但在某些复杂任务中，仍可能存在对长距离依赖的挑战。
总之，Transformer是一种在大模型中常用的分词算法，通过自注意力机制处理序列数据，具有并行计算、长距离依赖性、上下文感知和可解释性的优点。然而，它也存在训练复杂性和学习长距离依赖性的挑战。

【总结分析】
Byte Pair Encoding (BPE)
优点：
能够处理未分词的文本，且容易实现和使用。
根据语料频率合并字符或字符组合，生成对应的词汇表。
对于语言中的常见词汇有较好的表示能力。
缺点：
没有考虑语义信息，可能造成词汇划分的歧义。
生成的词汇表可能较大，增加了存储和计算资源的需求。

WordPiece:
优点：
可以处理未分词的文本，并根据语料频率合并子词或子词组合。
考虑了语义信息，提供更好的词汇表示能力。
适用于多语言场景。
缺点：
生成的词汇表可能较大，增加了存储和计算资源的需求。

SentencePiece:
优点：
可以通过无监督学习方式构建多语言分词器。
能够根据语料自动学习语言的词汇，并生成对应的分词模型。
缺点：
对于特定语料和应用场景，学习过程可能需要较长的时间和计算资源。
生成的词汇表可能较大，增加了存储和计算资源的需求。

Transformer分词（如BERT Tokenizer）:
优点：
基于Transformer模型，能够处理复杂的语言结构和上下文信息。
生成的词嵌入能同时表示词汇和上下文，提高模型对语义和上下文关系的理解能力。
缺点：
比较复杂，处理速度可能较慢。

Unigram LM：
优点：
根据语料中词的频率构建词汇表，能够有效捕捉常见词汇。
计算简单，速度较快。
缺点：
没有考虑语义信息，可能造成词汇划分的歧义。
对于非常见词汇的处理较为困难。
理想的分词器应具备以下特性：
能够处理未分词的文本，可适应不同语料和应用场景。
考虑语义信息，以准确划分词汇边界。
生成的词汇表大小适中，平衡存储和计算资源需求。
处理速度高，满足实时性需求。
跨语言分词能力较好，适用于多语言场景。
可定制和调整，以满足特定任务需求。
良好的稳定性和鲁棒性，能够应对输入中的错误或噪声。

停用词（Stop words）

停用词（Stop words）是指在文本处理过程中被忽略或删除的常见词汇。这些词汇通常是频繁出现的功能词或无实际意义的词语，例如介词、连词、冠词、代词等。停用词通常对于文本的含义分析没有太大贡献，且会占据大量的存储空间和计算资源。因此，在文本处理任务（如文本分类、信息检索等）中，常常会预先定义一组停用词，并在处理过程中将它们从文本中移除。停用词的具体内容可以根据任务的特定需求而定，通常包括例如：“a”, “an”, “the”, “is”, “are”, “and”, "of"等常见词汇。选择停用词列表时，需要综合考虑语言的特点、任务的领域和目标等因素。

大语言模型的词表扩充
LLaMA词表中的中文token比较少（只有几百个）。为了解决这些问题，我们可能就需要进行中文词表扩展。比如：在中文语料库上训练一个中文tokenizer模型，然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并，通过组合它们的词汇表，最终获得一个合并后的 tokenizer 模型。