import json
import re
from typing import List
class CharacterTokenizer:
"""
Tokenizer的功能是实现文本的编解码。编码,即把字符转成数字,但是实际生活中的字符是无限的,我们总可以遇到新的字符,
而这些字符在训练集中并不能得到充分训练,于是我们暂时用<unk>来表示。
编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的,而无法恢复的字符,
可以理解成失真了。
"""
def __init__(self):
self.pad_token = '<pad>'
self.digit_token = '<digit>'
self.alpha_token = '<alpha>'
self.unk_token = '<unk>'
self.token2id = None
def build_vocab(self, corpus_file_path, dump_file_path, min_count=5):
token2freq = {
}
with open(corpus_file_path) as fin:
for line in fin:
line = json.loads(line.strip())['text']
for ch
文本编解码tokenizer
最新推荐文章于 2024-08-13 13:11:20 发布
本文深入探讨Python中处理文本的编解码过程,重点解析tokenizer在自然语言处理中的应用,如何进行词汇切分和预处理,为后续的NLP任务如情感分析、文本分类等奠定基础。
摘要由CSDN通过智能技术生成