从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（3）

最新推荐文章于 2022-09-26 19:54:51 发布

moronism189

最新推荐文章于 2022-09-26 19:54:51 发布

阅读量620

点赞数 1

文章标签： python 机器学习中文分词 nlp

本文链接：https://blog.csdn.net/weixin_49518391/article/details/126744974

版权

`中文的分词和文档的数字表示`

要让电脑或是任何NLP 模型理解一篇新闻标题在说什么，我们不能将自己已经非常习惯的语言文字直接扔给电脑，而是要转换成它熟悉的形式：数字。

中文的分词

这里我们将一篇新闻标题视为一个“文档”，在中文的语言特征里，文档的基本单位主要由词构成。不同于英文的是，中文句子中没有词的界限，因此进行中文文档的数字表示时，通常需要先做分词以及词的编码。
常见的基于中文分词算法有：正向最大匹配法、逆向最大匹配法、双向匹配法、最优匹配法、联想-回溯法等。

借助 Jieba 这个中文分词工具，可以轻松实现中文的分词。

import jieba.posseg as pseg   

text = '一片大蒜轻松鉴别地沟油'  
words = pseg . cut ( text ) 
[ word for word in words ]

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\HP\AppData\Local\Temp\jieba.cache
Loading model cost 0.677 seconds.
Prefix dict has been built successfully.


[pair('一片', 'm'),
 pair('大蒜', 'n'),
 pair('轻松', 'a'),
 pair('鉴别', 'v'),
 pair('地沟油', 'n')]

TRAIN_CSV_PATH = "./train.csv" 
import pandas as pd 
train = pd . read_csv ( TRAIN_CSV_PATH , index_col = 0 ) 
cols = [ 'title1_zh' , 'title2_zh' , 'label' ] 
train = train . loc [

最低0.47元/天解锁文章

moronism189

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（3）

要让电脑或是任何NLP 模型理解一篇新闻标题在说什么，我们要转换成它熟悉的形式：数字。在中文的语言特征里，文档的基本单位主要由词构成。中文文档的数字表示时，通常需要先做分词以及词的编码。借助 Jieba 这个中文分词工具，可以轻松实现中文的分词。完成分词之后，就可以进行文档的数字化表示。可用的方法有很多，我们首先从常用的 TF-IDF文档向量表示方法入手。TF-IDF是一种向量空间模型（VSM：Vector Space Model）。
复制链接

扫一扫

从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（3）

中文的分词和文档的数字表示

中文的分词

“相关推荐”对你有帮助么？

`中文的分词和文档的数字表示`