目录
前言
Jieba分词的时候会出现我们需要的词被切分开来,如“机器学习”会被切分为“机器”和“学习”,“人工智能”可能被切分为“人工”和“智能”,“深度学习”会被切分为“深度”和“学习”,这样在我们构建语料和词频统计的时候,难免会造成构建的词库不是我们理想中的状态。
我们以知网摘要为例子,我们采集人工智能相关的文献,对摘要进行切分词。原语料如下:
打印摘要这一列:
一、jiaba分词
我们采用jieba分词对语料进行分词
目录
Jieba分词的时候会出现我们需要的词被切分开来,如“机器学习”会被切分为“机器”和“学习”,“人工智能”可能被切分为“人工”和“智能”,“深度学习”会被切分为“深度”和“学习”,这样在我们构建语料和词频统计的时候,难免会造成构建的词库不是我们理想中的状态。
我们以知网摘要为例子,我们采集人工智能相关的文献,对摘要进行切分词。原语料如下:
打印摘要这一列:
我们采用jieba分词对语料进行分词