jiaba下载安装:
https://pypi.org/project/jieba/#files
https://blog.csdn.net/weixin_42013825/article/details/88562413
分词
1.引入必要的库:
2.定义3个输入文件:
3.定义输出文件,即这三个输入文件的分词结果:
4.词表文件(定义了词语到id的转换的映射和label到id的映射):
词语 -> id
https://blog.csdn.net/weixin_41931602/article/details/80557416
https://blog.csdn.net/lqzdreamer/article/details/76549256
1.分词工具使用测试:
2.做预处理的分词任务:
(1)生成分词后的文件的函数:
将文件全部读入,一行一行处理(小文件)
大文件不能这样处理,必须要读一行处理一行
区分label值和content值:
判断分词是否包含空格:
输出行将label和content合并起来:
文件执行起来很慢…
结果:
utf-8格式修改: