最全NLP中文文本分类实践(上)——中文分词获取和Word2Vec模型构建
1 简介最近在学习NLP的相关知识,想通过实践来加深对所学知识的认知。因此,自己从网上找了一个中文语料库进行尝试。本文的实践内容包括文件的读取、中文分词、词向量表达、模型构建和模型融合。本文所采用的语料库为复旦中文文本分类语料库,包含20个类别。但是,这个网盘里面只有train一个文件夹,我就自己人工把它分成了训练集和测试集。网盘链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg密码:zyxa注:本文重点关注于代码的实践内容,没有背景知识和理论的介
原创
2020-09-02 11:20:57 ·
4339 阅读 ·
13 评论