NLP应用的第一步是自动分词,然后在分词之后构建词向量,然后再对词向量进行训练,最后输出任务结果。
案例:中文处理预料库《倚天屠龙记》,为例子。引用博文:
https://blog.csdn.net/sinat_29694963/article/details/79177832
https://zhuanlan.zhihu.com/p/23225934
word2vec是构建多层的神经网络模型,然后给定输入和输出求出相应的相似度。word2vec基础算法是N-gram,所以n元模型中如果在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近。距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。
在做NLP训练模型时,时需要训练集和测试集的。
常用的NLP的python模块有gensim ,NLTK等
1、训练前语料处理
第一步 分词:分词工具有中科院分词,哈工大的LTP分词, j ieba分词,分词效果中科院的分词效果不错,我们分别使用jieba直接进行分词和使用自定义词典作为词库来分词,来保证分词的准确度。还有相应的盘古分词、Yaha分词,但是效果是差不多的。停用词