1. 任务描述
本文主要完成以下任务:
- 训练字的embedding(unigram char embedding)
- 训练二元字的embedding(bigram char embedding)
- 训练词的embedding(word embedding)
2. 准备工作
2.1 语料准备
下载当前最新打包的中文(简体)wiki的文本语料。
2.2 训练工具
本文使用Python进行处理,版本为3.6。训练过程中需要的第三方工具为Gensim、OpenCC、LTP。其中Gensim用于读取维基语料、训练word2vec,OpenCC用于汉字繁简转换,LTP用于分词。
所需要工具都可以通过pip3安装:
word2vec
3. 高级话题
3.1 word2vec的GPU训练
3.2 参数选择
3.2.1 维度选择
维度的选择同具体的数据集有关和处理的任务有关。有个经验法则说维度应该不低于4倍的类别标签数量,50,100,200,300