- 在使用词向量时,不要使用常用的预处理过程如停用词移除、词干提取等
- 尽可能地使单词更加得靠近词向量
- 在某些场景下,如情感分类,标点符号、大小写也可能会包含有用的信息
- 对于特定的任务,如情感分类来说,一些特殊字符如表情符号往往含有重要的信息,因此不要随便删除
- 在使用词向量时,要遵循训练词向量时所进行的预处理操作,如谷歌预处理词向量时对数字用"##"替换,训练
glove twitter embeddings
时进行了如下替换text = re.sub("<3", '<HEART>', text)
。因此在使用这两个词向量时,我们也要进行相应的预处理
使用词向量时如何对数据进行预处理
最新推荐文章于 2021-12-06 08:55:42 发布