基于文本的问题生成日志(一)
阶段总结
通过上周的讨论,我负责的是基于文本的问题生成的检验部分,及关于生成问题的正确性检验,经过老师的指导我们确定了一检验思路。
首先要了解关于用CNN进行文本分类的知识,CNN最初用于处理图像问题,但是在自然语言处理中,使用CNN进行文本分类也可以取得不错的效果,在文本处理中,则用向量表示一句话。
CNN模型
通过不同的处理可以凸显出文本矩阵的不同特征,再加上LSTM分类器就可以达成文本分类的目的
图片来源:Convolutional Neural Networks for Sentence Classification
1、卷积核
通过训练集进行学习,不是指定卷积核。
卷积和一开始是随机的
2、CNNText
就是用一整个句子作为特征向量,使用一维的卷积核,而不是上面的二维的三维的卷积核表示
word2vec
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。
word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
阶段规划
进行了充足的理论储备之后,下一阶段就是实践,我们计划于下周开始初步搭建项目框架,并在月底完成简易版的系统。