nlp
weixin_46076318
这个作者很懒,什么都没留下…
展开
-
基于文本的问题生成(七)
合并项目QA #阅读理解 QA原创 2021-05-31 16:40:41 · 208 阅读 · 0 评论 -
基于文本的问题生成(六)
基于文本的问题生成前期工作计划 前期 工作 计划原创 2021-05-21 20:57:37 · 118 阅读 · 0 评论 -
基于文本的问题生成(四)
目录评估方面疑问句判断数据集xgboost模型 评估方面 疑问句判断 数据集 疑问句判断数据集已建立,格式如下。 label 1表示是疑问句,label 0不是疑问句 xgboost模型 本部分使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以原创 2021-04-11 17:15:02 · 328 阅读 · 0 评论 -
基于文本的问题生成日志(三)
目录数据集数据集处理特征向量提取模型 数据集 因为之前使用的是cmrc的数据集,里面的格式和我所做的部分不匹配,所以我自己新建了一个数据集,格式如下: content,label 问句,1 不是问句,0 … 数据集处理 我采用的是结巴分词 tokenizer = jieba.Tokenizer() 特征向量提取 对分词后的语料进行TFIDF特征抽取,构造训练矩阵。 模型 本项目使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案原创 2021-04-05 12:37:30 · 99 阅读 · 1 评论 -
基于文本的问题生成日志(二)
目录环境配置阶段总结分类器TEXTCNN 环境配置 根据项目要求,我使用的环境如下: python3.9.2 pytotch1.8.1 cuda1.02 pycharm 阶段总结 根据计划,我目前需要完成文本二分类任务,首先我去学习了机器学习分类器的相关内容,了解了分类器的几种方法。然后计划用textCNN模型的来作文本分类器。 分类器 首先从最简单的二分类开始实践,做一个坐标轴散点二分类。 随机生成散点,并将其中的点分成两类采用的是一个很简单的全连接网络,网络结构如下: 这个网络包含一个输入层,一个中间原创 2021-03-29 17:24:17 · 83 阅读 · 0 评论 -
基于文本的问题生成日志(一)
基于文本的问题生成日志(一) 目录基于文本的问题生成日志(一)阶段总结CNN模型1、卷积核2、CNNTextword2vec阶段规划 阶段总结 通过上周的讨论,我负责的是基于文本的问题生成的检验部分,及关于生成问题的正确性检验,经过老师的指导我们确定了一检验思路。 首先要了解关于用CNN进行文本分类的知识,CNN最初用于处理图像问题,但是在自然语言处理中,使用CNN进行文本分类也可以取得不错的效果,在文本处理中,则用向量表示一句话。 CNN模型 通过不同的处理可以凸显出文本矩阵的不同特征,再加上LSTM分类原创 2021-03-21 23:11:38 · 181 阅读 · 0 评论