自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 基于文本的问题生成(七)

合并项目QA#阅读理解QA

2021-05-31 16:40:41 208

原创 基于文本的问题生成(六)

基于文本的问题生成前期工作计划前期工作计划

2021-05-21 20:57:37 120

原创 基于文本的问题生成(五)

数据集处理结巴分词训练

2021-04-21 21:27:33 185 1

原创 基于文本的问题生成(四)

目录评估方面疑问句判断数据集xgboost模型评估方面疑问句判断数据集疑问句判断数据集已建立,格式如下。label 1表示是疑问句,label 0不是疑问句xgboost模型本部分使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN,MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以

2021-04-11 17:15:02 330

原创 基于文本的问题生成日志(三)

目录数据集数据集处理特征向量提取模型数据集因为之前使用的是cmrc的数据集,里面的格式和我所做的部分不匹配,所以我自己新建了一个数据集,格式如下:content,label问句,1不是问句,0…数据集处理我采用的是结巴分词tokenizer = jieba.Tokenizer()特征向量提取对分词后的语料进行TFIDF特征抽取,构造训练矩阵。模型本项目使用的是xgboost模型。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案

2021-04-05 12:37:30 99 1

原创 基于文本的问题生成日志(二)

目录环境配置阶段总结分类器TEXTCNN环境配置根据项目要求,我使用的环境如下:python3.9.2pytotch1.8.1cuda1.02pycharm阶段总结根据计划,我目前需要完成文本二分类任务,首先我去学习了机器学习分类器的相关内容,了解了分类器的几种方法。然后计划用textCNN模型的来作文本分类器。分类器首先从最简单的二分类开始实践,做一个坐标轴散点二分类。随机生成散点,并将其中的点分成两类采用的是一个很简单的全连接网络,网络结构如下:这个网络包含一个输入层,一个中间

2021-03-29 17:24:17 83

原创 基于文本的问题生成日志(一)

基于文本的问题生成日志(一)目录基于文本的问题生成日志(一)阶段总结CNN模型1、卷积核2、CNNTextword2vec阶段规划阶段总结通过上周的讨论,我负责的是基于文本的问题生成的检验部分,及关于生成问题的正确性检验,经过老师的指导我们确定了一检验思路。首先要了解关于用CNN进行文本分类的知识,CNN最初用于处理图像问题,但是在自然语言处理中,使用CNN进行文本分类也可以取得不错的效果,在文本处理中,则用向量表示一句话。CNN模型通过不同的处理可以凸显出文本矩阵的不同特征,再加上LSTM分类

2021-03-21 23:11:38 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除