![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 73
Better Bench
CS博士;研究领域:类脑计算、深度学习、机器学习、数据挖掘、自然语言处理、数学建模、量化金融,兼职网球教练4.0
展开
-
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
目录1 相关信息2 引言3 提分技巧及实现3.1 数据增强3.2 投票融合3.2 伪标签4 加快训练4.1 混合精度训练4.2 加速训练的其他技巧4.2.1 有用到的加速策略4.2.2 未用到的加速策略1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文原创 2021-08-13 21:54:04 · 610 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
目录1 相关信息2 引言3 实现3.1 数据预处理3.2 Bert4 提分点技巧讲解5 未来展望1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5原创 2021-08-13 19:18:17 · 978 阅读 · 1 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–6 提分方案2 引言原创 2021-08-12 22:47:18 · 408 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案
目录1 相关信息2 引言3 方案3.1 加载包3.2 参数设置3.3 TextCNN 网络结构3.4 FastText 网络结构3.5 TextRNN网络结构3.6 DPCNN 网络结构3.5 数据预处理3.6 训练词向量3.7 封装训练集3.8 训练模型3.8.1 初始化网络权重3.8.2 对抗训练3.8.3 K 折数据划分3.8.4 训练过程3.9 主函数1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方原创 2021-08-12 21:31:36 · 424 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--2 数据分析
相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–6 提分方案1 赛题比原创 2021-08-12 15:36:02 · 391 阅读 · 0 评论 -
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析
目录1 相关信息2 总结2.1 TextCNN、Fasttext等DL方案2.2 机器学习LGB方案2.2 Bert方案3 继续提分点1 相关信息【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–2 数据分析【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–3 TextCNN Fasttext 方案【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案【NLP】讯飞英文学术原创 2021-08-12 14:52:29 · 625 阅读 · 0 评论 -
【NLP】from glove import Glove的使用、模型保存和加载
1 引言不要被stackflow的上的一个的回答所误导。2 使用方法举例# 语料sentense = [['你', '是', '谁'], ['我', '是', '中国人']]corpus_model = Corpus()# 训练语料corpus_model.fit(sentense, window=10)# 保存语料corpus_model.save('corpus.model')# 架子语料corpus_model = Corpus.load('corpus.model')pri原创 2021-08-09 14:09:38 · 789 阅读 · 3 评论 -
【Python】解决Can‘t find model ‘en‘. It doesn‘t seem to be a shortcut link, a Python package or a valid
问题在使用以下代码时,报错Can’t find model ‘en’. It doesn’t seem to be a shortcut link, a Python package or a valid path to a data directory.import spacyNLP = spacy.load('en')解决办法没有下载模型(1)方法一pip install spacy && python -m spacy download en使用方式import原创 2021-07-20 15:47:35 · 1262 阅读 · 0 评论 -
【NLP】gensim保存存储和加载fasttext词向量模型
以下举例训练小的语料库的方法,大的语料库,训练词向量操作流程不一样参考https://radimrehurek.com/gensim/models/fasttext.htmlfrom gensim.models import FastTextfrom gensim.test.utils import get_tmpfilefrom gensim.test.utils import common_texts # 内置一些例子print(common_texts[0])# ['human', '原创 2021-07-18 16:22:13 · 1282 阅读 · 1 评论 -
机器学习中label如何实现多标签编码?
实现如果总共有5类,并标记为0-4当一个label有1,2两个标签时,执行如下array([[0, 0, 1, 1, 0]])当一个label有0 2 3 4标签时,执行如下原创 2021-02-24 14:32:13 · 2314 阅读 · 0 评论 -
【阿里天池-医学影像报告异常检测】1 数据分析和探索
目录1 赛题2 数据分析2.1 读取数据2.2 统计词数2.3 统计词频2.4 统计句子长度2.5 label类别分布2.6 正负样本分布2.7 缺失值2.8 统计句子最后一个字符词频1 赛题全球人工智能技术创新大赛【赛道一】-官方赛道地址2021年赛道一:医学影像报告异常检测2 数据分析2.1 读取数据import numpy as npimport pandas as pdimport tensorflow as tfimport matplotlib.pyplot as pltpl原创 2021-02-23 23:05:42 · 871 阅读 · 1 评论 -
【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总
目录引言1 textCNN or Bert1.1 简介1.2 textcnn1.3 bert2 Bert2.1 简介2.2 文件说明3 LSTM or CNN or Transformer3.1 简介3.2 模型得分4 多模型融合4.1 简介4.2 模型得分5 TextRNN引言赛题参考【NLP-新闻文本分类】1 数据分析和探索1 textCNN or Bert1.1 简介(1)环境tensorflow 1.xpytorch(2)作者博客和github天池博客分享Github源码1.原创 2021-02-20 22:21:08 · 3408 阅读 · 1 评论 -
【NLP-新闻文本分类】3 Bert模型的对抗训练
目录1 引言2 步骤2.1 数据集预处理2.2 用预处理后的数据集训练Bert的语料库2.3 加载语料库和字典后用原始数据训练Bert模型2.4 模型测试1 引言(1)文章汇总【NLP-新闻文本分类】1 数据分析和探索【NLP-新闻文本分类】2特征工程(2) 基本内容Bert模型很特殊,没有特征工程步骤,直接对数据集产生语料库和词典后,就用来预训练bert模型当前模型源码地址环境Tensorflow == 1.14.0Keras == 2.3.1bert4keras == 0.8原创 2021-02-20 18:10:26 · 1682 阅读 · 1 评论 -
【NLP-新闻文本分类】2特征工程
赛题来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。【NLP-新闻文本分类】1 数据分析和探索1 引言特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征提取、特征处理、特征选择和特征监控。特征工程的重要性一句话体现:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个极限而已”特征工程的处理流程首先是去掉无用特征,接着去除冗余的特征,如共线原创 2021-02-19 18:10:55 · 724 阅读 · 0 评论 -
【NLP-新闻文本分类】1 数据分析和探索
赛题介绍零基础入门NLP - 新闻文本分类赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。处理后的赛题训练数据如下:labeltext原创 2021-02-19 10:59:44 · 1483 阅读 · 1 评论 -
【NLP】深度学习的NLP文本分类常用模型
目录1 FastText1.1 相关资料1.2 介绍2 TextCNN2.1 相关资料2.2 介绍3 DPCNN3.1 相关资料3.2 介绍4 TextRCNN4.1 相关资料4.2 介绍5 TextBiLSTM+Attention5.1 相关资料5.2 介绍6 HAN6.1 相关资料6.2 介绍7 Bert7.1 相关资料7.2 介绍8 封装的源码汇总1 FastText1.1 相关资料论文:《Bag of Tricks for Efficient Text Classification》Ker原创 2021-02-18 22:09:28 · 6022 阅读 · 0 评论