NLP
文章平均质量分 67
AI强仔
人工智能爱好者、机器人爱好者
展开
-
ChatGPT: Optimizing Language Models for Dialogue
ChatGPT: Optimizing Language Models for Dialogue。如标题,ChatGPT为了对话使用的翻译 2022-12-16 15:22:30 · 2985 阅读 · 0 评论 -
InstructGPT:chatGPT的姊妹模型
InstructGPT:chatGPT的姊妹模型翻译 2022-12-15 17:44:42 · 3098 阅读 · 0 评论 -
GPT-3论文翻译总结
GPT-3的 Few-Shot (FS)、One-Shot (1S)、Zero-Shot (0S)效果接近有时超越fine-tune模型的效果。翻译 2022-12-10 17:00:45 · 3957 阅读 · 0 评论 -
语音识别VQ-WAV2VEC+BERT
语音识别VQ-WAV2VEC+BERT翻译 2022-11-13 21:55:32 · 849 阅读 · 0 评论 -
大模型如transformers的提高训练速度,减少内存使用的方法
大模型如transformers的提高训练速度,减少内存使用的方法翻译 2022-09-30 22:18:14 · 1920 阅读 · 0 评论 -
DistilBERT, a distilled version of BERT
DistilBERT:预训练模型。将BERT模型大小减少40%,却仍保持97%的语言理解能力,以及快了60%。翻译 2022-07-14 17:57:39 · 335 阅读 · 0 评论 -
对话机器人RASA结构和相关知识点
rasa知识点原创 2022-07-13 13:55:22 · 953 阅读 · 0 评论 -
大模型的压缩/微调方法
大模型微调原创 2022-06-30 10:36:56 · 2860 阅读 · 0 评论 -
rasa 对话机器人初体验
rasa 对话机器人demo原创 2022-06-20 15:00:03 · 504 阅读 · 0 评论 -
文本分类的方法
1 TFIDF+树模型:树模型:xgboost、lightgbm、catboost除了tfidf等,也可以加入其他特征2 词向量+神经网络词向量:doc2vec、embedding等神经网络有:TextCNN :卷积神经网络LSTMLSTM+Attetnion除了doc2vec等,也可以加入其他特征,如tfidf3 BERT+finetune微调...原创 2022-05-22 21:11:14 · 549 阅读 · 4 评论 -
转载:GlobalPointer:用统一的方式处理嵌套和非嵌套NER
一种NER的新设计GlobalPointer,它基于全局指针的思想,实现了用统一的方式处理嵌套和非嵌套NER的“理想设计”。实验结果显示,在非嵌套的情形下它能取得媲美CRF的效果,而在嵌套情形它也有不错的效果。GlobalPointer事实上就是Multi-Head Attention的一个简化版而已,有多少种实体就对应多少个head,相比Multi-Head Attention去掉了V相关的运算。加不加相对位置信息,效果可以相差30个百分点以上!加了旋转式位置编码(RoPE)。损失函数:《将“sof转载 2022-05-18 16:25:42 · 497 阅读 · 3 评论 -
fastText-文本分类
1 简介本文根据2016年《Bag of Tricks for Efficient Text Classification》翻译总结的。主要写了fastText, fast text classifier。fastText使用一个多核CPU在10分钟内可以训练十亿单词。可以在1分钟内将50万句子分类为312K个类别。一个简单有效的句子分类模型是将句子表示成BoW(bag of words),然后训练一个线性分类器,如逻辑回归、SVM。但是,线性分类器不在特征和类别之间共享参数,这可能限制了他们的泛化能力翻译 2022-05-11 16:35:05 · 1118 阅读 · 0 评论 -
TextCNN --采用预训练的word vector加CNN,进行文本分类
1 简介本文根据2014年Yoon Kim 《Convolutional Neural Networks for Sentence Classification》翻译总结的。Text CNN 模型采用预训练的word vector加CNN(Convolutional Neural Networks)。也证明了预训练的word vectoc 在NLP任务中起重要的作用。2 模型上图是两个channel(模型输入两组word vector,一组不进行backpropagated,一组进行backpro翻译 2022-04-23 11:45:23 · 503 阅读 · 0 评论 -
BERT embedding 降维--BERT whitening
利用BERT whitening可以将embedding 比如768维降到256维def compute_kernel_bias(vecs, n_components=256): """计算kernel和bias vecs.shape = [num_samples, embedding_size], 最后的变换:y = (x + bias).dot(kernel) """ mu = vecs.mean(axis=0, keepdims=True) cov =原创 2022-04-12 21:55:44 · 2536 阅读 · 5 评论 -
Doc2Vec、Paragraph Vector介绍
doc2vec、Paragraph Vector克服了word vector的两个缺点,一是使“powerful”相比“Paris”更靠近“strong”,二是考虑了单词顺序,至少在小的上下文中。翻译 2022-03-16 18:09:19 · 573 阅读 · 0 评论 -
Drain:在线实时日志解析方法
Drain是一个在线实时日志解析方法,其采用的是固定长度的树模型翻译 2022-03-10 14:39:32 · 2435 阅读 · 0 评论 -
TF-IDF与TfidfVectorizer
TF-IDF、CountVectorizer 、TfidfVectorizer原创 2022-03-09 10:52:07 · 6792 阅读 · 0 评论 -
特征式匹配与交互式匹配
一般来说,文本匹配有交互式(Interaction-based)和特征式(Representation-based)两种实现方案,其中交互式是指将两个文本拼接在一起当成单文本进行分类,而特征式则是指两个句子分别由编码器编码为句向量后再做简单的融合处理(算cos值或者接一个浅层网络)。通常的结论是,交互式由于使得两个文本能够进行充分的比较,所以它准确性通常较好,但明显的缺点是在检索场景的效率较差;而特征式则可以提前计算并缓存好句向量,所以它有着较高的效率,但由于句子间的交互程度较浅,所以通常效果不如交互式。转载 2022-01-24 14:10:58 · 643 阅读 · 0 评论 -
pattern-exploiting training (PET)--Few-Shot Learners
1 简介本文根据2021年《It’s Not Just Size That Matters:Small Language Models Are Also Few-Shot Learners》翻译总结的。GPT-3有1750亿的参数,它拥有惊人的小样本学习(few-shot)能力。而本文主要讲另一种方式,pattern-exploiting training (PET),模式开发训练。是将文本输入转化成完形填空(cloze)问题。所需参数很少。同时本文提出了PET的一个简单有效的修改版,支持预测多个t翻译 2022-01-23 21:59:23 · 930 阅读 · 0 评论 -
Longformer: The Long-Document Transformer
1 简介本文根据2020年《Longformer: The Long-Document Transformer》翻译总结的。以前的基于Transformer的模型,不能处理长序列,因为自注意力机制是序列长度的二次方。Longformer的注意力机制是 windowed local-context self-attention 和基于终端任务的global attention的结合。Local attention主要用来构建上下文表达,而global attention用来建立用于预测的全序列表达。2翻译 2022-01-08 23:33:05 · 449 阅读 · 0 评论 -
RNN Encoder–Decoder及GRU(Gate Recurrent Unit)
1 简介本文跟进2014年《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》翻译总结。本文提出了RNN Encoder–Decoder模型。Encoder 将一个可变长度的源序列转化成一个固定长度的向量,Decoder将固定长度的向量再转化成一个可变长度的目标序列。RNN Encoder–Decoder不像以前的模型依赖词频来预测,而是更关注语句的语义和句法特征。翻译 2021-08-18 18:36:55 · 807 阅读 · 0 评论 -
SentAugment:Self-training数据增强用于NLP
1 简介本文根据2020年《Self-training Improves Pre-training for Natural Language Understanding》翻译总结。自训练(Self-training)是一种半监督学习方法,使用标注数据训练一个好的teacher模型,然后使用该teacher模型对未标注的数据进行标注,最后使用(标注数据和)非标注数据联合训练一个student模型。本文训练student时没有使用原训练集的标注数据,因为实验发现没有明显的效果提升。本文提出一种数据增强方法翻译 2021-08-16 23:01:11 · 403 阅读 · 0 评论 -
Noisy Student Training:自训练(Self-training)、半监督学习、teacher和student迭代学习
1 简介本文根据2020年《Self-training with Noisy Student improves ImageNet classification》翻译总结。自训练(Self-training)使用标注数据训练一个好的teacher模型,然后使用该teacher模型对未标注的数据进行标注,最后使用标注数据和非标注数据联合训练一个student模型。如下图所示。本文提出的Noisy Student Training扩展了自训练和蒸馏,即(1)使用一个相等或者更大的student 模型,(2翻译 2021-08-11 23:06:40 · 3839 阅读 · 0 评论 -
Augmented SBERT
1 简介句子对评分任务(Pairwise sentence scoring tasks)在NLP上有非常广泛的应用,如信息检索、问答、复制问题检测、聚类等。有两种处理句子对的方法:(1)cross-encoder,两个句子同时输入到网络模型中,对输入句子对采用全注意力方法,如BERT,其有较好的表现力,却在实际场景中运行效率低、开销大。如在n=10000个句子中找到相似的句子对,BERT要进行n*(n-1)/2=49995000次预测计算,在单个V100 GPU上,需要运行65小时。BERT还有个缺点翻译 2021-08-10 23:06:23 · 606 阅读 · 0 评论 -
Sentence-BERT 语句相似性、sentence embeddings
1 简介BERT在语义文本相似任务上需要输入句子对(两个句子),这会引起巨大的计算开销。如在n=10000个句子中找到相似的句子对,BERT要进行n*(n-1)/2=49995000次预测计算,在单个V100 GPU上,需要运行65小时。即BERT的这种结构使其在不适合语义相似搜索任务上,以及聚类这种非监督任务上。本文提出Sentence-BERT(SBERT),预训练BERT的一个修改版本,使用联体或者三元网络结构来获得语义上有意义的sentence embeddings,可以使用cosine-sim翻译 2021-08-08 17:44:31 · 1675 阅读 · 0 评论 -
语言学特征进行可读性评估(Readability Assessment)
1 简介本文根据2020年《Linguistic Features for Readability Assessment》翻译总结。从标题可以看出来是进行可读性评估(Readability Assessment)。可读性评估(Readability Assessment),早期时,如Flesch (1948年),是提取简单的文本特征,像字符数量。Schwarm and Ostendorf (2005年)分析了更广泛的特征,包括out-of-vocabulary scores和语法特征(如average翻译 2021-05-29 11:02:58 · 3207 阅读 · 5 评论 -
SpanBERT
SpanBERT: Improving Pre-training by Representing and Predicting Spans这篇论文的主要贡献有三:1.提出了更好的 Span Mask 方案,也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好;2.通过加入 Span Boundary Objective (SBO) 训练目标,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;3.用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence翻译 2021-04-18 21:50:58 · 303 阅读 · 0 评论 -
SCKKRS-关键词、关键短语提取
1 简介SCKKRS (Self-supervised Contextual Keyword and Keyphrase Retrieval with Self-Labelling)本文根据2019年《Self-supervised Contextual Keyword and Keyphrase Retrieval with Self-Labelling》翻译总结。SCKKRS,通过名称可以看出来,是进行关键词、关键短语提取的。关键词、关键短语提取的方法有统计方法、图方法、语言学方法、机器学习方翻译 2021-04-09 14:42:55 · 820 阅读 · 0 评论 -
华为NEZHA-NLP预训练模型
NEZHA(NEural contextualiZed representation for CHinese lAnguage understanding,面向中文理解的神经语境表征模型,哪吒)。NEZHA相较于BERT有如下改进,前两者是模型改进,后两者是训练优化。:(1)函数式相对位置编码:NEZHA中的函数式相对位置编码,通过使用相对位置的正弦函数计算输出和attention的得分。该想法源于Transformer中使用的函数式绝对位置编码。(2)全词覆盖:在初始的BERT中,每个token或者每转载 2021-04-08 20:14:24 · 2893 阅读 · 0 评论 -
关键短语(keyphrase)提取的模型:BERT-JointKPE
1简介本文根据2020年《Joint Keyphrase Chunking and Salience Ranking with BERT》翻译总结。本文描述了一个关键短语(keyphrase)提取的模型:BERT-JointKPE.KeyPhrase Extraction (KPE)是从一个文档中提取重要的主题短语。有点像命名实体识别,但比命名实体范围更适用,因为提取的某些短语不是实体,但却是有意义的短语。JointKPE 联合采用了两个子网络,一个是分块网络(chunking network)来识翻译 2021-04-08 16:55:23 · 3058 阅读 · 3 评论 -
ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately
1 简介ELECTRA:Efficiently Learning an Encoder that Classifies Token Replacements Accurately.本文根据2020年《ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS》翻译总结。根据标题可以知道ELECTRA更关注识别,而不是生成;像BERT这种其实是生成,从mask的输入预测原始输入。BERT中的MLM预训练方法,需翻译 2021-04-03 13:50:00 · 362 阅读 · 2 评论 -
UDA(Unsupervised Data Augmentation)-半监督学习与数据增强
1 简介当标注好的数据很少时,半监督学习在深度学习模型中有非常好的表现。目前常用的方法是一致性训练,基于大量的非标注数据进行训练来使模型可以应对各种输入噪声(或者隐状态的噪声)。有些方法是来设计各种噪声注入模型进行训练,如附加高斯噪声、dropout、对抗噪声。而UDA(Unsupervised Data Augmentation)是强调这些优秀数据增强方法的使用。不过从名字就可以看出来,UDA是对非标注数据进行数据增强,以前的方法一般是对标注数据增强。本文依据2020年《Unsupervised翻译 2021-03-21 12:40:56 · 9984 阅读 · 4 评论 -
Knowledge distillation-知识蒸馏
1. 简介Knowledge distillation-知识蒸馏(暗知识提取)的概念,通过引入与教师网络(teacher network:复杂、但推理性能优越)相关的软目标(soft-target)作为total loss的一部分,以诱导学生网络(student network:精简、低复杂度)的训练,实现知识迁移(knowledge transfer)。教师网络teacher:高准确率,但模型很大。学生网络student:模型小,可以在有限资源下使用。本文参考2019年《WELL-READ STU翻译 2021-03-07 13:12:15 · 766 阅读 · 0 评论 -
CLUE:中文语言理解测评基准及NLP中文数据集
1 简介CLUE:A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准英语有GLUE、SuperGLUE,各种预训练模型,如BERT在其上进行评估;CLUE类别GLUE,应该是中文第一个大规模的语言评估基准。CLUE:(1)该评估基准覆盖了9种句子分类、机器阅读理解任务,不同的困难水平、不同的大小和形式;(2)提供了一个大的预训练中文语库,214G文本,约760亿中文词语;(3)提供了一个语言学家创建的诊断评估数据集;(4)提翻译 2021-02-24 17:01:06 · 8144 阅读 · 0 评论 -
深度学习模型的中文是否有必要分词
1 简介本文根据2019年《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》翻译总结,即汉语的深度学习是否有必要进行分词。英文因为其天然的用空格分割,不需要分词,而中文是连在一起的,所以存在了分词(Chinese Word Segmentation (CWS))。现在也有很多开源的分词工具。在处理中文文本时,通常第一步是进行分词,但它是否有效很少被探索。我们发现不分词反而比分词效果好。采用分词的翻译 2021-02-21 21:09:37 · 814 阅读 · 0 评论 -
DeBERTa (Decoding-enhanced BERT with disentangled attention)
1 简介DeBERTa (Decoding-enhanced BERT with disentangled attention),如名字所述,有两个技术来改善BERT和RoBERTa,第一个是disentangled attention(解开的注意力),每个单词使用两个向量分别编码文本和位置,在单词们之间的注意力权重是通过使用它们的文本和相对位置的解开矩阵分别进行计算的。第2个技术是使用了一个加强的mask decoder,在decoding层引入绝对位置来预测masked tokens。本文根据202翻译 2021-02-09 22:43:24 · 2810 阅读 · 0 评论 -
各种Transformer模型总结与比较
1 Transformer发展历程Transformer类的模型目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将Transformer分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。1.1 序列到序列模型(seq2seq)seq2seq属于encoder-decoder结构的一种,基本思想就是利用两个RNN,一个RNN作为encoder,另原创 2021-02-08 16:13:28 · 9039 阅读 · 3 评论 -
GPT-2只需要非监督学习
1 简介GPT先是非监督的预训练,然后进行监督训练微调。而GPT-2,是想只需要非监督训练即可,不用再监督训练。本文根据2019《Language Models are Unsupervised Multitask Learners》翻译总结。从标题就可以看出来,作者尝试只使用非监督学习。监督学习是脆弱、敏感的,比如当数据分布稍微改变,或者只针对的某个特定任务。我们本文描述语言模型可以不需要任何监督训练微调(只有预训练的非监督学习),即零调整,包括参数和架构,来应用于下游任务。作者认为语言模型就该是翻译 2021-02-07 22:15:28 · 994 阅读 · 1 评论 -
Global Attention和Local Attention
1 简介本文根据2015年《Effective Approaches to Attention-based Neural Machine Translation》翻译总结。对于翻译任务,第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》,本文是第二篇。本文提出了两种注意力机制,global和local。翻译任务是将源语句翻译成目标语句,其中Glo翻译 2021-02-07 10:59:54 · 1030 阅读 · 0 评论 -
BART: Bidirectional and Auto-Regressive Transformers
1 简介BART: Bidirectional and Auto-Regressive Transformers.本文根据2019年《BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension》翻译总结。BERT是双向encoder,GPT是left-to-right decoder。BART可以说是既有encoder,又有decode翻译 2021-01-31 21:48:15 · 1627 阅读 · 2 评论