自然语言处理
文章平均质量分 94
Doooo19
争取做一个日更的小仙女呀,转zhihu啦
展开
-
论文阅读【自然语言处理-预训练模型3】XLM-R:Unsupervised cross-lingual representation learning at scale
本文表明,大规模预训练多语言语言模型可以显着提高各种跨语言迁移任务的性能。我们使用超过 2 TB 的过滤 CommonCrawl 数据,在一百种语言上训练基于 Transformer 的屏蔽语言模型。原创 2023-05-12 15:17:12 · 1279 阅读 · 2 评论 -
论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation
我们介绍了 BART,一种用于预训练序列到序列模型的去噪自动编码器。BART 通过 (1) 使用任意噪声函数破坏文本,以及 (2) 学习模型来重建原始文本进行训练。它使用标准的基于 Tranformer 的神经机器翻译架构,尽管它很简单,但可以看作是对 BERT(由于双向编码器)、GPT(具有从左到右的解码器)和许多其他更新预训练计划。我们评估了许多噪声方法,通过随机打乱原始句子的顺序和使用新颖的填充方案找到最佳性能,其中文本跨度被替换为单个掩码标记。原创 2023-05-11 09:48:18 · 1752 阅读 · 0 评论 -
论文阅读【自然语言处理-预训练模型】XML:Crosslingual language model pretraining
最近的研究证明了生成式预训练对英语自然语言理解的有效性。在这项工作中,我们将这种方法扩展到多种语言,并展示了跨语言预训练的有效性。我们提出了两种学习跨语言语言模型 (XLM) 的方法:一种是仅依赖单语言数据的无监督方法,另一种是利用具有新的跨语言语言模型目标的并行数据的监督方法。我们在跨语言分类、无监督和监督机器翻译方面获得了最先进的结果。原创 2023-05-09 17:07:17 · 628 阅读 · 0 评论 -
【论文阅读】命名实体识别文献综述
命名实体识别 (NER) 是从属于预定义语义类型(如人、位置、组织等)的文本中识别刚性指示符的任务。NER 一直是许多自然语言应用的基础,如问答、文本摘要和机器翻译。早期的 NER 系统在以设计特定领域的特征和规则的人工工程成本实现良好性能方面取得了巨大成功。近年来,深度学习通过非线性处理得到连续实值向量表示和语义组合的支持,已被用于 NER 系统,产生了最先进的性能。在本文中,我们全面回顾了现有的 NER 深度学习技术。我们首先介绍 NER 资源,包括带标签的 NER 语料库和现成的 NER 工具。翻译 2023-03-08 10:03:30 · 1208 阅读 · 3 评论 -
关于文本分类的调查:从浅层到深层学习
文本分类是自然语言处理中最基本和最重要的任务。由于深度学习取得了空前的成功,在过去十年中,该领域的研究激增。文献中提出了许多方法、数据集和评估指标,提出了对全面和更新调查的需求。本文通过回顾 1961 年至 2020 年最先进的方法填补了空白,重点关注从浅层到深度学习的模型。我们根据涉及的文本和用于特征提取和分类的模型创建文本分类的分类法。然后我们详细讨论这些类别中的每一个,处理支持预测测试的技术发展和基准数据集。本次调查还提供了不同技术之间的综合比较,以及确定各种评估指标的优缺点。最后,我们总结了关键影响翻译 2022-11-28 01:17:49 · 1402 阅读 · 3 评论 -
NLP到Word2Vec实战——第三四课
文章目录Word2Vec应用案例以及Fasttext一、文本情感分析(英文&&中文)二、Fasttext1.模型意义2.模型改进(1)加入N-gram(2)kernel Trick与Hashing trick(3)哈夫曼树霍夫曼树Word2Vec应用案例以及Fasttext一、文本情感分析(英文&&中文)1.基本的文本预处理技术 (网页解析,文本抽取,正则表达式等)#下载停用词nltk.download('stopwords')eng_stopwords = se原创 2022-01-17 17:29:52 · 319 阅读 · 0 评论 -
NLP到Word2Vec实现-第二课
文章目录词向量到word2vec与相关应用一、NLP常见任务1.自动摘要2.指代消解3.机器翻译4.词性标注5.分词6.主题识别7.文本分类二、NLP处理方法1.传统:基于规则2.现代:基于统计机器学习(1)HMM、CRF、SVM、LDA、CNN(2)”规则“隐含在模型参数里3.词编码需要保证词的相似性4.向量空间分布的相似性5.向量空间子结构6.在计算机中表示词(1)离散表示①One-hot表示②Bag of Words1)TF-IDF (Term Frequency - Inverse Document原创 2022-01-17 14:58:01 · 637 阅读 · 0 评论 -
NLP到Word2Vec实战-第一课
文章目录QANLTK一、概述1.定义2.安装NLTK3.安装语料库二、文本处理流程1.Tokenize——长句拆分成小部分2.中英文区别—中文没有空格(1) 中文分词——jieba.cut()——一般要与''.join()连用3.处理特殊的字符串、表情符等——特殊符号的分词工具:re4.词形归一化(1)Stemming 词⼲提取**PorterStemmer/SnowballStemmer/LancasterStemmer**(2)Lemmatization 词形归⼀ **WordNetLemmatizer原创 2022-01-17 10:40:12 · 1001 阅读 · 0 评论 -
NLP-自然语言处理-文本分类-总结-Tensorflow2.0版
自然语言处理(NLP)文本分类总结(基础概念+机器学习模型+深度学习模型)简要代码实现方法TensorFlow版本原创 2022-01-09 14:36:48 · 5209 阅读 · 0 评论