自然语言处理
文章平均质量分 75
夜空霓虹
记录自己软件开发中遇到的和解决的问题
展开
-
QAConv:信息性对话的问答
This paper introduces QAConv1 , a new question answering (QA) dataset that uses conversations as a knowledge source. We focus on informative conversations including business emails, panel discussions, and work channels. Unlike open domain and task-oriented原创 2022-07-04 21:49:44 · 561 阅读 · 1 评论 -
1.7使用Word Embedding实现中文自动摘要《深入浅出Embedding》
本节通过一个实例讲解如何使用Word Embedding实现中文自动摘要,这里使用Gensim中的word2vec模型来生成Word Embedding.1.7.1 背景说明使用Word Embedding方法提取关键字,主要步骤如下:1)导入一个中文语料库2)基于这个中文语料库,搭建word2vec模型,训练得到各单词词向量3)导入一个文档,包括各主题及其概要描述信息,预处理该文档,并转换为词向量4)用聚类的方法,生成各主题的若干个关键词1.7.2 预处理中文语料库利用ji原创 2022-02-28 09:19:58 · 905 阅读 · 0 评论 -
《深入浅出Embedding--原理解析与应用实践》第一章 万物皆可嵌入--读书笔记2
1.3.2 Airbnb推荐系统使用Item Embedding中介平台:短租房客户输入地点、价位、关键词等Airbnb搜索推荐列表Airbnb如何体恒推荐列表的质量?论文:Real-time Personalization using Embedding for Search Ranking at Airbnb.提出了两种通过Embedding分别捕获用户的短期兴趣和长期兴趣的方法,即利用用户点击会话(click session)和预定会话(booking session)序列。原创 2022-02-26 16:58:53 · 1251 阅读 · 0 评论 -
论文阅读-2022.1.7-Don’t be Contradicted with Anything CI-ToD: Towards Benchmarking Consistency for Task
Title:Don’t be Contradicted with Anything! CI-ToD: Towards Benchmarking Consistency for Task-oriented Dialogue System题目:不要与任何事物相矛盾!CI-ToD:面向任务的对话系统的基准一致性AbstractConsistency Identification has obtained remarkable success on open-domain dialogue, which原创 2022-01-08 20:31:10 · 760 阅读 · 0 评论 -
论文阅读-2022.1.2-A Neural Network Approach for_2016_一种用于知识驱动响应生成的神经网络方法
摘要We present a novel response generation system.我们提出了一种新颖的响应生成系统。The system assumes the hypothesis that participants in a conversation base their response not only on previous dialog utterances but also on their background knowledge.系统假设对话的参与者不仅基于先前的原创 2022-01-02 21:44:16 · 1493 阅读 · 0 评论 -
用哈佛图书馆的图片激励2022的自己
原创 2022-01-02 20:01:32 · 307 阅读 · 0 评论 -
知识驱动的中文多轮对话数据集
一、介绍a)研究背景背景知识对对话系统至关重要,有两大类主要应用:1) 搜索和问答类型的场景;2) 自然语言理解类的场景。对于任务导向对话系统,背景知识一般被定义为槽值对,为问答和推荐提供了必要的信息;对于开放域对话系统,它有助于生成更具有信息量和吸引力的回复;从形态上来说,背景知识可以划分成结构化知识图谱或非结构化文本。现有的带有外部知识的开放域对话语料中,根据收集方式的不同,大致可以分为两个类别:利用现有的对话数据集,根据上下文标注相关的外部知识:▪常用的标注方法有:转载 2021-12-24 23:13:27 · 1095 阅读 · 0 评论 -
对话模型,DialogBERT和DialogWAE优势何在?
转载自:对话模型,DialogBERT和DialogWAE优势何在? - 知乎 (zhihu.com)多轮对话生成一直是一项典型的NLP应用,并且在众多任务上取得成功。多轮对话问题一直面临两大挑战,即如何准确地学习对话历史的向量表示,以及如何更好地学习应答与历史之间的关系,以保证对话的连贯性。围绕这两大主题,讲者分别提出一种针对多轮对话生成的预训练模型DialogBERT和多模态应答生成模型DialogWAE,前者采用层次化BERT构建句子级的连贯关系,并提出两种预训练方法:掩藏句编码回归和分布式句转载 2021-12-24 20:55:17 · 442 阅读 · 0 评论 -
EVA-中文开放域对话预训练模型
EVA 是目前最大的中文开放域对话预训练模型,拥有28亿参数,在 WDC-Dialogue 上预训练而成。该数据包含14亿个多领域的上文-回复对。实验表明 EVA 在自动指标和人工指标上都超越了现在其他的中文预训练对话模型。官网:智源开源开放平台 (wudaoai.cn)github:GitHub - BAAI-WuDao/EVAPaper link:https://arxiv.org/abs/2108.01547.2 DatasetWe construct a dataset .原创 2021-12-24 20:27:35 · 3463 阅读 · 0 评论 -
2021 AI技术盘点:预训练模型5大进展
转载自:2021 AI技术盘点:预训练模型5大进展转载 2021-12-24 20:10:28 · 1672 阅读 · 0 评论 -
哈工大教授车万翔:基于迁移学习的任务型对话系统
一、人机对话历史溯源人机对话的历史,最早可以追溯到图灵测试。1950年,图灵提出检测一个机器是否具备智能的方法,就是和机器进行对话,如果能欺骗人、让其分辨不出交谈的对象是机器还是人,就说明机器已经具备了智能。尽管人机对话作为人机交互的一个重要研究方向存在已久,但并未进入公众视野或真正普及,主要是因为当时对话方式的交互还十分困难、准确率不高。随着2011年Siri的研发,乔布斯把人机对话正式推向公众,然而技术并不成熟。幸而随着深度学习技术的蓬勃发展,人机对话准确率越来越高,如今通过手机等移动终端以语音转载 2021-12-24 17:47:30 · 365 阅读 · 0 评论 -
对话系统数据集--CrossWOZ
基本概念什么是对话?我:你好! 机器人:你也好!多轮对话呢?我:你好! 机器人:你也好! 我:吃饭了伐? 机器人:当然没有(来回好几回合)任务导向多轮对话呢?我:帮我订一张机票! 机器人:哪里呢? 我:北京的。 机器人:订好了。(不是闲聊,有目的性的对话)跨领域任务导向多轮对话呢?我:帮我订一张机票! 机器人:哪里呢? 我:北京的。 机器人:订好了。 我:再在附近订个五星酒店。 机器人:北京饭店你看可以吗? (用户有两个以上目的(订机票和酒店)要通原创 2021-12-24 14:31:13 · 2465 阅读 · 0 评论 -
《开放型对话技术研究综述》论文阅读
摘要开放型对话是对话系统的一个重要分支,有着极强的应用前景。它不同于任务型对话,具有较强的随机性和不确定性。该文从回复方式驱动对话技术发展这个角度切入﹐进行开放型对话技术发展过程的梳理﹐紧扣序列到序列及其改良模型在对话生成场景中应用的这条主要线索﹐对开放型对话的关键技术进行了探讨和研究。上述研究勾画出了从单轮对话到多轮对话发展的主要研究主线。为进一步探索对话技术发展的内在规律和发展趋势,通过研究发现,基于序列到序列的生成模型在面向多轮对话生成的任务场景时﹐显现出模型实现特点和应用场景不完全匹配的问题。因原创 2021-12-22 21:15:37 · 737 阅读 · 0 评论 -
【AI TIME PhD】复杂场景下的机器阅读理解 | 清华大学林衍凯博士(2020年3月6日)
随着PLM模型提出,SQuad上的performance已经很高了。原创 2021-12-09 16:37:33 · 618 阅读 · 0 评论 -
在NLP项目中使用Hugging Face的Datasets 库
数据科学是关于数据的。网络上有各种来源可以为您的数据分析或机器学习项目获取数据。最受欢迎的来源之一是 Kaggle,我相信我们每个人都必须在我们的数据旅程中使用它。最近,我遇到了一个新的来源来为我的 NLP 项目获取数据,我很想谈谈它。这是 Hugging Face 的数据集库,一个快速高效的库,可以轻松共享和加载数据集和评估指标。因此,如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据,那么 Hugging Face 就是您的最佳选择。Hugging Face 是自然语言处理 ..转载 2021-12-09 09:30:02 · 781 阅读 · 0 评论 -
conda使用
conda 查看已安装的包查看当前环境:conda info -e原创 2021-12-08 21:23:39 · 972 阅读 · 0 评论 -
OpenPrompt:An Open-Source Framework for Prompt-learning
链接:GitHub - thunlp/OpenPrompt: An Open-Source Framework for Prompt-Learning.OverviewPrompt-learningis the latest paradigm to adapt pre-trained language models (PLMs) to downstream NLP tasks, which modifies the input text with a textual template and di.原创 2021-12-08 20:57:15 · 3896 阅读 · 0 评论 -
latex公式积累
1.x^{\prime}2.f_{\text {prompt}}(x)3.\hat{z}4.原创 2021-12-08 11:24:56 · 369 阅读 · 0 评论 -
Prompt tuning
来自:《Prompt Tuning 近期研究进展 - 知乎 (zhihu.com)》1.更为普适的Prompt tuning《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》摘要: Prompt tuning,冻结预训练的语言模型只微调连续的提示部分,大大减少了训练时每个任务的存储和内存使用。然而,在 NLU 的背景下,先前的工作和结果表明,现有的即时调转载 2021-12-08 10:19:22 · 3586 阅读 · 1 评论 -
On Transferability of Prompt Tuningfor Natural Language Understanding--关于自然语言理解的即时调优的可转移性
Abstract原创 2021-12-08 11:25:05 · 209 阅读 · 0 评论 -
NLP中的机器学习
对问题进行形式化:文本(文本预处理、文本表示、重新加权、降维、向量对比、机器学习算法)文本表示分布式词表示:降维:自编码器:嵌入:使用嵌入向量:深度表示学习:长序列怎么样?...原创 2021-12-04 17:55:20 · 344 阅读 · 0 评论 -
A Relation-Oriented Clustering Method for Open Relation Extraction
1.AbstractThe clustering-based unsupervised relation discovery method has gradually become one of the important methods of open relation extraction (OpenRE).基于聚类的无监督关系发现方法逐渐成为开放关系抽取(OpenRE)的重要方法之一。However, high-dimensional vectors can encode complex l.原创 2021-11-21 12:09:21 · 571 阅读 · 0 评论 -
MIML学习
Z.-H. Zhou and M.-L. Zhang. Multi-instance multi-label learning with application to scene classification. In: Advances in Neural Information Processing Systems 19 (NIPS’06) (Vancouver, Canada), B. Schölkopf, J. C. Platt, and T. Hofmann, eds. Cambridge, MA:原创 2021-11-14 17:43:31 · 1386 阅读 · 0 评论 -
Multi-instance Multi-label Learning for Relation Extraction-2012
AbstractDistant supervision for relation extraction (RE) – gathering training data by aligning a database of facts with text – is an efficient approach to scale RE to thousands of different relations. However, this introduces a challeng ing learning scen原创 2021-11-14 15:43:08 · 534 阅读 · 0 评论 -
Jo-SRC: A Contrastive Approach for Combating Noisy Labels
Jo-SRC:一种对抗噪声标签的对比方法AbstractDue to the memorization effect in Deep Neural Networks (DNNs), training with noisy labels usually results in inferior model performance.由于深度神经网络 (DNN) 的记忆效应,使用嘈杂标签进行训练通常会导致模型性能较差。Existing state-of-the-art methods primaril.原创 2021-11-12 11:34:52 · 832 阅读 · 0 评论 -
SENT:Sentence-level Distant Relation Extraction via Negtive Training-ACL2021
AbstractDistant supervision for relation extraction provides uniform bag labels for each sentence inside the bag. 关系提取的远程监督为袋子内的每个句子提供统一的袋子标签,而准确的句子标签对于需要确切关系类型的下游应用程序很重要。Directly using bag labels for sentence-level training will introduce much noise,原创 2021-11-11 12:27:21 · 1933 阅读 · 1 评论 -
《面向对话的融入交互信息的实体关系抽取》--中文信息学报
实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战性。依据对话的特点,该文提出了融入对话交互信息的实体关系抽取方法,通过交叉注意力机制获取对话交互信息,提升性能,并结合多任务学习来解决语料库数据分布不均衡的问题。0 引言实体关系抽取旨在从非结构化文本中获取原创 2021-11-07 12:18:13 · 681 阅读 · 0 评论 -
《“语义网--本体知识--知识图谱“和语言研究》袁毓林、曹宏
语义网、本体知识、知识图谱语言学知识可以在网络文本的信息处理中发挥作用,从而展示语言学研究可能的应用领域。一、改善网络信息获取的两种途径(1)更好的信息检索技术,更加便捷的检索系统---更加智能的基于语义的搜索引擎不断改进钓鱼的鱼钩、鱼竿或鱼线,甚至鱼饵(2)让Web本身更加聪明、更加智能为Web上的资源附加上计算机可以理解的内容,便于计算机更好地处理。也就是给出一种计算机能够理解的表示网页等资源的语义内容,如架设语义网(Semantic Web)这种网络基础结构(infra原创 2021-11-06 14:48:36 · 701 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第三章 PyTorch基础
现代深度学习系统的模型结构变得越来越复杂,若要从头开始则极其耗时耗力,而且非常容易出错。幸好,看似纷繁复杂的深度学习模型,都可以分解为一些同构的简单网络结构,通过将这些简单网络结构连接在一起,就可构成复杂的模型。因此,很多深度学习库应运而生,它们可以帮助用户快速搭建一个深度学习模型,并完成模型的训练(也称学习或优化)、预测和部署等功能。本书使用的是PyTorch开源深度学习库,它由Facebook人工智能研究院(Facebook's AI Research,FAIR)于2017年推出,可以使用Pytho原创 2021-11-04 17:54:58 · 860 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第三章 LTP工具集
之前介绍的工具集主要用于英文的处理,而以中文为代表的汉藏语系与以英语为代表的印欧语系不同,一个显著的区别在于词语之间不存在明显的分隔符,句子一般是由一串连续的字符构成,因此在处理中文时,需要使用更有针对性的分析工具。语言技术平台(Language Technology Platform,LTP)是哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、分词标注和命名实体识别)、句法分析(依存句法分析)和语义分原创 2021-11-04 16:07:23 · 617 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第三章 NLTK工具集
NLTK(Natural Language Toolkit)是一个Python模块,提供了多种语料库(Corpora)和词典(Lexicon)资源,如WordNet等,以及一系列基本的自然语言处理工具,包括:分句,标记解析(Tokenization)、词干提取(Stemming)、词性标注(POS Tagging)和句法分析(Syntactic Parsing)等,是对英文文本数据进行处理的常用工具。为了使用NLTK,需要对其进行安装,可以使用pip包管理工具安装,具体方法为:pip install原创 2021-11-04 11:51:17 · 1133 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第七章 预训练语言模型-BERT
BERT(Bidirectional Encoder Representation from Transformers)是由Devlin等人在2018年提出的基于深层Transformer的预训练语言模型。BERT不仅充分利用了大规模无标注文本来挖掘其中丰富的语义信息,同时还进一步加深了自然语言处理模型的深度。这一节将着重介绍BERT的建模方法,其中包括两个基本的预训练任务以及两个进阶预训练任务。最后,介绍如何利用BERT在四类典型的自然语言处理任务上快速搭建相应的模型,并结合代码进行实战。1.整体原创 2021-11-02 10:29:10 · 885 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第四章 自然语言处理中的神经网络基础--多层感知器
之前介绍的模型本质上都是线性模型,然而现实世界中很多真实的问题不都是线性可分的,即无法使用一条直线、平面或者超平面分割不同的类别,其中典型的例子是异或问题(Exclusive OR,XOR),即假设输入为和,如果它们相同,即当、或、时,输出;如果它们不相同,即当、或、时,输出。此时,无法使用线性分类器恰当地将输入划分到正确的类别。多层感知器(Multi-layer Perceptron,MLP)是解决线性不可分问题的一种解决方案。多层感知器指的是堆叠多层线性分类器,并在中间层(也叫隐含层,.原创 2021-10-31 21:42:39 · 821 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第四章 自然语言处理中的神经网络基础--神经网络模型的训练
以上章节介绍了自然语言处理中几种常用的神经网络(深度学习)模型,其中每种模型内部都包含大量的参数,如何恰当地设置这些参数是决定模型准确率的关键,而寻找一组优化参数的过程又叫作模型训练或学习。1.损失函数为了评估一组参数的好坏,需要有一个准则,在机器学习中,又被称为损失函数(Loss Function)(无法直接使用准确率等指标评估,因为这些指标对于参数的微小变化有可能不敏感(导数过小)或过于敏感(不可导)从而无法对参数优化)简单来讲,损失函数用于衡量在训练数据集上模型的输出与真实输出之间的差原创 2021-10-31 17:57:16 · 439 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第四章 自然语言处理中的神经网络基础--注意力模型
1.注意力机制为了解决序列到序列模型记忆长序列能力不足的问题,一个直观的想法是,当要生成一个目标语言单词时,不光考虑前一个时刻的状态和已经生成的单词,还考虑当前要生成的单词和源语言句子中哪些单词更相关,即更关注源语言的哪些词,这种做法就叫作注意力机制(Attention mechanism)图4-14是一个示例,假设模型已经生成单词“我”后,要生成下一个单词,显然和源语言“love”关系最大,因此将源语言中“love”对应的状态乘以一个较大的权重,如0.6,而其余词的权重则较小,最终将源语言句.原创 2021-10-29 17:38:28 · 1204 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第四章 自然语言处理中的神经网络基础--读书笔记
多层感知器模型1.感知器感知器(Perceptron)是最简单也是最早出现的机器学习模型,其灵感直接来源于生产生活的实践。例如,在公司面试时,经常由多位面试官对一位面试者打分,最终将多位面试官的打分求和,如果分数超过一定的阈值,则录用该面试者,否则不予录取。假设有n位面试官,每人的打分分别为,则总分,如果,则给与录取,其中被称为阈值,被称为输入,可以使用向量表示,然而,在这些面试官中,有一些经验比较丰富,而有一些是刚入门的新手,如果简单地将它们的打分进行相加,最终的得分显然不够客观,因此可以通过对面原创 2021-10-29 11:42:49 · 197 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第七章 预训练语言模型-GPT
OpenAI公司在2018年提出了一种生成式预训练(Generative Pre-Training,GPT)模型,用来提升自然语言理解任务的效果,正式将自然语言处理带入“预训练”时代。“预训练”时代意味着利用更大的规模的文本数据以及更深层的神经网络模型学习更丰富的文本语义表示。GPT的出现打破了自然语言处理各个任务之间的壁垒,使得搭建一个面向特定任务的自然语言处理模型不再需要了解非常多的任务背景,只需要根据任务的输入输出形式应用这些预训练语言模型,就能够达到一个不错的效果。因此,GPT提出了“生..原创 2021-10-28 20:13:58 · 1126 阅读 · 0 评论 -
《自然语言处理:基于预训练模型的方法》第七章 预训练语言模型
预训练模型并不是自然语言处理领域的“首创”技术。在计算机视觉领域,通常会使用ImageNet进行一次预训练,让模型从海量图像中充分学习如何从图像中提取特征。然后,会根据具体的任务目标,使用相应的领域数据精调,使模型进一步“靠近”目标任务的应用场景,起到领域适配和任务适配的作用。预训练语言模型广义上,泛指提前经过大规模数据训练的语言模型,包括早期的以Word2vec、Glove为代表的静态词向量模型,以及基于上下文建模的CoVe,ELMo等动态词向量模型。在2018年,以GPT和BERT为代表的基原创 2021-10-28 19:24:03 · 1094 阅读 · 0 评论 -
《自然语言处理--基于预训练模型的方法》第二章 自然语言处理基础 读书笔记
2.1 文本的表示文本:在计算机内部的存储和计算问题。用字符串表示:本质上是一个整数。编辑距离等算法计算两个字符串之间的字面相似度。但,在使用字符串表示(也叫符号表示)计算文本的语义信息,往往需要使用基于规则的方法。(基于规则的方法的问题:规则的归纳依赖专家的经验,规则的表达能力有限,规则之间可能存在矛盾和冲突的情况,导致最后无法做出决策)针对基于规则的这些问题,提出基于机器学习的自然语言处理技术,最本质的思想:将文本表示为向量,其中的每一维代表一个特征。-----文本向量表原创 2021-10-23 20:13:29 · 245 阅读 · 0 评论 -
《自然语言处理--基于预训练模型的方法》第一章读书笔记
按研究对象:形式语义推理语用分析理性主义/经验主义经验主义:基于统计模型/深度学习模型/最新的预训练模型的三个阶段“新范式”:预训练+精调1.1 自然语言处理的概念自然语言通常指的是人类语言(本文特指文本符号,而非语音信号),是人类思维的载体和交流的基本工具,也是人类区别于动物的根本标志,更是人类智能发展的外在体现形式之一。NLP:理解,生成计算语言学,Computational Linguistics,CL人工智能:运算智能--机器的基础运算,存储...原创 2021-10-23 13:32:28 · 948 阅读 · 1 评论