自然语言处理
文章平均质量分 78
夕小瑶
最快的AI前沿,最深的行业洞见
展开
-
综述|大模型时代,对话系统的演进和机会,港中大华为联合发布
对话系统的进化,离不开底层语言模型的进化,每一次语言模型的更新,都代表一次计算架构和学习范式的迭代,给对话系统的发展与演变带来了深刻的影响。首先我们观察到原来的任务型对话之间的任务(NLU, DST, DPL, NLG)开始进行融合,从而以一个端到端的视角(End-to-end)去解决任务型对话的问题,其实早在NLM的时候就已经有早期的E2E TOD的出现,但是中间间隔了几年,这个领域都没有得到一个更好的发展,一直到PLM的出现,涌现了一批以SimpleTOD,SOLOIST为代表的E2E TOD。原创 2023-12-19 23:51:58 · 1057 阅读 · 0 评论 -
OpenAI | GPT-3新模型Davinci,将AI写作提升到新水平!网友惊呼:GPT-4要来了?
文 | 王思若20年,OpenAI推出了1750亿参数量的屠榜‘杀器’GPT-3,但基于大模型至今悬而未决的伦理和社会风险以及商业盈利等因素的考量,OpenAI将GPT-3以付费API的形式向公众开放。通过调用GPT-3的API,问答、语义检索、翻译、数学推理、创作小说等诸多玩法被玩家及尽探索。最近,OpenAI推出了最新的文本生成模型:text-davinci-003。为了适配更多任务,Open...原创 2022-12-23 11:15:34 · 3861 阅读 · 0 评论 -
码农创造了AI,但开发AI不再需要码农了
马上就要到一年一度的618大促,卖萌酱在添加购物车时,选择困难症又犯了。如今的电商评论区,大量刷单行为淹没了重要的产品评价,有的被淹没在了追评区,有的平台甚至已经不分好评/中评/差评区了,而是“一眼望去好评如潮”。比如某净水器的评论区,看似只有200条差评,但1.3w条追评、10w条好评中其实隐藏着数不清的差评,这些差评往往可信度极高(毕竟卖家和同行都不会雇水军去好评区写差评)。但如果想从追评和好评区找出这些差评,能找到你眼瞎。于是卖萌酱心生一计,既然评论数量这么多,为啥不自己训练个AI模型来从动辄10万+原创 2022-06-08 17:53:55 · 14428 阅读 · 18 评论 -
ACL2020 | FastBERT:放飞BERT的推理速度
一只小狐狸带你解锁 炼丹术&NLP秘籍FastBERT自从BERT问世以来,大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个...原创 2020-04-09 12:02:05 · 3014 阅读 · 0 评论 -
文本分类实战技巧(tricks)汇总
目录前言关于分词器关于中文字向量如果数据集噪声很严重baseline选用CNN还是RNN?路线沿着CNN还是RNN走?Dropout加在哪里关于二分类关于多标签分类类别不均衡怎么办别太纠结系列还是不会用tricks但是就是想跑出个好结果怎么办前言一年前小夕在知乎上提问过这么一个问题文本分类有哪些论文中很少提及却对性能有重要影响的tri...原创 2020-04-11 21:42:57 · 2721 阅读 · 1 评论 -
NLP史上最全预训练模型汇总
目录一、不同视角下的预训练语言模型对比二、预训练语言模型的基础:特征抽取机制+语言模型的分类三、单向模型回顾+内核机制探究四、BERT内核机制探究五、BERT系列模型进展介绍六、XLNet的内核机制探究参考文献前言在小夕之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径...转载 2020-04-11 21:41:02 · 11349 阅读 · 0 评论 -
NLP预训练模型综述:从word2vec, ELMo到BERT
目录前言word2vec模型负采样char-level与上下文ELMoBERT深层双向的encoding学习句子与句对关系表示简洁到过分的下游任务接口前言还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,...原创 2020-04-11 21:39:07 · 2885 阅读 · 0 评论 -
文本匹配(语义相似度)综述
目录打卡的baseline模型打卡的任务场景和数据集一、相似度计算&复述识别(textual similarity¶phrase identification)二、问答匹配(answer selection)三、对话匹配(response selection)四、自然语言推理/文本蕴含识别(Natural Language Inference/Textual Ent...原创 2020-04-11 21:34:30 · 23419 阅读 · 3 评论 -
one-hot(独热)、bag of word(词袋)、word-Embedding(词嵌入)浅析
目录词袋模型one-hotword-embedding我们知道,传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解,就是很有结构的数据嘛。比如下面这张银行客户数据库中的表格: 编号 姓名 年龄 年收入 职业 有无欠贷 01 ...原创 2020-04-11 21:06:10 · 7639 阅读 · 4 评论 -
Keyword-BERT——问答系统中语义匹配的杀手锏
引子问&答 是人和人之间非常重要的沟通方式,其关键在于:我们要理解对方的问题,并给出他想要的答案。设想这样一个场景,当你的女朋友or老婆大人在七夕前一晚,含情脉脉地跟你说亲爱的,七夕快到了,可以给我换个新手机吗?而此时沉迷王者峡谷的你,也许会不假思索地回答好啊亲爱的~ 昨天刚看到拼多多九块九包邮买一送一可便宜呢~ 多买几个哦一个壳容易坏呀你话音未落,...转载 2020-03-29 17:59:49 · 5443 阅读 · 1 评论 -
以jieba为首的主流分词工具总结
工具篇下面列了几个较为主流的分词工具(排名不分先后,大家自行试用),相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复【中文分词】领取。1 Jieba说到分词工具第一个想到的肯定是家喻户晓的“结巴”中文分词,主要算法是前面讲到的基于统计的最短路径词图切分,近期还内置了百度飞桨的预训练模型+大规模蒸馏的前沿分词模型。github项目地址:https://github.com/fxs...原创 2020-03-22 21:58:50 · 1883 阅读 · 0 评论 -
常用分词算法总结(字典、统计、神经网络)
分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"you"是需要与身后的标点分隔开的目录为什...原创 2020-03-22 21:57:23 · 8278 阅读 · 0 评论 -
ELECTRA模型精讲
还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]:才第五吗?没事,期望越大,失望越大谷歌在github放出的预训练模型效果是这样的:燃!鹅!在论文中声称的效果却是这样的Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子后取了中位数。那么问题...原创 2020-03-22 21:34:43 · 8237 阅读 · 1 评论 -
万字长文,知识图谱构建技术综述
文章来源:丁香大数据前言知识图谱,即一种特殊的语义网络,它利用实体、关系、属性这些基本单位,以符号的形式描述了物理世界中不同的概念和概念之间的相互关系。为什么说知识图谱对于信息检索、推荐系统、问答系统中至关重要,我们用一个例子来说明:假设在一个搜索场景,我们在搜索框中输入坐月子可以洗澡吗?可以看到这句Query是一个完整的问句,如果在检索系统中有一个较大的问答语料库(比如FAQ...转载 2020-03-22 21:28:49 · 2260 阅读 · 0 评论 -
对抗学习在NLP中的应用
本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法,希望能使各位大佬炼出的丹药更加圆润有光泽,一颗永流传简介对抗训练是一种引入噪声的训练方式,可以对参数进行正则化,提升模型鲁棒性和泛化能力。对抗训练的假设是:给输入加上扰动之后,输出分布和原Y的分布一致有监督的数据下使用交叉熵作为损失:−logp(y∣x+radv;θ...原创 2020-03-13 22:25:11 · 1829 阅读 · 0 评论 -
对话系统(任务型、检索式、生成式对话论文与工具串讲)
Motivation 对话是一个很大的概念,有非常非常多的子问题,刚入坑的小伙伴很可能迷失在对话的一小块区域里无法自拔,本文就是为解决这一类问题的。希望读者在看完本文后,可以理清楚对话的每个概念为什么而存在,以及它在整个对话王国中的位置。 不过,小夕也未能关注到对话领域的每个角落,一些小topic也属于仅听过但是没有深入研究过的状态,因此本文表述有失偏颇的地方还望大...原创 2019-09-27 21:04:53 · 3845 阅读 · 0 评论 -
NLP预训练之路——从word2vec, ELMo到BERT
前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove...原创 2018-10-23 13:42:50 · 339 阅读 · 0 评论 -
文本匹配相关方向总结(数据,场景,论文,开源工具)
Motivation 前不久小夕在知乎上写了一个回答《NLP有哪些独立研究方向》,于是有不少小伙伴来问分类和匹配的参考资料了,鉴于文本分类的资料已经超级多了,就不写啦(不过分类相关的tricks可以看之前写的这篇文章《文本分类重要tricks总结》)。匹配问题由于场景比较多,相关的文章不多,所以本文就致力于总结一下文本匹配问题上可以打卡的相关资料啦。...原创 2019-10-18 12:28:17 · 1480 阅读 · 3 评论 -
NLP、炼丹技巧和基础理论文章索引
玩家你好 恭喜你捡到了一个来自上古时期的*七*星*炼*丹*炉*,只见炉壁上镶嵌着自然语言处理、推荐系统、信息检索、深度炼丹、机器学习、数学与基础算法等失传已久的江湖秘术。熔炉中虽然已有一层厚厚尘土,却依然掩盖不住尘埃下那一颗颗躁动不安的仙丹。 ps: 喂喂喂,你萌不要只收藏不点赞哇(。 ́︿ ̀。) 仔细看来,似见炉壁上有几个似乎在诉说什么秘密的图案,和一些...原创 2019-12-30 16:36:57 · 596 阅读 · 0 评论 -
NLP Subword三大算法原理:BPE、WordPiece、ULM
一只小狐狸带你解锁NLP/ML/DL秘籍正文作者:Luke正文来源:https://zhuanlan.zhihu.com/p/86965595前言Subword算法如今已经成为了一个重要...转载 2020-02-16 17:30:00 · 4695 阅读 · 2 评论 -
史上最全的分词算法与工具介绍
分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。 虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"you"是需要与身后的标点分...原创 2020-02-25 05:59:07 · 3573 阅读 · 1 评论 -
知识图谱(KG)中的同义词挖掘
一只小狐狸带你解锁NLP/ML/DL秘籍前言在语义搜索推荐、智能问答等场景中,随着通过各类方法挖掘得到知识数据越来越多,我们需要考虑一个新问题——新老知识合并加以整合?比如“拉肚子”...转载 2020-02-26 20:59:00 · 4994 阅读 · 0 评论