夕小瑶科技说

深度学习

关注

文章平均质量分 80

关注数：文章数：22 文章阅读量：100384 文章收藏量：596

作者: 夕小瑶

最快的AI前沿，最深的行业洞见

展开

OpenAI | GPT-3新模型Davinci，将AI写作提升到新水平！网友惊呼：GPT-4要来了？

文 | 王思若20年，OpenAI推出了1750亿参数量的屠榜‘杀器’GPT-3，但基于大模型至今悬而未决的伦理和社会风险以及商业盈利等因素的考量，OpenAI将GPT-3以付费API的形式向公众开放。通过调用GPT-3的API，问答、语义检索、翻译、数学推理、创作小说等诸多玩法被玩家及尽探索。最近，OpenAI推出了最新的文本生成模型：text-davinci-003。为了适配更多任务，Open...

原创 2022-12-23 11:15:34 · 3931 阅读 · 0 评论
码农创造了AI，但开发AI不再需要码农了

马上就要到一年一度的618大促，卖萌酱在添加购物车时，选择困难症又犯了。如今的电商评论区，大量刷单行为淹没了重要的产品评价，有的被淹没在了追评区，有的平台甚至已经不分好评/中评/差评区了，而是“一眼望去好评如潮”。比如某净水器的评论区，看似只有200条差评，但1.3w条追评、10w条好评中其实隐藏着数不清的差评，这些差评往往可信度极高（毕竟卖家和同行都不会雇水军去好评区写差评）。但如果想从追评和好评区找出这些差评，能找到你眼瞎。于是卖萌酱心生一计，既然评论数量这么多，为啥不自己训练个AI模型来从动辄10万+

原创 2022-06-08 17:53:55 · 14445 阅读 · 18 评论
ACL2020 | FastBERT：放飞BERT的推理速度

一只小狐狸带你解锁炼丹术&NLP秘籍FastBERT自从BERT问世以来，大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个...

原创 2020-04-09 12:02:05 · 3049 阅读 · 0 评论
模型训练慢和显存不够怎么办？GPU加速混合精度训练

目录混合精度训练理论原理三大深度学习框架的打开方式PytorchTensorflowPaddlePaddle混合精度训练一切还要从2018年ICLR的一篇论文说起。。。《MIXED PRECISION TRAINING》这篇论文是百度&Nvidia研究院一起发表的，结合N卡底层计算优化，提出了一种灰常有效的神经网络训练加速方法，不仅是预训练，在全民fi...

原创 2020-04-11 21:54:28 · 2134 阅读 · 0 评论
文本分类实战技巧（tricks）汇总

目录前言关于分词器关于中文字向量如果数据集噪声很严重baseline选用CNN还是RNN？路线沿着CNN还是RNN走？Dropout加在哪里关于二分类关于多标签分类类别不均衡怎么办别太纠结系列还是不会用tricks但是就是想跑出个好结果怎么办前言一年前小夕在知乎上提问过这么一个问题文本分类有哪些论文中很少提及却对性能有重要影响的tri...

原创 2020-04-11 21:42:57 · 2764 阅读 · 1 评论
NLP史上最全预训练模型汇总

目录一、不同视角下的预训练语言模型对比二、预训练语言模型的基础：特征抽取机制+语言模型的分类三、单向模型回顾+内核机制探究四、BERT内核机制探究五、BERT系列模型进展介绍六、XLNet的内核机制探究参考文献前言在小夕之前写过的《NLP的游戏规则从此改写？从word2vec, ELMo到BERT》一文中，介绍了从word2vec到ELMo再到BERT的发展路径...

转载 2020-04-11 21:41:02 · 11470 阅读 · 0 评论
NLP预训练模型综述：从word2vec, ELMo到BERT

目录前言word2vec模型负采样char-level与上下文ELMoBERT深层双向的encoding学习句子与句对关系表示简洁到过分的下游任务接口前言还记得不久之前的机器阅读理解领域，微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类，百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂，...

原创 2020-04-11 21:39:07 · 2919 阅读 · 0 评论
Sigmoid函数与Softmax函数的区别与联系

目录缘起逻辑回归SigmoidSoftmax缘起逻辑回归逻辑回归模型是用于二类分类的机器学习模型（不要说逻辑回归可以做多类分类啊喂，那是二类分类器的组合策略问题，而与逻辑回归分类器本身的构造没有半毛钱关系啊）。我们知道，在逻辑回归中，用于预测样本类别的假设函数为（小夕要讲大事，忽略偏置项参数和向量转置这种细节啦）,其中sigmoid函数的图像看起来是这样的：因此，我们将...

原创 2020-04-11 21:12:58 · 4693 阅读 · 1 评论
one-hot（独热）、bag of word（词袋）、word-Embedding（词嵌入）浅析

目录词袋模型one-hotword-embedding我们知道，传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解，就是很有结构的数据嘛。比如下面这张银行客户数据库中的表格：编号姓名年龄年收入职业有无欠贷 01 ...

原创 2020-04-11 21:06:10 · 7734 阅读 · 4 评论
Keyword-BERT——问答系统中语义匹配的杀手锏

引子问&答是人和人之间非常重要的沟通方式，其关键在于：我们要理解对方的问题，并给出他想要的答案。设想这样一个场景，当你的女朋友or老婆大人在七夕前一晚，含情脉脉地跟你说亲爱的，七夕快到了，可以给我换个新手机吗？而此时沉迷王者峡谷的你，也许会不假思索地回答好啊亲爱的~ 昨天刚看到拼多多九块九包邮买一送一可便宜呢~ 多买几个哦一个壳容易坏呀你话音未落，...

转载 2020-03-29 17:59:49 · 5500 阅读 · 1 评论
ELECTRA模型精讲

还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情，在我等到都快复工的时候，终于看到了它的身影和源码[1]：才第五吗？没事，期望越大，失望越大谷歌在github放出的预训练模型效果是这样的：燃！鹅！在论文中声称的效果却是这样的Github repo中官方的解释是精调的震荡比较大，他们测试了很多随机种子后取了中位数。那么问题...

原创 2020-03-22 21:34:43 · 8436 阅读 · 1 评论
基于BERT的多模学习——VL-BERT篇

前言BERT的出现让NLP发展实现了一个大飞跃，甚至有大佬说NLP已经没有可以做的啦，后面就是拼机器拼money了。但是，我认为任何领域的进步之后都会有更苛刻的要求，科研没有尽头，需求也永远无法满足。而多模态，要求机器拥有多维度的感知能力，就是一个更强的挑战。关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。所以，为了迎上发展的势头，在继videoBERT之后...

原创 2020-03-22 21:32:10 · 5529 阅读 · 1 评论
万字长文，知识图谱构建技术综述

文章来源:丁香大数据前言知识图谱，即一种特殊的语义网络，它利用实体、关系、属性这些基本单位，以符号的形式描述了物理世界中不同的概念和概念之间的相互关系。为什么说知识图谱对于信息检索、推荐系统、问答系统中至关重要，我们用一个例子来说明：假设在一个搜索场景，我们在搜索框中输入坐月子可以洗澡吗？可以看到这句Query是一个完整的问句，如果在检索系统中有一个较大的问答语料库（比如FAQ...

转载 2020-03-22 21:28:49 · 2320 阅读 · 0 评论
调参侠的自我修养——深度学习调参秘籍

这是一篇写给萌新的“科学炼丹”手册前言近期在订阅号后台和文章评论区review了一下大家的问题，发现很多小伙伴现在已经把机器学习、深度学习的理论基础打好了，但是真正要解决一个现实中的算法问题的时候经常两手抓瞎，一顿毫无目的乱试，甚至认为模型表现不好一定是调参不够仔细。新手最大的问题在于解决问题的逻辑不够清晰，喜欢使用“蛮力法”，因此很容易陷入一个“找到一份开源代码““跑...

原创 2020-03-22 21:26:53 · 1926 阅读 · 0 评论
对抗学习在NLP中的应用

本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法，希望能使各位大佬炼出的丹药更加圆润有光泽，一颗永流传简介对抗训练是一种引入噪声的训练方式，可以对参数进行正则化，提升模型鲁棒性和泛化能力。对抗训练的假设是：给输入加上扰动之后，输出分布和原Y的分布一致有监督的数据下使用交叉熵作为损失：−logp(y∣x+radv;θ...

原创 2020-03-13 22:25:11 · 1851 阅读 · 0 评论
史上最全提升GPU的tricks合集

前言首先，如果你现在已经很熟悉tf.data+estimator了，可以把文章x掉了╮(￣▽￣””)╭ 但是！如果现在还是在进行session.run(..)的话！尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋，这篇文章或许可以给你打开新世界的大门噢(￣∇￣) 如果发现经过一系列改良后训练效率大大提高了，记得回来给小夕发小红包(...

原创 2018-12-26 13:04:09 · 590 阅读 · 0 评论
CUDA层硬件debug之路

前记众所周知，夕小瑶是个做NLP的小可爱。虽然懂点DL框架层知识，懂点CUDA和底层，但是我是做算法的哎，平时debug很少会遇到深度学习框架层的bug（上一次还是三年前被pytorch坑），更从没遇到过CUDA层甚至硬件层的bug。直到有一天.... 这个bug彻...

原创 2020-01-08 15:31:04 · 915 阅读 · 0 评论
NLP十大研究方向Highlights!

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源：机器之心前言DeepMind 科学家 Sebastian Ruder总结整理了机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向...

转载 2020-02-12 17:30:00 · 5808 阅读 · 0 评论
NLP Subword三大算法原理：BPE、WordPiece、ULM

一只小狐狸带你解锁NLP/ML/DL秘籍正文作者：Luke正文来源：https://zhuanlan.zhihu.com/p/86965595前言Subword算法如今已经成为了一个重要...

转载 2020-02-16 17:30:00 · 4748 阅读 · 2 评论
ICLR2020 | 如何判断两个神经网络学到的知识是否一致

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源：机器之心前言人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中，...

转载 2020-02-17 10:00:00 · 1176 阅读 · 0 评论
Bert在CV领域的应用

一只小狐狸带你解锁NLP/ML/DL秘籍老板老板，听说BERT是个瞎子此话怎讲？它能理解语言，但是理解不了小夕的自拍！video-BERT了解一下喵喵喵？AI的三大核心板块（CV/Spe...

原创 2020-03-02 22:20:00 · 5841 阅读 · 4 评论
训练大型神经网络方法总结

一只小狐狸带你解锁炼丹术&NLP秘籍前阵子微软开源了DeepSpeed训练框架，从测试效果来看有10倍的速度提升，而且对内存进行了各种优化，最大可以训练100B(illion...

转载 2020-03-03 22:29:29 · 2616 阅读 · 0 评论