自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 辅助生成:低延迟文本生成的新方向

本文使用ChatGPT翻译,本人做简单润色。简单总结下文章:Transformers给它们的API加了个新功能叫做辅助生成。这个方法需要用到两个大模型,一个是助手模型,一个是本体模型。具体流程是用一个小规模模型(例如量化模型)来充当助手,生成文本时,先由助手来进行生成,然后把生成的文本交给本体模型,它只需要跑一个前向过程来更正助手模型生成的文本,然后将更正的文本返回助手模型继续生成。不理解这个流程的可以看下面的动图。

2023-05-16 11:45:05 271 1

原创 【插件分享】对Chatgpt的对话内容进行滚动截屏

在和Chatgpt进行了一番友好的对话后,想要把对话内容截取出来与朋友分享,但是由于对话内容比较多,无法显示在一页里,因此需要使用滚动截屏。但是edge浏览器自带的网页捕获功能在chatgpt的聊天界面里无法实现滚动截屏。

2023-04-02 17:19:33 3396

原创 【论文学习】InstructGPT:Training language models to follow instructions with human feedback

把语言模型做大并不会使它们更好地遵循人类的意图。由于语言模型的输出的灵活性,它们可能生成一些不真实的、有毒的或是对用户没有帮助的输出。也就是说模型并不能和用户站在同一边。在这篇论文里,研究者通过以人类的反馈对模型进行微调来使得模型能够遵循用户的意图。从标注的prompts和通过OpenAI API提交的prompts里,研究者收集了一个标注者的演示的数据集,演示内容是想要模型学习到的一些行为,然后用这个数据集对GPT-3做微调。

2023-03-22 16:03:50 829

原创 【问题解决】wget下载github文件得到html文件

使用下述代码从github下载txt文件后,打开却发现是html文件。

2023-02-27 22:02:59 1832 1

原创 【论文学习】Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

Document-level Relation Extraction(DocRE) 相比句级关系提取来说更麻烦。它需要一次从多个句子中提取关系。这篇论文提出了一种半监督框架,并且有三个新颖点。第一,使用了一个轴向注意力模块来学习实体对的相关性;第二,提出了一个适应性焦距损失来解决DocRE的类不平衡问题;第三,使用知识蒸馏来克服人类标注数据与远程监督数据的差异性。(轴向注意力就是先在竖直方向进行self-attention,然后再在水平方向进行self-attention;

2023-02-19 18:34:00 836

原创 【论文学习】Enhanced LSTM for Natural Language Inference

作者提出了一个在 SNLI(Stranford Natural Language Inference dataset)上达到88.6%正确率的当时最先进的模型。他们首先证明了可以不使用前人所构建的复杂的网络架构,而是基于chain LSTMs(chain LSTMs其实就是指LSTMs)构建序列推断模型,性能要超越之前的所有模型。并且,在精心地设计了对局部推断信息进行建模并组合这些信息的架构后, 他们实现了额外的提升。

2023-02-08 14:15:43 193

原创 【视频学习】自注意力机制

学习于Self-attention主要用于序列输入(即输入是数量不定的一堆向量),包括语音识别、机器翻译、图等任务考虑Sequence labeling任务, 要求对序列中的每一个输入输出一个label,例如词性标注任务,对一句话中的每一个词标注它的词性。Self-attention的特点就是,它的每一个输出都会考虑整个序列的信息考虑生成b1向量,先找出和a1相关的其他向量,这个相关程度用α表示。

2023-02-07 17:35:13 135

原创 【论文/视频学习】Attention Is All You Need

主流的序列转换模型(例如机器翻译)主要依赖于复杂的CNN或RNN,网络架构有encoder 和 decoder,并且有着注意力机制。Transformer是一个简单的模型,只依赖注意力机制。这个模型在机器翻译上的效果很好。

2023-02-07 17:34:18 278

原创 常微分二阶线性齐次微分方程的通解推导

对于形如 y′′+py′+qy=0y''+py'+qy=0y′′+py′+qy=0 的常微分二阶线性齐次微分方程,需要先求出两个线性无关的实数域特解 y1y_1y1​ 和 y2y_2y2​ (即 y1y2≠C\frac{y_1}{y_2}\ne Cy2​y1​​​=C ),再将两个特解叠加得到通解 y=C1y1+C2y2y=C_1y_1+C_2y_2y=C1​y1​+C2​y2​。可以通过求解特征方程来求出微分方程的特解。设解的形式为 y=erxy=e^{rx}y=erx ,将其带入微分方程可得 (r2+

2022-07-04 20:11:34 8110

原创 在Ubuntu16.04上配置环境并运行Neural Baby Talk库的NOC部分代码的具体步骤

在 Ubuntu16.04+python3.6+torch0.4 上配置Neural-Baby-Talk库的Novel image Captioning任务的具体步骤

2022-06-08 16:40:05 412 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除