Shackles Lay
码龄4年
关注
提问 私信
  • 博客:17,593
    17,593
    总访问量
  • 10
    原创
  • 1,900,381
    排名
  • 5
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2020-09-15
博客简介:

weixin_50833696的博客

查看详细资料
个人成就
  • 获得25次点赞
  • 内容获得3次评论
  • 获得51次收藏
创作历程
  • 8篇
    2023年
  • 2篇
    2022年
成就勋章
兴趣领域 设置
  • Python
    python
  • 人工智能
    人工智能深度学习自然语言处理pytorch
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

辅助生成:低延迟文本生成的新方向

本文使用ChatGPT翻译,本人做简单润色。简单总结下文章:Transformers给它们的API加了个新功能叫做辅助生成。这个方法需要用到两个大模型,一个是助手模型,一个是本体模型。具体流程是用一个小规模模型(例如量化模型)来充当助手,生成文本时,先由助手来进行生成,然后把生成的文本交给本体模型,它只需要跑一个前向过程来更正助手模型生成的文本,然后将更正的文本返回助手模型继续生成。不理解这个流程的可以看下面的动图。
原创
发布博客 2023.05.16 ·
297 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

【插件分享】对Chatgpt的对话内容进行滚动截屏

在和Chatgpt进行了一番友好的对话后,想要把对话内容截取出来与朋友分享,但是由于对话内容比较多,无法显示在一页里,因此需要使用滚动截屏。但是edge浏览器自带的网页捕获功能在chatgpt的聊天界面里无法实现滚动截屏。
原创
发布博客 2023.04.02 ·
3856 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【论文学习】InstructGPT:Training language models to follow instructions with human feedback

把语言模型做大并不会使它们更好地遵循人类的意图。由于语言模型的输出的灵活性,它们可能生成一些不真实的、有毒的或是对用户没有帮助的输出。也就是说模型并不能和用户站在同一边。在这篇论文里,研究者通过以人类的反馈对模型进行微调来使得模型能够遵循用户的意图。从标注的prompts和通过OpenAI API提交的prompts里,研究者收集了一个标注者的演示的数据集,演示内容是想要模型学习到的一些行为,然后用这个数据集对GPT-3做微调。
原创
发布博客 2023.03.22 ·
863 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

【问题解决】wget下载github文件得到html文件

使用下述代码从github下载txt文件后,打开却发现是html文件。
原创
发布博客 2023.02.27 ·
1913 阅读 ·
3 点赞 ·
1 评论 ·
2 收藏

【论文学习】Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

Document-level Relation Extraction(DocRE) 相比句级关系提取来说更麻烦。它需要一次从多个句子中提取关系。这篇论文提出了一种半监督框架,并且有三个新颖点。第一,使用了一个轴向注意力模块来学习实体对的相关性;第二,提出了一个适应性焦距损失来解决DocRE的类不平衡问题;第三,使用知识蒸馏来克服人类标注数据与远程监督数据的差异性。(轴向注意力就是先在竖直方向进行self-attention,然后再在水平方向进行self-attention;
原创
发布博客 2023.02.19 ·
862 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【论文学习】Enhanced LSTM for Natural Language Inference

作者提出了一个在 SNLI(Stranford Natural Language Inference dataset)上达到88.6%正确率的当时最先进的模型。他们首先证明了可以不使用前人所构建的复杂的网络架构,而是基于chain LSTMs(chain LSTMs其实就是指LSTMs)构建序列推断模型,性能要超越之前的所有模型。并且,在精心地设计了对局部推断信息进行建模并组合这些信息的架构后, 他们实现了额外的提升。
原创
发布博客 2023.02.08 ·
195 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【视频学习】自注意力机制

学习于Self-attention主要用于序列输入(即输入是数量不定的一堆向量),包括语音识别、机器翻译、图等任务考虑Sequence labeling任务, 要求对序列中的每一个输入输出一个label,例如词性标注任务,对一句话中的每一个词标注它的词性。Self-attention的特点就是,它的每一个输出都会考虑整个序列的信息考虑生成b1向量,先找出和a1相关的其他向量,这个相关程度用α表示。
原创
发布博客 2023.02.07 ·
140 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【论文/视频学习】Attention Is All You Need

主流的序列转换模型(例如机器翻译)主要依赖于复杂的CNN或RNN,网络架构有encoder 和 decoder,并且有着注意力机制。Transformer是一个简单的模型,只依赖注意力机制。这个模型在机器翻译上的效果很好。
原创
发布博客 2023.02.07 ·
284 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

常微分二阶线性齐次微分方程的通解推导

对于形如 y′′+py′+qy=0y''+py'+qy=0y′′+py′+qy=0 的常微分二阶线性齐次微分方程,需要先求出两个线性无关的实数域特解 y1y_1y1​ 和 y2y_2y2​ (即 y1y2≠C\frac{y_1}{y_2}
e Cy2​y1​​​=C ),再将两个特解叠加得到通解 y=C1y1+C2y2y=C_1y_1+C_2y_2y=C1​y1​+C2​y2​。可以通过求解特征方程来求出微分方程的特解。设解的形式为 y=erxy=e^{rx}y=erx ,将其带入微分方程可得 (r2+
原创
发布博客 2022.07.04 ·
8648 阅读 ·
16 点赞 ·
0 评论 ·
35 收藏

在Ubuntu16.04上配置环境并运行Neural Baby Talk库的NOC部分代码的具体步骤

在 Ubuntu16.04+python3.6+torch0.4 上配置Neural-Baby-Talk库的Novel image Captioning任务的具体步骤
原创
发布博客 2022.06.08 ·
424 阅读 ·
2 点赞 ·
1 评论 ·
5 收藏