![](https://img-blog.csdnimg.cn/d82b9b8f10a44df788145bccf25d6c2d.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Scholarism学术
文章平均质量分 85
学术
CS-Polaris
诗经风雅,代码亦然
展开
-
生产力与生产关系+学术 —— 知识产权之论文、专利与软著
生产力与生产关系 —— 知识产权之论文与专利原创 2024-01-26 08:30:00 · 1356 阅读 · 0 评论 -
论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)
如果说钢铁侠中的(贾维斯)是一个AGI通用人工智能的话,那么现阶段的AI Agent只是做到了感知任务、规划任务、执行任务。下面这张图的这个过程,看上去和强化学习是一模一样的。Agent结构图——参考视频[1]参考文章或视频链接[1]【动画科普AI Agent:大模型之后为何要卷它?[2]【【卢菁老师说】Agent就是一场彻头彻尾的AI泡沫】- bilibili[3]《读懂AI Agent:基于大模型的人工智能代理》[4]原创 2024-01-20 18:17:45 · 1296 阅读 · 0 评论 -
论文阅读笔记AI篇 —— Transformer模型理论+实战 (三)
所谓ai的黑箱模型,恐怕说的就是这一点,神经网络的拟合能力太过强大了,以至于我们都不知道内部究竟发生了什么。但是对于Word Embedding与Positional Embedding二者相加后,这个位置信息是如何体现出来的,则不甚明了,因为这就像两种颜色的墨水进行混合,Word Embedding是黑墨水,Positional Embedding是红墨水,两种数据直接相加就像把两种颜色的墨水混合到一起,那么要如何在相加之后的混合结果中体现Positional信息,则是我感到疑惑的。原创 2024-01-19 21:20:12 · 1511 阅读 · 1 评论 -
论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)
图1——Transformer结构图图2——Attention结构图中说,ByteNet和ConvS2S都使用了CNN结构作为基础模块去计算input和output之间的潜在联系,其中,关联来自两个任意输入或输出位置的信号所需的计算量,伴随着distance的增长而增长,ConvS2S呈线性增长,ByteNet呈对数增长,而在Transformer中,这个操作所需的计算量只是常数级别,尽管代价是平均了注意力的加权位置降低了有效分辨率(这里的有效分辨率是什么?),但作者用Multi-Head Attentio原创 2024-01-15 13:16:03 · 1626 阅读 · 0 评论 -
论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)
Abstract中强调Transformer摒弃了循环和卷积网络结构,在English-to-German翻译任务中,BLEU得分为28.4, 在English-to-French的翻译任务中的BLEU得分为41.0,用8张GPU训练了3.5天,与各文献中的best models相比,这是非常小的训练成本。中对RNN的一些工作做了总结,它说RNN结构本身,在序列长度变长时会产生限制,虽然有些工作通过factorization tricks因式分解。原创 2024-01-15 12:15:44 · 603 阅读 · 1 评论 -
EndNote安装与使用
EndNote安装与使用原创 2022-12-17 22:31:22 · 1126 阅读 · 0 评论