LLaMA3 实现细节：矩阵乘法、位置嵌入和注意力屏蔽

最新推荐文章于 2025-05-01 17:46:28 发布

程序员二飞

最新推荐文章于 2025-05-01 17:46:28 发布

阅读量746

点赞数 7

文章标签：矩阵线性代数人工智能搜索引擎机器学习语言模型深度学习

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/139304367

版权

LLaMA3 实现细节：矩阵乘法、位置嵌入和注意力屏蔽

本文档是 llama3 语言模型的分步实现，重点介绍所涉及的矩阵乘法运算。它包括加载模型权重、规范化令牌嵌入、提取注意力头、对查询和键应用旋转位置编码、计算注意力分数、屏蔽未来令牌，最后通过前馈网络更新嵌入。作者详细介绍了代码，解释了每一步的形状和转换。目标是一次构建一层 llama3 模型，最终得到最终输出 logits 和下一个 token 的预测。

https://github.com/naklecha/llama3-from-scratch

阿耳忒弥斯计划面临重大的技术和后勤挑战，载人登月可能会推迟到 2030 年代

阿耳忒弥斯计划旨在让人类重返月球，但与阿波罗计划相比，它面临着重大的技术和成本挑战。太空发射系统（SLS）火箭和猎户座飞船过于复杂和昂贵，而计划中的月球着陆器则依赖于未经证实的技术，例如在轨加油。美国宇航局决定使用遥远的月球轨道而不是低轨道，这增加了风险和复杂性。阿耳忒弥斯计划还包括月球门户空间站的计划，但许多人认为这是不必要的。总体而言，阿耳忒弥斯似乎正在努力赶上阿波罗计划的成功和效率，这引发了人们对美国宇航局执行可持续月球探索计划的能力的怀疑。

https://idlewords.com/2024/5/the_lunacy_of_artemis.htm

用 JavaScript 编写手写代码：创建草书脚本的挑战和解决方案

作者最初用 JavaScript 创建了一个块脚本，但后来决定也创建一个草书手写脚本。为了设计草书字母，作者使用了 p5.js 编辑器中的工具来定义字母路径中的关键点。作者还融入了自己的笔迹作为指导。将字母连接在一起需要额外的逻辑来处理不同的字母组合。最终的草书是通过根据相邻字母调整字母路径然后将它们连接在一起而创建的。作者计划在图表中使用这种笔迹作为标题、标签和其他文本，并可能探索编码字母路径的进一步创意应用。

https://www.amygoodchild.com/blog/cursive-handwriting-in-javascript

中世纪小啤酒的神话

该文件揭穿了中世纪人们主要喝淡“小啤酒”而不是水的神话。事实上，中世纪的人们可以获得干净的饮用水，并且通常更喜欢它而不是啤酒。水务被视为一项商业上可行的业务，大管道和新河等基础设施为伦敦供水。虽然葡萄酒是上层阶级消费的，但小瓶啤酒是一种常见的饮料，为工人阶级提供热量和水分。该文件认为，人们喝少量啤酒并不是为了避免水污染，而是为了从其热量含量中获取能量和食物。

https://www.ianvisits.co.uk/articles/the-myth-of-medieval-small-beer-19763/

什么是生成艺术？

生成艺术是使用自主过程（例如随机性、规则和自然系统）创造的艺术。随机性是生成艺术的关键组成部分，通常使用伪随机数生成器来创建不同的输出。基于规则的系统，如元胞自动机，也可以产生紧急的和意想不到的结果。一些艺术家直接将冷凝或霉菌生长等自然现象融入到他们的作品中。虽然生成艺术通常与数字媒体联系在一起，但这些原理也适用于传统绘画和绘画技术。总体而言，生成艺术探索艺术家与用于创作艺术品的自主过程之间的控制平衡。

https://www.amygoodchild.com/blog/what-is-generative-art

DB-19 连接器制造复兴以满足老式计算机社区的需求

作者描述了寻找 DB-19 连接器的挑战，DB-19 连接器是老式 Apple 和其他计算机中使用的过时部件。在耗尽全球供应后，作者决定制造新的 DB-19 连接器，事实证明这是一个困难且昂贵的过程。通过与同样缺货的其他人进行团购，笔者得以安排生产10,000个新的DB-19连接器。作者现在拥有大量这些稀有零件，并计划将它们分发给小组。作者对 DB-19 短缺问题的解决感到欣慰，至少暂时是这样。

https://www.bigmessowires.com/2016/06/04/db-19-resurrecting-an-obsolete-connector/

Anthropic 发布了对其负责任的扩展政策的反思，讨论了实施挑战和未来迭代的计划

Anthropic 发布了一项负责任的扩展政策 (RSP)，以解决灾难性的安全故障和前沿人工智能模型的滥用问题。该政策的实施提供了一个结构化框架，用于澄清优先事项并确定重要问题和依赖性。 Anthropic 正在努力整合其他风险管理领域的实践，并正在开发新的“ASL-3”安全标准，以减轻具有危险功能的模型带来的风险。内部审计和员工反馈等保证机制正在实施，以确保政策按预期执行。 Anthropic 旨在分享其经验，帮助制定全行业最佳实践，以实现负责任的人工智能开发。

https://www.anthropic.com/news/reflections-on-our-responsible-scaling-policy

击败 Jeff 的 3.14 Ghz Raspberry Pi 5

该文档讨论了对 Raspberry Pi 5 进行超频以实现更高的时钟速度。作者尝试了各种超频设置，包括增加arm_freq和over_Voltage_delta，但发现3.3GHz是出现不稳定之前的极限。作者探索了 Raspberry Pi 的启动过程和固件，注意到电压限制是在签名的 bootmain 固件中设置的，无法轻易修改。作为一种解决方法，作者能够在以 root Linux 用户身份运行时修补内存中的电压限制。然而，由于潜在的风险，作者警告不要采用这种方法。最终，作者得出的结论是，将 Raspberry Pi 5 超频至 3.3GHz 所带来的性能提升并不值得付出努力。

https://jonatron.github.io/randomstuff/pivolt/

使用省略号估计文本的透视变换以均衡字母大小

该文档描述了一种自动校正文本图像中的透视失真的方法。关键的见解是，平均而言，所有字母的大小应大致相同。通过将每个字母建模为椭圆并跟踪这些椭圆如何通过单应性变换，作者能够估计最佳单应性参数以均衡字母大小。这涉及解决优化问题以找到最小化变换椭圆面积方差的单应性。作者还讨论了旋转和倾斜文本以生成最终校正图像的其他步骤。该文档包括展示该方法有效性的可视化和示例。

https://mzucker.github.io/2016/10/11/unprojecting-text-with-ellipses.html

AI doppelgänger 实验 – 第 1 部分：训练

本文探讨了在机器学习和生成人工智能的背景下定义和表示“风格”的挑战。作者是一位插画家和人类学家，采访了研究风格转移模型的计算机科学家，发现他们的方法通常基于过时的艺术史思想，即将风格与内容分开。然后，作者进行了一项实验，让插画家与根据他们自己的作品训练的经过微调的机器学习模型进行交互，以检查人类和机器观看方式之间的紧张关系。作者反思了看到自己的风格通过计算机复制的奇妙体验，以及围绕人工智能和艺术身份的复杂的法律和社会问题。文本最后预测了第一位插画家与模型的互动，想知道这是否会是一种触发体验或证明体验。

https://julienposture.substack.com/p/the-ai-doppelganger-experiment-part