不归牛顿管的熊猫-CSDN博客

原创血战C++ template模板偏特化

模板知识非常庞大，函数模板、类模板、模板实例化、模板匹配、SFINAE、模板特例化、模板偏特化、变长模板参数、模板编译等等，本节主要带来一些模板偏特化的例子，默认读者都有对模板的基础知识。我个人认为。

2024-04-15 22:12:25 461 1

原创全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望

tensorRT-LLM对于这块的代码位于。

2024-04-15 22:05:54 2164 1

原创深度学习C++模板推导再炫技：统一CUDA elementwise kernel的调用接口

本文原发自公众号"AI不止算法"，欢迎关注，不定时分享技术感悟和就业指导，

2024-04-04 09:03:15 1981 1

原创 C++模板推导再炫技：统一深度学习框架各个device各个kernel的调用和分发

最近迷恋上了模板，看了很多模板推导，模板偏特化，模板特化，变长参数模板的例子，之前也发过一些模板的文章，比如这篇paddle的，本文会比paddle的这篇略简单一点，另外，准备后面几期文章再带来几个C++模板与深度学习应用结合的case。原文位于我的。

2024-03-21 09:11:34 783 1

原创 Flash Attention1-真正意义上的scale dot product attention的算子融合(从算法层面加速训练)

本篇文章和下篇文章精简记录一下flashattention1和flashattention2的主要思想和解决问题，首发于我的公众号“AI不止算法”，文章链接，本文先记录flash attention1.

2024-03-14 15:49:02 1069 1

原创面试撕leetcode环节的C++ STL常用用法总结（下）

对STL容器、算法、迭代器等的使用在C++类工作的面试撕题中基本跑不掉，这很容易看出一个候选人的coding能力，同时日常工作中也会经常使用，可以达到简化某些逻辑的目的，上篇也已经简单介绍过动机，本文接着上篇继续总结本人认为经常用到的一些STL用法，更加侧重于算法函数，同时也作为自己的一个复习笔记~

2024-03-12 09:06:12 1038 1

原创面试撕leetcode环节的C++ STL常用用法总结（上）

对STL容器、算法、迭代器等的使用在C++类工作的面试撕题中基本跑不掉，这很容易看出一个候选人的coding能力，同时日常工作中也会经常使用，我最近面了一些朋友，包括过去见过很多朋友无论是在做leetcode题目或者一些C++场景题的时候，对STL的使用并不熟练，这一眼就可以看出来学习的时间还不长，可能会导致面试结果并不好，所以总结STL常用用法非常重要，本文仅代表本人认为经常用到的一些STL用法，同时也作为自己的一个复习笔记~

2024-03-10 10:29:16 1140 1

原创 AI高性能推理加速优化：CV模型之ResNet50的静态图优化之Pad+Conv2d的算子融合

最后，本人出了三门技术课程，全是硬干货，不割韭菜，第一门讲AI加速优化的基础知识+CPP面试较难的题+int8低精度量化+x86CPU体系结构+矩阵乘法在CPU上的优化加速。第二门讲GPU上的AI模型加速优化，体现为CUDA编程。第三门在一二的基础上，实现一个基于C++和CUDA的大模型GPU推理引擎，目前已经支持Llama2模型。感兴趣的同学欢迎去我公众号“AI不止算法”了解。

2024-03-10 10:22:14 934 1

原创从AI推理性能优化角度看LLaMA的模型结构和源码

几个月前，FB开源了LLAMA，LLAMA1包括三个参数量的模型7B、13B、65B，证明了完全可以通过公开数据集来训练最先进的模型，而无需使用专有和不可获取的数据集，同时LLaMA-13B 在大多数benchmark优于 GPT-3，尽管大小只有后者的1/10。在更大规模上，LLaMA-65B 参数模型也与可以与Chinchilla或PaLM-540B相竞争，这是之前bloom、OPT等没有做到的。

2024-02-27 09:25:18 2354

原创深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

GQA是2023年发表的一篇paper提出的idea，目前用在了llama2、falcon等LLM上。paper一般都篇幅众多，老规矩，本文总结出最精华的部分:)

2024-02-27 09:05:41 1857

原创 CUDA实现dropout kernel(下）--优化篇

欢迎大家关注我的公众号"AI不止算法"一起交流学习在上篇写了两个CUDA kernel，它们分别实现dropout中的输出mask和输出y，其中y还接收mask的输入，当时主要为了大家方便理解dropout的计算流程，其实这样做计算结果虽然是对的，但是性能并不好，本文主要从两个方面介绍dropout kernel的优化方法，分别为vectorized load/store和算子融合op fusion。

2023-10-12 16:48:20 162

原创 CUDA实现dropout kernel(上）--实现篇

今天讲讲过去几个月为了支持某LLM在GPU上的训练所写的一个算子，叫做dropout，主要用于训练时候防止过拟合，随机的设置某些元素为0欢迎大家关注我的公众号“AI不止算法”，不定时分享C++以及AI高性能优化部署的技术体会简单讲了以下dropout如何用CUDA实现，实际上以上只是一个非常朴素的算子实现，还有一些地方可以优化，进一步提升性能最后逼近pytorch的dropout实现，下一篇文章讲讲如何优化。

2023-10-12 16:43:36 209

原创大模型LLM压缩量化和GPU显存管理paper阅读笔记

欢迎大家关注我的公众号“AI不止算法”，不定时分享C++以及AI高性能优化部署的技术体会不知道大家有没有思考过，GPT如此之大的模型是怎么做到能在这么快的速度下吐出一个个word/token来回复我们的？其实这离不开AI部署的各种手段算法方向的paper和落地工程方面的paper我个人在学校和工作中都分别读过，我个人觉得落地工程的paper能更给人带来一种参与“工业革命”的快感，贡献独有的工业价值，让我更加入迷。

2023-10-12 16:22:09 470

原创 AI工程部署开发到底是什么工作内容？

和算法相比，AI部署那就是真正的与落地相关的了，部署的流程我认为包括两部分：提升模型推理性能充分利用芯片资源，比如充分利用GPU运算单元，使得模型性能达到GPU峰值算力，这个过程有很多成熟的产品，比如Nvidia的tensorRT，Intel的OpenVINO，商汤的openppl，旷视的megengine等等；但是，我想强调的是，这其实和调包侠区别不大，技术含量还是不高。具体来说，以上提到的tensorRT是nvidia的sota解决方案，你要是可以参与到开发它，那岂不是能看到更多更深的技术了？

2023-10-12 15:51:03 176

weixin_43568400的博客

原创血战C++ template模板偏特化

原创全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望

原创深度学习C++模板推导再炫技：统一CUDA elementwise kernel的调用接口

原创 C++模板推导再炫技：统一深度学习框架各个device各个kernel的调用和分发

原创 Flash Attention1-真正意义上的scale dot product attention的算子融合(从算法层面加速训练)

原创面试撕leetcode环节的C++ STL常用用法总结（下）

原创面试撕leetcode环节的C++ STL常用用法总结（上）

原创 AI高性能推理加速优化：CV模型之ResNet50的静态图优化之Pad+Conv2d的算子融合

原创从AI推理性能优化角度看LLaMA的模型结构和源码

原创深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

原创 CUDA实现dropout kernel(下）--优化篇

原创 CUDA实现dropout kernel(上）--实现篇

原创大模型LLM压缩量化和GPU显存管理paper阅读笔记

原创 AI工程部署开发到底是什么工作内容？

原创 AI算法岗CV/NLP/搜广推何去何从？转型AI开发岗？

原创 C++有哪些工作方向可以选择？

原创 2023年了，编程语言上，全面分析该学C++还是JAVA？

原创 C++/AI部署性能优化/AI工程开发校招/社招面试重点勾画

原创计算机/AI方向，选择算法岗还是开发岗？

原创 C++面试高频之单例模式、懒汉模式和饿汉模式

空空如也

空空如也