自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 血战C++ template模板偏特化

模板知识非常庞大,函数模板、类模板、模板实例化、模板匹配、SFINAE、模板特例化、模板偏特化、变长模板参数、模板编译等等,本节主要带来一些模板偏特化的例子,默认读者都有对模板的基础知识。我个人认为。

2024-04-15 22:12:25 461 1

原创 全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望

tensorRT-LLM对于这块的代码位于。

2024-04-15 22:05:54 2164 1

原创 深度学习C++模板推导再炫技:统一CUDA elementwise kernel的调用接口

本文原发自公众号"AI不止算法",欢迎关注,不定时分享技术感悟和就业指导,

2024-04-04 09:03:15 1981 1

原创 C++模板推导再炫技:统一深度学习框架各个device各个kernel的调用和分发

最近迷恋上了模板,看了很多模板推导,模板偏特化,模板特化,变长参数模板的例子,之前也发过一些模板的文章,比如这篇paddle的,本文会比paddle的这篇略简单一点,另外,准备后面几期文章再带来几个C++模板与深度学习应用结合的case。原文位于我的。

2024-03-21 09:11:34 783 1

原创 Flash Attention1-真正意义上的scale dot product attention的算子融合(从算法层面加速训练)

本篇文章和下篇文章精简记录一下flashattention1和flashattention2的主要思想和解决问题,首发于我的公众号“AI不止算法”,文章链接,本文先记录flash attention1.

2024-03-14 15:49:02 1069 1

原创 面试撕leetcode环节的C++ STL常用用法总结(下)

对STL容器、算法、迭代器等的使用在C++类工作的面试撕题中基本跑不掉,这很容易看出一个候选人的coding能力,同时日常工作中也会经常使用,可以达到简化某些逻辑的目的,上篇也已经简单介绍过动机,本文接着上篇继续总结本人认为经常用到的一些STL用法,更加侧重于算法函数,同时也作为自己的一个复习笔记~

2024-03-12 09:06:12 1038 1

原创 面试撕leetcode环节的C++ STL常用用法总结(上)

对STL容器、算法、迭代器等的使用在C++类工作的面试撕题中基本跑不掉,这很容易看出一个候选人的coding能力,同时日常工作中也会经常使用,我最近面了一些朋友,包括过去见过很多朋友无论是在做leetcode题目或者一些C++场景题的时候,对STL的使用并不熟练,这一眼就可以看出来学习的时间还不长,可能会导致面试结果并不好,所以总结STL常用用法非常重要,本文仅代表本人认为经常用到的一些STL用法,同时也作为自己的一个复习笔记~

2024-03-10 10:29:16 1140 1

原创 AI高性能推理加速优化:CV模型之ResNet50的静态图优化之Pad+Conv2d的算子融合

最后,本人出了三门技术课程,全是硬干货,不割韭菜,第一门讲AI加速优化的基础知识+CPP面试较难的题+int8低精度量化+x86CPU体系结构+矩阵乘法在CPU上的优化加速。第二门讲GPU上的AI模型加速优化,体现为CUDA编程。第三门在一二的基础上,实现一个基于C++和CUDA的大模型GPU推理引擎,目前已经支持Llama2模型。感兴趣的同学欢迎去我公众号“AI不止算法”了解。

2024-03-10 10:22:14 934 1

原创 从AI推理性能优化角度看LLaMA的模型结构和源码

几个月前,FB开源了LLAMA,LLAMA1包括三个参数量的模型7B、13B、65B, 证明了完全可以通过公开数据集来训练最先进的模型,而无需使用专有和不可获取的数据集,同时LLaMA-13B 在大多数benchmark优于 GPT-3,尽管大小只有后者的1/10。在更大规模上,LLaMA-65B 参数模型也与可以与Chinchilla或PaLM-540B相竞争,这是之前bloom、OPT等没有做到的。

2024-02-27 09:25:18 2354

原创 深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

GQA是2023年发表的一篇paper提出的idea,目前用在了llama2、falcon等LLM上。paper一般都篇幅众多,老规矩,本文总结出最精华的部分:)

2024-02-27 09:05:41 1857

原创 CUDA实现dropout kernel(下)--优化篇

欢迎大家关注我的公众号"AI不止算法"一起交流学习在上篇写了两个CUDA kernel,它们分别实现dropout中的输出mask和输出y,其中y还接收mask的输入,当时主要为了大家方便理解dropout的计算流程,其实这样做计算结果虽然是对的,但是性能并不好,本文主要从两个方面介绍dropout kernel的优化方法,分别为vectorized load/store和算子融合op fusion。

2023-10-12 16:48:20 162

原创 CUDA实现dropout kernel(上)--实现篇

今天讲讲过去几个月为了支持某LLM在GPU上的训练所写的一个算子,叫做dropout,主要用于训练时候防止过拟合,随机的设置某些元素为0欢迎大家关注我的公众号“AI不止算法”,不定时分享C++以及AI高性能优化部署的技术体会简单讲了以下dropout如何用CUDA实现,实际上以上只是一个非常朴素的算子实现,还有一些地方可以优化,进一步提升性能最后逼近pytorch的dropout实现,下一篇文章讲讲如何优化。

2023-10-12 16:43:36 209

原创 大模型LLM压缩量化和GPU显存管理paper阅读笔记

欢迎大家关注我的公众号“AI不止算法”,不定时分享C++以及AI高性能优化部署的技术体会不知道大家有没有思考过,GPT如此之大的模型是怎么做到能在这么快的速度下吐出一个个word/token来回复我们的?其实这离不开AI部署的各种手段算法方向的paper和落地工程方面的paper我个人在学校和工作中都分别读过,我个人觉得落地工程的paper能更给人带来一种参与“工业革命”的快感,贡献独有的工业价值,让我更加入迷。

2023-10-12 16:22:09 470

原创 AI工程部署开发到底是什么工作内容?

和算法相比,AI部署那就是真正的与落地相关的了,部署的流程我认为包括两部分:提升模型推理性能充分利用芯片资源,比如充分利用GPU运算单元,使得模型性能达到GPU峰值算力,这个过程有很多成熟的产品,比如Nvidia的tensorRT,Intel的OpenVINO,商汤的openppl,旷视的megengine等等;但是,我想强调的是,这其实和调包侠区别不大,技术含量还是不高。具体来说,以上提到的tensorRT是nvidia的sota解决方案,你要是可以参与到开发它,那岂不是能看到更多更深的技术了?

2023-10-12 15:51:03 176

原创 AI算法岗CV/NLP/搜广推何去何从?转型AI开发岗?

综上,我个人建议大家如果没有读博倾向,能转则转,好点的可以转C++AI开发岗,差一点的可以转C++五花八门的各种方向,再差一点的转C++后端开发也是ok的。欢迎大家点击关于作者-个人微信找我讨论交流。

2023-10-12 15:47:37 361

原创 C++有哪些工作方向可以选择?

以下是个人能想到的C++就业方向,目前AI方向的C++依然是最热门,本人提供前四种AI就业相关的辅导课程/咨询。”,不定时分享C++以及AI高性能优化部署的技术体会。欢迎大家关注我的公众号“

2023-10-12 15:45:16 292

原创 2023年了,编程语言上,全面分析该学C++还是JAVA?

欢迎大家关注我的公众号“AI不止算法”,不定时分享C++以及AI高性能优化部署的技术体会。

2023-10-12 15:41:51 604

原创 C++/AI部署性能优化/AI工程开发校招/社招面试重点勾画

总的来说,分为以下几块:1.通用技能。

2023-10-12 15:32:14 264

原创 计算机/AI方向,选择算法岗还是开发岗?

对于开发岗呢,多数同学其实也停留在比较狭义的范围里面,那就是多数同学都认为开发就分为前端开发去写一些界面,后端开发去做一些服务器方向,然后就是一些测试开发这样子,其实不然,这仅仅只是互联网里面开发的分类,然而你要知道,现实中不仅仅只有互联网公司,还有各种各样的公司他们对于开发来讲呢有非常多的方向选择,刚才谈到的前端,后端服务器只是其中之一,拿笔者的所在行业举例,笔者主要是做深度学习系统框架和编译器方向的(你可以理解为开发一个小型的TensorFlow或PyTorch),这个方向其实。

2023-10-12 15:23:22 695

原创 C++面试高频之单例模式、懒汉模式和饿汉模式

欢迎大家关注我的公众号“AI不止算法”,不定时分享C++以及AI高性能优化部署的技术体会注意:代码写的时候未保存,都是原地修改的,故只有截图,文章中放的截图,可能有点模糊。单例模式随着C++标准的变化以及个人风格各异写法不一样,本文展示的只是一种样板。很多写单例模式的文章,但是我感觉都没说到重要的点子上,让人看了后很容易忘掉,抓不到重点,本文带着问题去讲,希望可以让大家对单例模式过目不忘。

2023-10-12 14:57:50 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除