![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pytorch
文章平均质量分 57
栏杆拍遍看吴钩
这个作者很懒,什么都没留下…
展开
-
【Pytorch】cumsum的实现逻辑
使用对数进行计算是便于计算出的x的结果可以整除,关键点在于最后平衡二者的比例的那行代码。可以预见,在某些情况下由于待处理数据的大小超过512造成线程块不能够完全分配的情况,此时就需要顾及线程块的比例,那么如果两个维度上线程块的对数值分别为x和y,对应的线程数分别为X,Y,也即。该函数内部最重要的是后面的条件结构,首先如果元素的总数和当前维度的元素个数相同,也即tensor是一维的,直接利用cub的前缀扫描方法,如果元素的总数和当前维度的元素个数不同,又分为最内层的维度,也即最后一维,以及其他情况。原创 2024-07-23 16:22:47 · 1111 阅读 · 0 评论 -
【Pytorch】cumsum的CUDA实现源码位置
cumsum是Pytorch中的一个计算前缀和的算子,通过chatgpt定位其源码位置时,发现chatgpt仅能提供旧的位置,也即位于。,但笔者发现该文件已经不存在了,通过搜索发现,在2022年已经将ScanKernels.cu分裂为了几个文件以优化编译速度,特此记录。原创 2024-07-23 11:49:00 · 299 阅读 · 0 评论