![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
工具
文章平均质量分 79
脆皮小盒
这个作者很懒,什么都没留下…
展开
-
PyTorch 显存爆炸|RuntimeError: CUDA out of memory. 如何排查问题?
可以看到这个机子有两张A5000,第一张卡显存是23953MiB / 24564MiB,快用完了,第二张是 18372MiB / 24564MiB,还有一点可以用。两个不同设备上的tensor运算,这个错误一般torch会报错的,但是也有非常隐晦的情况,比如不指明在哪个设备上的常量,需要手动发现。到了要检查代码这一步首先是看batch_size,但如果batch_size太大了应该是一个epoch都跑不了,在前向传播的时候甚至前向传播之前就会出问题了。,一般我会在命令行指定卡,而不是代码里。原创 2023-10-09 15:46:01 · 42787 阅读 · 5 评论 -
HLS综述笔记|Are We There Yet? A Study on the State of High-Level Synthesis
这些论文是根据一定的标准进行筛选的,包括列出HLS和RTL版本应用的以下指标之一或多个:应用特定度量的性能、执行时间和/或延迟、目标平台上的最大可达时钟频率、应用特定集成电路(ASIC)上的面积、FPGA上的资源使用、功耗、开发时间和输入源代码行数(LoC)。对所审查的论文中的感兴趣指标和其出现频率进行总结,提供了一个汇总表格(Table II),其中列出了所关注的指标及其在审查论文中的出现频率。由于机器生成的 RTL 代码,这些重要的调试功能无法在执行 HLS 后的 RTL 层上实现。原创 2023-09-26 14:00:43 · 184 阅读 · 1 评论 -
brevitas + FINN|端到端神经网络部署
因为brevitas在训练时,对模型class中的每个attribute 计算scale,而如果这个层在forward函数里被用到的话,这个层是没有quant_scale这些量化相关的attribute的。因此用到的层和定义的层需要完全匹配,在后续导参数的时候才不会出错。这个例子在训练的时候可能不会报错,但是导出的参数是有问题的,因为con0_d在forward函数中没有被用到,所以没有scale。因为每个激活函数都是有自己的scale的,所以必须像官方文档里那样定义好几个Relu。原创 2023-04-14 12:44:08 · 1416 阅读 · 4 评论 -
ALS(Approximate Logic Synthesis) 综述| Approximate Logic Synthesis: A Survey
记一下ALS的综述笔记。1. **Introduction** 讲近似电路计算的两种分类,大致介绍了怎么对误差建模。2. **Method for error estimation** 讲如何计算近似电路和精确电路的误差。包括: A. error matrix - hamming distance (max & average) - error rate - approximate efficiency - task-specified B. Error modeling & QoR(q原创 2022-11-21 14:37:20 · 391 阅读 · 0 评论 -
Keyword Spotting (KWS) | Deep Spoken Keyword Spotting: An Overview
KWS原创 2022-10-10 21:27:40 · 718 阅读 · 0 评论 -
Quantization|A White Paper on Neural Network Quantization (谷歌量化白皮书)
记一下谷歌量化白皮书的理解。按原文目录分原创 2022-06-17 16:07:30 · 1465 阅读 · 0 评论 -
git 进阶|笔记
1. git rebase 基础在bugFix分支操作:git rebase main会更新bugFix分支,但不会更新main。如何更新main?git checkout maingit rebase bugFix另:如果当前bugFix分支有三个提交分叉,rebase会把这三个一溜连上去。2. 分离HEAD让其指向了某个具体的提交记录而不是分支名.比如,现在在bugFix分支要分离HEAD:git checkout bugFix3. 相对引用方法一:用 ^ 向上移动一个记录原创 2021-01-16 10:22:14 · 167 阅读 · 1 评论