ReadingNotes
文章平均质量分 94
论文读书报告
Zheyuan Zou
中国科学技术大学2021级计算机系统结构硕士研究生,E-mail:[email protected]
展开
-
Reading Note(10)——AutoBridge
这篇论文是FPGA 2021年的best paper award,主要解决的是在HLS编译过程中优化布局和布线,最终达到整个multi-die的FPGA板上的大规模HLS设计时钟频率尽可能提升的目的,这篇工作在当前chiplet工艺铺展开来的当下更加有现实意义,通过这篇文章学习一下如何对Multi-Die场景下的模块进行建模。这部分首先肯定了HLS作为工具链的高效性和实用性,但是也指出HLS工具目前的一个问题在于HLS和RTL级代码之间可以达成的性能差距很大。原创 2022-12-05 13:04:02 · 552 阅读 · 2 评论 -
Reading Note(8) ——GNN for DSE Optimization
这部分作为全文的摘要, 和上一篇AutoDSE一样,提出了当前开发FPGA加速器的主要难点在于FPGA的开发门槛太高。另一方面虽然HLS的诞生在一定程度上缓解了这个问题,但是它在很多层次上涉及到HLS参数的选择,这个解决空间是非常大的,这个选择非常依赖于设计者的经验。另一方面,从HLS工具获得结果反馈耗时也非常大,一般在几分钟到数小时。这篇工作针对这种情况开发了DSE-GNN框架,主要方法是通过GNN来拟合HLS模型来使得它可以应用于非常广泛的应用场景,从而使得设计者在毫秒级就可以得到。原创 2022-11-21 11:40:33 · 592 阅读 · 0 评论 -
Reading Note(7)——AutoDSE
AutoDSE论文精读原创 2022-11-07 10:27:53 · 384 阅读 · 2 评论 -
Reading Note(6)——parallel Alpha Beta Pruning : A Comparative study
0.briefly speaking这段时间在调研对抗搜索算法(博弈算法)(如含αβ\alpha\betaαβ剪枝的最小最大值算法、蒙特卡洛树搜索)部署在FPGA上进行加速的可行性,要在FPGA上部署这样的算法并加速,我们就必须得去挖掘算法的并行性。这次的这篇文章就是一篇对多种并行化最大最小值算法的性能对比的一篇文章,这篇文章本身并没有提出新的算法,工作也比较简单,我阅读这篇论文其实也是为了从过去的并行化方案中寻找新的方法。这篇文章就不在这里贴了,三哥做的一篇水文,这里快速把内容过一遍。关于minim原创 2022-04-09 17:19:06 · 1138 阅读 · 0 评论 -
Reading Note(4)——面向关系型数据库的哈希连接加速器
0.Briefly Speaking这是一篇比较短的文章(文章链接),主要讲述的是如何使用FPGA来加速数据库系统中等值连接(equi-join)中的一种算法——哈希连接。数据库在完成连接操作时一般会有三种算法作为候选:hash、merge-sort、nested loop,有关这几种算法之间的工作方式可以自行检索。本文做的工作就是面向hash连接算法提出了一种基于FPGA的硬件加速器,来提升数据库连接操作的性能。1. INTRODUCTION这部分首先介绍了连接操作的重要性,以及连接操作的性质:连原创 2022-03-28 21:34:11 · 4318 阅读 · 1 评论 -
Reading Note(3)——基于FPGA的动态可重构特性探索新型加速器架构
这是关于一篇使用FPGA动态可重构特性进行新型FPGA加速器体系结构设计的一篇论文, 在此将这篇文章的主要内容和细节梳理一下。0.Abstract现有的面向神经网络的基于FPGA的加速器,很多只使用FPGA的静态重配置特性。所谓静态可重构性指的就是我们日常意义上的对FPGA重复烧写的过程(板子必须停止工作,然后用新的比特流重新配置)。这篇文章(mproving HW/SW Adaptability for Accelerating CNNs on FPGAs Through A Dynamic/Stat原创 2022-03-20 16:38:29 · 2229 阅读 · 0 评论 -
Reading Note(2)——DaDianNao
0.Briefly Speaking本文于2014年发布于MICRO(2014 47th Annual IEEE/ACM Inernational Symposium on Microarchitecture)上,本文的工作是在前作DianNao的基础上进一步对加速器访存进行优化得到的。主要思路就是:尽管CNNs和DNNs的访存需求很大,但是没有超出多结点系统片上存储的能力之和,所以如果可以将神经网络计算所需的所有数据分布式地存放在多个计算结点组成的系统上(本地),这样就可以实现真正的高内部带宽和低外部通原创 2021-10-23 11:24:36 · 233 阅读 · 0 评论 -
Reading Note(1)——DianNao
0.Briefly Speaking本文于2014年发表于ASPLOS(Architectural Support for Programming Languages and Operating Systems ),文章的主要工作是提出了一个面向先进的(state-of-the-art)深度学习算法的高效加速器。与之前的工作不同的地方在于,这篇文章专注于访存行为对加速器设计、性能和能耗的影响,而非像传统的加速器论文一样只注重对计算部分的实现。以往的加速器设计专注于对计算性能的极致挖掘,但是受制于Amda原创 2021-09-25 21:15:43 · 166 阅读 · 0 评论