vta阅读笔记
原文题目:A Hardware-Software Blueprint for Flexible Deep Learning Specialization
作者:Thierry Moreau,Tianqi Chen,Luis Vega,Jared Roesch,Eddie Yan等
vta要解决的问题
专用的深度学习加速器堆栈虽然在性能上十分优越,但是灵活性较差。当深度学习模型发生变化时,因为专用模型加速器的静态性质决定了其很难对硬件资源进行重用,所以会严重影响到专用加速器的性能。
什么是vta?
VTA is a programmable deep learning architecture template designed to be extensible in the face of evolving workloads. vta是一种可编程的深度学习体系结构模板,旨在面对不断变化的工作负载进行扩展。通过可参数化的体系结构,两级ISA和JIT编译器实现了这种灵活性。
vta的优势
- 可编程加速器设计中有两级编程接口:high-level ISA 允许通过编译器堆栈进行显式的任务调度,低级微代码 ISA 提供软件定义的操作灵活性。此外,VTA 体系结构是完全可参数化的:可以自定义硬件内在函数,内存和数据类型,以适应硬件后端要求。
- 用于执行异构操作的可扩展runtime系统,该系统使用微代码内核的JIT编译器以提供操作灵活性。
- 自动调整平台,可以优化数据访问和数据重用,以便快速适应底层硬件的变化和工作负载多样性的变化