Lin-Analyzer说明
参考论文:DAC会议2016年
《Lin-Analyzer: A High-level Performance Analysis Tool for FPGA-based Accelerators》
git地址:https://github.com/zhguanw/lin-analyzer
方法介绍
Lin-Analyzer是一款基于HLS的性能分析工具,可根据基于FPGA的加速器的各种pragmas来实现快速设计空间探索,而无需RTL实现。
输入高层描述语言C/C++,输出FPGA性能(并非真正性能,与Vivado HLS相比,误差大约是5.2%)
方法是用动态分析得到pragmas相关的指令操作的依赖,然后进行简单的调度返回延迟IL。最后利用数学公式估计性能。
循环展开性能:IL*N/u
流水线性能:MII=max(RecMII,ResMII);
MII*(跳转次数-1)+IL
数组分区性能:内存访问由FRA控制,同一周期同一bank只有两次读和一次写
优点是速度快、精度较高、存在数组分区时,比商业工具vivado HLS探索的设计pareto更优。
例子
图2中的预测性能就等于(调度返回的延迟IL)(循环边界N)/(展开因子,假设是2)。11N/2
git安装步骤
最终的目录如下(可以不用管)
$HOME
~/llvm
~/llvm/tools/clang
~/llvm/tools/lin-analyzer
~/build
~/boost
首先,下载编译器LLVM和Clang、Lin-Analyzer
wget http://llvm.org/releases/3.5.0/llvm-3.5.0.src.tar.xz
wget http://llvm.org/releases/3.5.0/cfe-3.5.0.src.tar.xz
tar -xvf llvm-3.5.0.src.tar.xz
mv llvm-3.5.0.src llvm
tar -xvf cfe-3.5.0.src.tar.xz
mv cfe-3.5.0.src clang
cp -r clang llvm/tools
cd ~/llvm/tools
git clone https://github.com/zhguanw/lin-analyzer
vim ~/llvm/tools/CMakeLists.txt
添加add_llvm_tool_subdirectory(lin-analyzer)到add_llvm_tool_subdirectory(opt)之前
#启用RTTI特性
vim ~/llvm/CMakeLists.txt
添加set(LLVM_REQUIRES_RTTI 1)到文件末尾
安装依赖
cd ~
wget https://sourceforge.net/projects/boost/files/boost/1.79.0/boost_1_79_0.tar.gz
tar -xvf boost_1_79_0.tar.gz
mv boost_1_79_0 boost
sudo apt-get install zlib1g-dev
sudo apt-get install cmake
安装Lin-Analyzer
cd ~
mkdir build && cd build
cmake ../llvm -DBOOST_INCLUDE_DIR=../boost -DZLIB_INCLUDE_DIRS=/usr/include -DZLIB_LIBRARY=/usr/lib/x86_64-linux-gnu/libz.so
#make可能出现错误,见“问题”这一章
make
make install
使用Lin-Analyzer
- ps:github没介绍config的格式、输出格式。
- 遇到尚未解决的问题:
- 1修改config的Opath,则无法写入summary文件
- 2run_dse.py的功能还没使用
make install 或者export PATH=~/build/bin:$PATH
加入环境变量后,即可使用:
lin-analyzer -h
#得到使用方法
lin-analyzer [file.bc] -Ipath=[path] -config=[filename] [kernel-name] -Opath=[path] -TargetLoops=[index] [options]
.bc是llvm中间文件格式
例如
1、创建test.cpp,做矩阵向量和乘积的循环计数
#define SIZE 32
void mvp(float A[SIZE * SIZE], float x[SIZE], float y[SIZE]) {
for(int i = 0; i < SIZE; i++)
for(int j = 0; j < SIZE; j++)
x[i] += A[i * SIZE + j] * y[j];
}
int main(void) {
float A[SIZE * SIZE], x[SIZE], y[SIZE];
for(int j = 0; j < SIZE; j++) {
y[j] = j;
for(int i = 0; i < SIZE; i++)
A[i * SIZE + j] = i + j;
}
mvp(A, x, y);
return 0;
}
2、创建config.cfg,指定每个数组大小和优化指令。
array,A,4096,4
array,x,128,4
array,y,128,4
unrolling,mvp,0,1,4,4
unrolling,mvp,0,2,5,4
配置文件说明:
声明一个数组,参数是数组名称,字节数,字节大小
展开:unrolling,内核名称、顶层循环ID、循环深度、循环头行号和展开因子
unrolling,mvp,0,1,4,4相当于#pragma HLS unroll factor=4
pipeline,mvp,0,2 设置管道。参数是内核名称、顶层循环 ID 和循环深度;
相当于#pragma HLS pipeline
partition,block,A,4096,4,8设置矩阵分区。参数是分区类型、数组名称、总大小(以字节为单位)、字长(以字节为单位)和分区因子;分区类型包括block,cyclic或complete;如果complete使用,则可以省略最后一个参数(分区因子);
相当于#pragma HLS array_partition variable=A block factor=8
3、编译test.cpp
clang -O1 -emit-llvm -c test.cpp -o test.bc
opt -mem2reg -instnamer -lcssa -indvars test.bc -o test_opt.bc
4、运行lin-analyzer
lin-analyzer test_opt.bc -Ipath=. -config=config.cfg -Opath=. -TargetLoops=0
问题
1.cmake出错
如果遇到No CMAKE_CXX_COMPILER could be found
则
sudo apt-get update
sudo apt-get install -y build-essential
2.llvm编译错误
error: ‘{anonymous}::ChainedIncludesSource* llvm::IntrusiveRefCntPtr<{anonymous}::ChainedIncludesSource>::Obj’ is private within this context
这是由于较新版本的 GCC 对某些 C++ 语法更敏感。要解决这个问题
vim ~/llvm/include/llvm/ADT/IntrusiveRefCntPtr.h
:set nu
#第156行开始可以看到
#template <class X>
#IntrusiveRefCntPtr(IntrusiveRefCntPtr<X>&& S) : Obj(S.get()) {
# S.Obj = 0;
#}
#在156行的函数之前插入
template <class X>
friend class IntrusiveRefCntPtr;
代码变成了:
template <class X>
friend class IntrusiveRefCntPtr;
template <class X>
IntrusiveRefCntPtr(IntrusiveRefCntPtr<X>&& S) : Obj(S.get()) {
S.Obj = 0;
}
继续编译即可
3.fatal error: ld terminated with signal 9[killed]
原因:swap空间不够了。
增加swap空间(相当于增加虚拟内存)
sudo mkdir swapfile
cd /swapfile
sudo dd if=/dev/zero of=swap bs=1024 count=20000000
sudo mkswap -f swap
sudo swapon swap
临时分区,重启消失。
如果需要直接卸载swap文件,可以在swapfile文件夹下执行
sudo swapoff swap
检查:free -m
应该显示0
4.python运行问题
注意版本问题 python3 run_dse.py
附上升级版本 https://github.com/comododragon/linaii