最近在用DM6437做图像处理,里面用到了链表实现的堆栈操作,这就需要大量的内存申请、释放,感觉这段函数有点耗时,所以就对DSP中片内、片外内存申请,不同的内存申请函数(malloc,MEM_alloc,MEM_calloc)耗时做了一下对比,测试是通过DSPBIOS提供的clock()函数得到,得出以下结论:
1. 在L1DSRAM比在DDR2申请内存快很多(一个数量级以上)。
2. MEM_alloc比MEM_calloc快很多(一个数量级以上),不需要把申请的内存清零时就不清零。
3. MEM_alloc/MEM_calloc申请内存是否对齐对速度无影响。
4. MEM_alloc比malloc要慢一点(以前测试差几倍,这次测试两者时间差不多),但是MEM_alloc与malloc+手动内存对齐相比时间相当。
5.测试发现在L1DRAM申请一个数组和在DDR2申请一个数组,然后对数组中的数进行访问、修改,耗时几乎一样,个人猜测应该是chche起了作用,把DDR2中的数据及时的搬到cache中,cpu到cache中访问与到L1DRAM访问的时间一样,所以在L1DRAM访问数组的时间并没有像期待的那样会减少。
因为我要处理的图像大小是固定的,需要用到堆栈操作的图像又是其中的一小部分,所以我直接在内存中申请了一块固定的足够的内存(当做数组),通过数组实现的堆栈来处理,速度比原来快了1倍,但是这个结果感觉还不是太理想,后面再考虑一下是不是这段程序结构、编写方式不好导致编译器的优化性能没有发挥出来。