Arm平台下各种memcpy优化对比<三>

        因memcpy导致tda4vm上的h264解码占CPU较高而改弃,从网上找到各种memcpy的优化代码,在一起做了个运行速度对比,请查收;

#include <stdio.h>
#include <stdlib.h>     /* rand, srand */
#include <string.h>
#include <assert.h>
#include <sys/time.h>
#include <time.h>       /* time() */

/*
 * 可以一个字长一个字长的拷贝,而不需要逐个字节来拷贝
 */
void *memcpy_word_length(void *dst,const void *src, size_t num)
{
    assert((dst!=NULL)&&(src!=NULL));

    int wordnum = num/4;    // 计算有多少个32位,按4字节拷贝
    int slice = num%4;      // 剩余的按字节拷贝
    int * pintsrc = (int *)src;
    int * pintdst = (int *)dst;

    while(wordnum--)
        *pintdst++ = *pintsrc++;
    while (slice--)
        *((char *)pintdst++) =*((char *)pintsrc++);

    return dst;
}

/*
 * 考虑了地址重叠
 */
void *memmove_address_overlap(void *dst, const void *src, size_t len)
{
    //8字节长度
	double *srcdb, *dstdb;
	char *srcch, *dstch;
	size_t times, left;
 
	times = len / 8;
	left = len % 8;
	
	if (!src || !dst)	return dst;
 
	//从前往后复制
	if (dst < src) {
		srcdb = (double *)src;
		dstdb = (double *)dst;
		
		while (times--) {
			*dstdb++ = *srcdb++;
			len-=8;
		}
		
		srcch = (char *)srcdb;
		dstch = (char *)dstdb;
 
		while (left--) {
			*dstch++ = *srcch++;
		}
	}
	//从后往前复制
	else if (dst > src) {
		if (times > 0) {
			dstdb = (double *)(dst+len-8);
			srcdb = (double *)(src+len-8);	
		}
		
		while(times--) {
			*dstdb = *srcdb;
			dstdb--;srcdb--;
		}
		
		if (len > 8 && left) {
			srcch = (char *)(srcdb+1)-1;
			dstch = (char *)(dstdb+1)-1;
			while(left--) {
				*dstch-- = *srcch--;
			}
		}
		else {
      		srcch = (char *)src + (len-1);
      		dstch = (char *)dst + (len-1);	
      		
            while (len--)
	 	       *dstch-- = *srcch--;
		}
	}
	
	return dst;
}

static void get_rand_bytes(unsigned char *data, int len)
{
    int i;

    srand((unsigned)time(NULL)); //种下随机种子
    for (i = 0; i < len; i++) {
        data[i] = rand() % 255; //取随机数,并保证数在0-255之间
        //printf("%02X ", data[i]);
    }  
}

static int get_cur_time_us(void)
{
    struct timeval tv;

    gettimeofday(&tv, NULL);  //使用gettimeofday获取当前系统时间

    return (tv.tv_sec * 1000 * 1000 + tv.tv_usec); //利用struct timeval结构体将时间转换为ms
}

#define ARRAY_SIZE(n)  sizeof(n) / sizeof(n[0])

int main(void)
{
   int size_list[] = {
       1024 * 1024 * 10,  // 10MB
       1024 * 1024 * 1,  // 1MB
       1024 * 100, // 100KB
       1024 * 10, // 10KB
       1024 * 1, // 1KB
   };
   char *data1;
   char *data2;
   int t1;
   int t2;
   int i = 0;
  
   data1 = (char *)malloc(size_list[0]);
   data2 = (char *)malloc(size_list[0]);
  
   get_rand_bytes((unsigned char *)data1, size_list[0]);
  
   for (i = 0; i < ARRAY_SIZE(size_list); i++) {
       t1 = get_cur_time_us();
       memcpy(data2, data1, size_list[i]);
       t2 = get_cur_time_us();
       printf("copy %d bytes, memcpy   waste time %dus\n", size_list[i], t2 - t1);
      
       t1 = get_cur_time_us();
       memcpy_word_length(data2, data1, size_list[i]);
       t2 = get_cur_time_us();
       printf("copy %d bytes, memcpy_word_length  waste time %dus\n", size_list[i], t2 - t1);

       t1 = get_cur_time_us();
       memmove_address_overlap(data2, data1, size_list[i]);
       t2 = get_cur_time_us();
       printf("copy %d bytes, memmove_address_overlap  waste time %dus\n\n", size_list[i], t2 - t1);
   }
  
   free(data1);
   free(data2);
  
   return 0;
}

#if 0

copy 10485760 bytes, memcpy   waste time 7324us
copy 10485760 bytes, memcpy_word_length  waste time 12940us
copy 10485760 bytes, memmove_address_overlap  waste time 14450us

copy 1048576 bytes, memcpy   waste time 704us
copy 1048576 bytes, memcpy_word_length  waste time 1313us
copy 1048576 bytes, memmove_address_overlap  waste time 1220us

copy 102400 bytes, memcpy   waste time 81us
copy 102400 bytes, memcpy_word_length  waste time 96us
copy 102400 bytes, memmove_address_overlap  waste time 65us

copy 10240 bytes, memcpy   waste time 2us
copy 10240 bytes, memcpy_word_length  waste time 14us
copy 10240 bytes, memmove_address_overlap  waste time 6us

copy 1024 bytes, memcpy   waste time 0us
copy 1024 bytes, memcpy_word_length  waste time 1us
copy 1024 bytes, memmove_address_overlap  waste time 1us

#endif

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
kernel<<<>>>用法是指在CUDA编程中,使用<<<>>>符号来定义并行执行的内核函数。内核函数是在GPU上执行的函数,每个线程都会执行一次该函数。<<<>>>符号中的参数表示线程块(block)和线程(thread)的数量。例如,kernel<<<block, thread>>>()表示在block个线程块中,每个线程块中有thread个线程。 在上述示例中,kernel2和kernel3是两个并行执行的内核函数,<<<grid, block>>>表示在grid个线程块中,每个线程块中有block个线程。这样就可以同时启动多个线程块执行相同的内核函数。 在CUDA编程中,还可以使用__syncthreads()函数来同步线程。这个函数会让所有的线程在同一点等待,直到所有线程都执行到这个点。这可以用来确保线程之间的同步和协作。 另外,在示例中的cudaMemcpy()函数用于在主机和设备之间进行内存的数据传输。该函数的参数包括目标内存地址、源内存地址、数据数量和传输方向。例如,cudaMemcpy(dst, src, count, cudaMemcpyKind)表示将count个数据从src内存地址复制到dst内存地址。 综上所述,kernel<<<>>>用法是在CUDA编程中定义并行执行的内核函数,通过设置线程块和线程的数量来控制并发执行的规模。同时可以使用__syncthreads()函数来同步线程,以及使用cudaMemcpy()函数来进行主机和设备之间的数据传输。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [「并行学习」CUDA](https://blog.csdn.net/weixin_41468462/article/details/103378541)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值