QTcpSocket 同步函数

目标,qt程序作为客户端,windows下winsock作为服务器端,实现两端通信。

开始时写了一个小函数测试:

  1. QTcpSocket tmpSock;  
  2. tcpSock.connectToHost("59.64.159.87",7716);  
  3. tcpSock.write(buf,strlen(buf)+1);  
  4. msleep(3000);  
  5. tcpSock.disconnect();  
 

测试结果发现客户端只能连接到服务器端,而服务器端收不到客户端的消息。

初步揣测也许是Qt的socket机制使得socket缓冲队列没有即时发送。

换另一方法:

  1. QTcpSocket tmpSock;  
  2. char* buf ="hello";  
  3. tcpSock.connectToHost("59.64.159.87",7716);  
  4. tcpSock.write(buf,strlen(buf)+1);  
  5. msleep(3000);  
  6. tcpSock.disconnect();  
 

运行后,发现结果仍然不对。开始思考Qtsocket通信机制。想到这有可能是因为Qtcpsocket是非阻塞的方式引起的。

在网上查找,发现了一些资料。

QTcpSocket因为继承自QAbstractSocket,所以如果不采取一些措施的话,他就处于非阻塞方式,也就是事件编程,这有个好处就是可以在一个线程中实现多路tcp链接,节省资源,但是这种方式的编程难度比较大。

对于初涉这方面的朋友来说还不太适合,所有在满足要求的情况下还是阻塞方式的socket编程比较容易理解,QAbstractSocket里面提供了几个函数用于阻塞方式编程,利用好它就可以简单的编写出网络应用了:

  • waitForConnected() 等待链接的建立
  • waitForReadyRead() 等待新数据的到来
  • waitForBytesWritten() 等待数据写入socket
  • waitForDisconnected() 等待链接断开

当接收数据时,我们有个模式可以遵循:

  1. while (socket.bytesAvailable() < (int)nSize) {  
  2.              if (!socket.waitForReadyRead(Timeout)) {  
  3.                  emit error(socket.error(),  
  4. socket.errorString());  
  5.                  return;  
  6.              }  
  7.          }  
 

这段话的主要意思就是等待nSize个数的到来,这是个一定要遵守的接收数据模板,可以把它写成一个内联函数,如果段话满足条件,就可以容read读数了。

写数的话调用write,之后调用waitForBytesWritten来确定数据是否写完。

 

然后修改原来的代码。

  1. QTcpSocket tmpSock;  
  2. char* buf ="hello";  
  3. tcpSock.connectToHost("59.64.159.87",7716);  
  4. tcpSock.write(buf,strlen(buf)+1);  
  5. if(tcpSock.waitforreadyread(3000))  
  6.    emit SockCondition("successful");  
  7. else  
  8.    emit SockCondition("failed");  
  9. tcpSock.disconnect();  
 

运行测试成功

CUDA通信机制之同步函数(二)

07-06

上次我们讨论了关于blokc内线程同步,这次我们来探讨一下block间线程同步和kernel间同步。rn [b] 同步函数:memory fence 函数[/b]rn memory fence 函数是用来保证线程间数据通信的可靠性的,但与__syncthreads()函数不同的是,memory fence 函数并不要求所有线程都运行到同一位置,它只保证执行memory fence 函数的线程生产的数据能够安全地被其他线程消费。rn (1) __threadfence():一个线程调用__threadfence()后,该线程在该语句前对全局存储器或共享存储器的访问已经全部完成,执行的结果对grid中的所有线程可见。rn (2) __threadfence_block():一个线程调用__threadfence_block()后,该线程在该语句前对全局存储器或共享存储器的访问已经全部完成,执行的结果对block中的所有线程可见。rn memory fence函数使其他线程能够安全地消费当前线程生产的数据,多个线程间可以正确地操作共享数据,实现grid/block内的线程间通信。比如下面的例子:rn__device__ unsigned int count = 0;rn__shared__ bool isLastBlockDone;rn__global__ void sum(const float* array, unsigned int N, float* result)rn //每个block对输入数组的一个subset求和rn float partialSum = calculatePartialSum(array, N);rn if(threadIdx.x == 0)rn //0号线程存储局部和partialSum并负责写回全局存储器rn result[blockIdx.x] = partialSum;rn // 线程0要保证它的结果对所有其他的线程可见rn __threadfence();rn // 每个block的0号线程负责计算结束后做一次标记,count++rn unsigned int value = atomicInc(& count, gridDim.x);rn // 每个block的0号线程来判断该块是否是最后一个计算结束的块rn isLastBlockDone = (vlaue == (gridDim.x - 1));rn rn//做一次同步,保证每个线程读到正确的isLastBlockDone 值rn __syncthreads();rn rn if(isLastBlockDone)rn // 最后的那个block负责局部和(存储在result[0 .. gridDim.x -1])的求和rn float totalSum = calculateTotalSum(result);rn if(threadIdx.x == 0)rn // last block的线程0存储计算总和并将其写回全局存储器,count置0以保证下一个kernel的正常计数rn result[0] = totalSum;rn count = 0;rnrnrnrn 上面的例子实现的是对N个元素求和:每个block首先计算出数组的一个子序列的和,然后将结果存储在全局存储器中,当所有block完成这一步以后,再由最后一个完成求和操作的block从全局存储器中读入所有子序列之和,并计算最终结果。如果在存储部分和与计数器递增之间不进行fence操作,那么计数器中的值可能在存储子序列和之前就已经递增了,而此时最后一个block读到得子序列和可能还没有更新,造成计算结果错误。rn[b]kernel 间通信[/b]:可以同过global memory实现。GPU间的通信需要通过主机端内存进行,代价高昂;mapped memory功能允许多个设备从内核程序中直接访问同一块pinned memory。

CUDA通信机制之同步函数(一)

07-06

这次我们来探讨下CUDA的通信机制,主要涉及各种同步函数,今天我们重点查看下block内线程同步。rn同步函数:__syncthreads()rn__syncthreads()实现了线程块内的线程同步,它保证线程块中的所有线程都执行到同一位置。当任意一个thread运行到BAR标记处后,就会暂停运行;直到整个block中所有的thread都运行到BAR标记处以后,才继续执行下面的语句。这样,才能保证之前语句的执行结果对块内所有线程可见。rn例如下面的kernel函数:rn__global__ void transpose(float *odata, float *idata, int width, int height)rn__shared__ float block[BLOCK_DIM][BLOCK_DIM+1];//静态分配sharedMemrn//将矩阵块数据读入共享存储器rnunsigned int xIndex = blockIdx.x * BLOCK_DIM + threadIdx.x;rnunsigned int yIndex = blockIdx.x * BLOCK_DIM + threadIdx.y;rnif(xIndex < width) && (yIndex < height)//保证内存访问不会超过边界rnunsigned int index_in = yIndex * width + xIndex;rnblock[threadIdx.y][threadIdx.x] = idata[index_in];rn rnrn//将转置后的矩阵块写回全局存储器rnxIndex = blockIdx.y * BLOCK_DIM + threadIdx.x;rnyIndex = blockIdx.x * BLOCK_DIM + threadIdx.y;rnif(xIndex < width) && (yIndex < height)rnunsigned int index_out =yIndex *height +xIndex;rnodata[index_out]=block[threadIdx.x][threadIdx.y];rnrnrn该kernel函数没有加入__syncthreads(),这样线程就不会检查blocks[threadIdx.y][threadIdx.x]处的数据是否已经被其他warp中的线程写入新值,而会立即将blocks[threadIdx.y][threadIdx.x]处的数据写入 global memory,这样就会造成了错误。所以块内的线程在向 odata写操作之前必须调用一次同步__syncthreads(),才能保证所有线程都已经从 idata中正确读入数据。更改kernel函数如下:rn__global__ void transpose(float *odata, float *idata, int width, int height)rn__shared__ float block[BLOCK_DIM][BLOCK_DIM+1];//静态分配sharedMemrn//将矩阵块数据读入共享存储器rnunsigned int xIndex = blockIdx.x * BLOCK_DIM + threadIdx.x;rnunsigned int yIndex = blockIdx.x * BLOCK_DIM + threadIdx.y;rnif(xIndex < width) && (yIndex < height)//保证内存访问不会超过边界rnunsigned int index_in = yIndex * width + xIndex;rnblock[threadIdx.y][threadIdx.x] = idata[index_in];rn rn__syncthreads();rn//将转置后的矩阵块写回全局存储器rnxIndex = blockIdx.y * BLOCK_DIM + threadIdx.x;rnyIndex = blockIdx.x * BLOCK_DIM + threadIdx.y;rnif(xIndex < width) && (yIndex < height)rnunsigned int index_out =yIndex *height +xIndex;rnodata[index_out]=block[threadIdx.x][threadIdx.y];rnrnrn备注:只有在整个线程块都走向相同分支时,才能在条件语句里面使用__syncthreads(),否则可能引起错误。另外,一个warp内的线程不用同步。而且,在最理想的情况下,调用一次__syncthreads()需要至少四个时钟周期,但一般调用__syncthreads()都需要更多的时钟周期。因此,要尽量避免或节约使用__syncthreads().rn今天我们讨论了线程块内的同步函数,那么线程块间的同步函数是什么呢?我们应该如何应用呢?我们下期讨论。rn

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试