Linux上TCP丢失小包不可见的解决
作者:千里孤行(http://blog.csdn.net/yanghehong)
有网友在做一个Linux上的客户端碰到这样的问题:
我们在Linux下开发一个网络客户端程序(服务器是不可修改的),不断向服务器不定期发送一些很小的包(一般只有几十字节),现在出现这种情况:大部分包正常发送,但是当无线Modem断开的时候,如果这个时候刚好有一个小包,就可能丢失,但在程序中却显示已经发送成功,导致丢包。
我们分析原因是这样:
1:主程序创建Socket,TCP/IP方式,并采用Stream方式
2:主程序调用Write,写入小包到系统的Socket缓冲区,并返回成功写入,由于字节数很小,所以一般都立即返回写入成功!
3:Linux TCP/IP协议栈把Socket缓冲区数据发送到服务器
如果第二步完成,刚好在第三步出现无线Modem断开的情况,就会导致主程序以为已经发送成功了,但服务器收不到的情况。
我们在网络上搜索了大量的资料,但是没有找到最终的解决方案,一般都是要求修改协议,加上对小包的ACK处理,但我们这边无法控制服务器。
我们也试着控制KeepAlive和NoDelay,但还是没效果:
//对sock_cli设置KEEPALIVE和NODELAY
len = sizeof(unsigned int);
setsockopt(sock_cli, SOL_SOCKET, SO_KEEPALIVE, &optval, len);//使用KEEPALIVE
setsockopt(sock_cli, IPPROTO_TCP, TCP_NODELAY, &optval, len);//禁用NAGLE算法
请问有什么方式可以解决这种情况?
如果是Windows的,可以把内核的发送buffer设为0,也就是socket的SO_SNDBUF选项。那么直到服务器TCP收到数据并ack了,客户端的写入才返回成功。
不过这种设SO_SNDBUF的方法在Linux上是行不通的。Linux不让把发送buffer设为0。
Linux内核中的代码是这样的:
Socket.c
可以看到,socket的发送缓冲区sk_sndbuf是不让你设的太大或太小的。你给的值太小(包括0),sk_sndbuf会被设为默认值SOCK_MIN_SNDBUF,也就是2048.
以上多种方法(包括网友已经尝试的多种方法),都在努力把数据即刻发出去,想在网络断开时发送完毕,结果都失败。很多同类型方法都行不通的时候,可以试试换个思路。
该问题换一种说法是,当无线modem断开时,有数据发送没成功,应用程序却误判为成功。
既然发送失败(有残留没发送出去)已经不可避免,那么就承认这个失败。在这种情况下,客户端要多做一步,找出这些残留有多少。
使用Linux的这个API
ioctl(tcp_socket, SIOCOUTQ, &value);
可以得到TCP socket发送队列里头还没有发送出去的数据有多少。
如果不为0,那么证明最后一次发送是没有成功的,尽管写入buffer成功。这时客户端程序就显示失败就可以了。