socket网络编程—基础理论
套接字概念
Socket
本身有“插座”的意思,在Linux
环境下,用于表示进程间网络通信的特殊文件类型。本质为内核借助缓冲区形成的伪文件。
既然是文件,那么理所当然的,我们可以使用文件描述符引用套接字。与管道类似的,Linux
系统将其封装成文件的目的是为了统一接口,使得读写套接字和读写文件的操作一致。区别是管道主要应用于本地进程间通信,而套接字多应用于网络进程间数据的传递。
在TCP/IP
协议中,“IP
地址+TCP
或UDP
端口号”唯一标识网络通讯中的一个进程。“IP
地址+端口号”就对应一个socket
。欲建立连接的两个进程各自有一个socket
来标识,那么这两个socket
组成的socket pair
就唯一标识一个连接。因此可以用Socket
来描述网络连接的一对一关系。
套接字通信原理如下图所示:
在网络通信中,套接字一定是成对出现的。一端的发送缓冲区对应对端的接收缓冲区。我们使用同一个文件描述符索发送缓冲区和接收缓冲区。
网络字节序
内存中的多字节数据相对于内存地址有大端和小端之分,磁盘文件中的多字节数据相对于文件中的偏移地址也有大端小端之分。网络数据流同样有大端小端之分,发送主机通常将发送缓冲区中的数据按内存地址从低到高的顺序发出,接收主机把从网络上接到的字节依次保存在接收缓冲区中,也是按内存地址从低到高的顺序保存,因此,网络数据流的地址应这样规定:先发出的数据是低地址,后发出的数据是高地址。
****TCP/IP
**协议规定,网络数据流应采用大端字节序,即低地址高字节。**例如UDP段格式,地址0-1
是16
位的源端口号,如果这个端口号是1000(0x3e8)
,则地址0
是0x03
,地址1
是0xe8
,也就是先发0x03
,再发0xe8
,这16
位在发送主机的缓冲区中也应该是低地址存0x03
,高地址存0xe8
。但是,如果发送主机是小端字节序的,这16
位被解释成0xe803
,而不是1000
。因此,发送主机把1000
填到发送缓冲区之前需要做字节序的转换。同样地,接收主机如果是小端字节序的,接到16
位的源端口号也要做字节序的转换。如果主机是大端字节序的,发送和接收都不需要做转换。同理,32
位的IP
地址也要考虑网络字节序和主机字节序的问题。
为使网络程序具有可移植性,使同样的C
代码在大端和小端计算机上编译后都能正常运行,可以调用以下库函数做网络字节序和主机字节序的转换。
总结:
大端字节序:数据高的字节保存在地地址。
小端字节序:数据高的字节保存在高地质。
#include <arpa/inet.h>
uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
uint32_t ntohl(uint32_t netlong);
uint16_t ntohs(uint16_t netshort);
h
表示host
,n
表示network
,l
表示32
位长整数,s
表示16
位短整数。
如果主机是小端字节序,这些函数将参数做相应的大小端转换然后返回,如果主机是大端字节序,这些函数不做转换,将参数原封不动地返回。
IP
地址转换函数
早期:
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
int inet_aton(const char *cp, struct in_addr *inp);
in_addr_t inet_addr(const char *cp);
char *inet_ntoa(struct in_addr in);
只能处理IPv4
的ip
地址
不可重入函数
注意参数是struct in_addr
现在:
#include <arpa/inet.h>
int inet_pton(int af, const char *src, void *dst);
const char *inet_ntop(int af, const void *src, char *dst, socklen_t size);
支持IPv4
和IPv6
可重入函数
其中inet_pton
和inet_ntop
不仅可以转换IPv4
的in_addr
,还可以转换IPv6
的in6_addr
。
因此函数接口是void *addrptr
。
代码实现判断本机是大/小端字节序
bool IsLittle()
{
int i = 1;
char *p = (char*)&i;
return *p == 1;
}
sockaddr
数据结构
strcut sockaddr
很多网络编程函数诞生早于IPv4
协议,那时候都使用的是sockaddr
结构体,为了向前兼容,现在sockaddr
退化成了(void *
)的作用,传递一个地址给函数,至于这个函数是sockaddr_in
还是sockaddr_in6
,由地址族确定,然后函数内部再强制类型转化为所需的地址类型。
struct sockaddr {
sa_family_t sa_family; /* address family, AF_xxx */
char sa_data[14]; /* 14 bytes of protocol address */
};
使用 sudo grep -r "struct sockaddr_in {
" /usr
命令可查看到struct sockaddr_in
结构体的定义。一般其默认的存储位置:/usr/include/linux/in.h
文件中。(man 7 ip)
struct sockaddr_in {
__kernel_sa_family_t sin_family; /* Address family */ 地址结构类型
__be16 sin_port; /* Port number */ 端口号
struct in_addr sin_addr; /* Internet address */ IP地址
/* Pad to size of `struct sockaddr'. */
unsigned char __pad[__SOCK_SIZE__ - sizeof(short int) -
sizeof(unsigned short int) - sizeof(struct in_addr)];
};
struct in_addr { /* Internet address. */
__be32 s_addr;
};
struct sockaddr_in6 {
unsigned short int sin6_family; /* AF_INET6 */
__be16 sin6_port; /* Transport layer port # */
__be32 sin6_flowinfo; /* IPv6 flow information */
struct in6_addr sin6_addr; /* IPv6 address */
__u32 sin6_scope_id; /* scope id (new in RFC2553) */
};
struct in6_addr {
union {
__u8 u6_addr8[16];
__be16 u6_addr16[8];
__be32 u6_addr32[4];
} in6_u;
#define s6_addr in6_u.u6_addr8
#define s6_addr16 in6_u.u6_addr16
#define s6_addr32 in6_u.u6_addr32
};
#define UNIX_PATH_MAX 108
struct sockaddr_un {
__kernel_sa_family_t sun_family; /* AF_UNIX */
char sun_path[UNIX_PATH_MAX]; /* pathname */
};
IPv4
和IPv6
的地址格式定义在netinet/in.h
中,IPv4
地址用sockaddr_in
结构体表示,包括16
位端口号和32
位IP
地址,IPv6
地址用sockaddr_in6
结构体表示,包括16
位端口号、128
位IP
地址和一些控制字段。UNIX Domain Socket
的地址格式定义在sys/un.h
中,用sock-addr_un
结构体表示。各种socket
地址结构体的开头都是相同的,前16
位表示整个结构体的长度(并不是所有UNIX
的实现都有长度字段,如Linux
就没有),后16
位表示地址类型。IPv4、IPv6
和Unix Domain Socket
的地址类型分别定义为常数AF_INET
、AF_INET6
、AF_UNIX
。这样,只要取得某种sockaddr
结构体的首地址,不需要知道具体是哪种类型的sockaddr
结构体,就可以根据地址类型字段确定结构体中的内容。因此,socket API
可以接受各种类型的sockaddr
结构体指针做参数,例如bind
、accept
、connect
等函数,这些函数的参数应该设计成void *
类型以便接受各种类型的指针,但是sock API
的实现早于ANSI C
标准化,那时还没有void *
类型,因此这些函数的参数都用struct sockaddr *
类型表示,在传递参数之前要强制类型转换一下,例如:
struct sockaddr_in servaddr;
bind(listen_fd, (struct sockaddr *)&servaddr, sizeof(servaddr)); /* initialize servaddr */
网络套接字函数
socket模型创建流程图
socket函数
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int socket(int domain, int type, int protocol);
domain:
AF_INET 这是大多数用来产生socket的协议,使用TCP或UDP来传输,用IPv4的地址
AF_INET6 与上面类似,不过是来用IPv6的地址
AF_UNIX 本地协议,使用在Unix和Linux系统上,一般都是当客户端和服务器在同一台及其上的时候使用
type:
SOCK_STREAM 这个协议是按照顺序的、可靠的、数据完整的基于字节流的连接。这是一个使用最多的socket类型,这个socket是使用TCP来进行传输。
SOCK_DGRAM 这个协议是无连接的、固定长度的传输调用。该协议是不可靠的,使用UDP来进行它的连接。
SOCK_SEQPACKET该协议是双线路的、可靠的连接,发送固定长度的数据包进行传输。必须把这个包完整的接受才能进行读取。
SOCK_RAW socket类型提供单一的网络访问,这个socket类型使用ICMP公共协议。(ping、traceroute使用该协议)
SOCK_RDM 这个类型是很少使用的,在大部分的操作系统上没有实现,它是提供给数据链路层使用,不保证数据包的顺序
protocol:
传0 表示使用默认协议。
返回值:
成功:返回指向新创建的socket的文件描述符,失败:返回-1,设置errno
socket()
打开一个网络通讯端口,如果成功的话,就像open()
一样返回一个文件描述符,应用程序可以像读写文件一样用read/write
在网络上收发数据,如果socket()
调用出错则返回-1
。
对于IPv4
,domain
参数指定为AF_INET
。
对于TCP
协议,type
参数指定为SOCK_STREAM
,表示面向流的传输协议。
对于UDP
协议,则type
参数指定为SOCK_DGRAM
,表示面向数据报的传输协议。
protocol
参数指定为0
即可。
bind函数
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
sockfd:
socket文件描述符
addr:
构造出IP地址加端口号
addrlen:
sizeof(addr)长度
返回值:
成功返回0,失败返回-1, 设置errno
服务器程序所监听的网络地址和端口号通常是固定不变的,客户端程序得知服务器程序的地址和端口号后就可以向服务器发起连接,因此服务器需要调用bind绑定一个固定的网络地址和端口号。
bind()
的作用是将参数sockfd
和addr
绑定在一起,使sockfd
这个用于网络通讯的文件描述符监听addr
所描述的地址和端口号。struct sockaddr *
是一个通用指针类型,addr
参数实际上可以接受多种协议的sockaddr
结构体,而它们的长度各不相同,所以需要第三个参数addrlen
指定结构体的长度。如:
struct sockaddr_in servaddr;
bzero(&servaddr, sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
servaddr.sin_port = htons(8080);
首先将整个结构体清零,然后设置地址类型为AF_INET
,网络地址为INADDR_ANY
,这个宏表示本地的任意IP
地址,因为服务器可能有多个网卡,每个网卡也可能绑定多个IP
地址,这样设置可以在所有的IP
地址上监听,直到与某个客户端建立了连接时才确定下来到底用哪个IP
地址,端口号为8080
。
`listen`函数
**同时允许多少个客户端与服务器建立连接**
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int listen(int sockfd, int backlog);
sockfd:
socket文件描述符
backlog:
**排队建立3次握手队列和刚刚建立3次握手队列的链接数和
最大监听个数128**
listen()成功返回0,失败返回-1。
查看系统默认backlog
cat /proc/sys/net/ipv4/tcp_max_syn_backlog
典型的服务器程序可以同时服务于多个客户端,当有客户端发起连接时,服务器调用的accept()
返回并接受这个连接,如果有大量的客户端发起连接而服务器来不及处理,尚未accept
的客户端就处于连接等待状态,listen()
声明sockfd
处于监听状态,并且最多允许有backlog
个客户端处于连接待状态,如果接收到更多的连接请求就忽略。
accept函数
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);
sockdf:
socket文件描述符
addr:
传出参数,返回链接客户端地址信息,含IP地址和端口号
addrlen:
传入传出参数(值-结果),传入sizeof(addr)大小,函数返回时返回真正接收到地址结构体的大小
返回值:
成功返回一个新的socket文件描述符,用于和客户端通信,失败返回-1,设置errno
三方握手完成后,服务器调用accept()
接受连接,如果服务器调用accept()
时还没有客户端的连接请求,就阻塞等待直到有客户端连接上来。addr
是一个传出参数,accept()
返回时传出客户端的地址和端口号。addrlen
参数是一个传入传出参数(value-result argument
),传入的是调用者提供的缓冲区addr
的长度以避免缓冲区溢出问题,传出的是客户端地址结构体的实际长度(有可能没有占满调用者提供的缓冲区)。如果给addr
参数传NULL
,表示不关心客户端的地址。
服务器程序结构是这样的:
while (1) {
cliaddr_len = sizeof(cliaddr);
connfd = accept(listenfd, (struct sockaddr *)&cliaddr, &cliaddr_len);
n = read(connfd, buf, MAXLINE);
......
close(connfd);
}
整个是一个while
死循环,每次循环处理一个客户端连接。由于cliaddr_len
是传入传出参数,每次调用accept()
之前应该重新赋初值。
accept()
的参数listenfd
是先前的监听文件描述符,而accept()
的返回值是另外一个文件描述符connfd
,之后与客户端之间就通过这个connfd
通讯,最后关闭connfd
断开连接,而不关闭listenfd
,再次回到循环开头listenfd
仍然用作accept
的参数。
accept()
成功返回一个文件描述符,出错返回-1
。
connect函数
实质为TCP的三次握手过程
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
sockdf:
socket文件描述符
addr:
传入参数,指定服务器端地址信息,含IP地址和端口号
addrlen:
传入参数,传入sizeof(addr)大小
返回值:
成功返回0,失败返回-1,设置errno
客户端需要调用connect()连接服务器,connect和bind的参数形式一致,区别在于bind的参数是自己的地址,而connect的参数是对方的地址。connect()成功返回0,出错返回-1。