if (!pskb_may_pull(skb, iph->ihl*4)) goto inhdr_error;
if (ip_fast_csum((u8 *)iph, iph->ihl) != 0) goto inhdr_error;
if (skb->len < len || len < (iph->ihl<<2)) goto inhdr_error;
如果一切都OK,那么就转入到钩子函数执行,如下:
return NF_HOOK(PF_INET, NF_IP_PRE_ROUTING, skb, dev, NULL,ip_rcv_finish); 再发送过程中,简单的介绍过钩子函数,这里就不再累述了。钩子函数最终会转到ip_rcv_finish()函数执行。接下来分析下看这个函数。 2)ip_rcv_finish()
到此,ip_rcv_finish函数真正要完成一些IP层的工作了。IP层要做的主要工作就是路由,要决定把数据包往那里送。路由的工作是通过函数ip_route_input()实现的。对于进来的包可能的路由有这些: 属于本地的数据(即是需要传递给TCP,UDP,IGMP这些上层协议的) ; 需要转发的数据包(网关或者NAT服务器之类的); 不可能路由的数据包(地址信息有误);具体所需要做的工作如下:
2.1)首先判断skb->dst是否等于NULL,也就是查看数据包中是否有目的地址。如果没有的话,该函数会调用ip_route_input()函数在内核的路由hash表中寻找一个目的地址,其主要代码如下:
int ip_route_input(struct sk_buff *skb, u32 daddr, u32 saddr, u8 tos, struct net_device *dev) {
struct rtable * rth; unsigned hash; int iif = dev->ifindex;
tos &= IPTOS_RT_MASK;
hash = rt_hash_code(daddr, saddr ^ (iif << 5), tos);//计算hash值
rcu_read_lock();
for (rth = rt_hash_table[hash].chain; rth; rth = rth->u.rt_next) //在相
//同的hash链表中搜索能满足条件的目的地址
{
smp_read_barrier_depends(); if (rth->fl.fl4_dst == daddr && rth->fl.fl4_src == saddr && rth->fl.iif == iif && rth->fl.oif == 0 && #ifdef CONFIG_IP_ROUTE_FWMARK
rth->fl.fl4_fwmark == skb->nfmark && #endif
rth->fl.fl4_tos == tos) {
rth->u.dst.lastuse = jiffies;
dst_hold(&rth->u.dst); rth->u.dst.__use++;
RT_CACHE_STAT_INC(in_hit); rcu_read_unlock(); skb->dst = (struct dst_entry*)rth;//找到之后赋予skb->dst return 0; } ? ? ? ?
return ip_route_input_slow(skb, daddr, saddr, tos, dev);
最后调用了ip_route_input_slow()函数,在这个函数中针对所传送过来的数据包类型分别进行了处理,我们这里要讨论的是本地数据包,也就是需要传送给TCP,UDP等这些协议的数据包。具体看这个子代码: local_input:
rth = dst_alloc(&ipv4_dst_ops); if (!rth)
goto e_nobufs;
rth->u.dst.output= ip_rt_bug;
atomic_set(&rth->u.dst.__refcnt, 1); rth->u.dst.flags= DST_HOST; if (in_dev->cnf.no_policy)
rth->u.dst.flags |= DST_NOPOLICY; rth->fl.fl4_dst = daddr; rth->rt_dst = daddr; rth->fl.fl4_tos = tos; #ifdef CONFIG_IP_ROUTE_FWMARK
rth->fl.fl4_fwmark= skb->nfmark; #endif
rth->fl.fl4_src = saddr; rth->rt_src = saddr; #ifdef CONFIG_IP_ROUTE_NAT
rth->rt_dst_map = fl.fl4_dst; rth->rt_src_map = fl.fl4_src; #endif
#ifdef CONFIG_NET_CLS_ROUTE
rth->u.dst.tclassid = itag; #endif
rth->rt_iif =
rth->fl.iif = dev->ifindex; rth->u.dst.dev = &loopback_dev; dev_hold(rth->u.dst.dev); rth->rt_gateway = daddr; rth->rt_spec_dst= spec_dst;
rth->u.dst.input= ip_local_deliver; rth->rt_flags = flags|RTCF_LOCAL; if (res.type == RTN_UNREACHABLE) { rth->u.dst.input= ip_error; rth->u.dst.error= -err;
rth->rt_flags &= ~RTCF_LOCAL; }
rth->rt_type = res.type; goto intern;
首先看第1句,rth = dst_alloc(&ipv4_dst_ops);该语句是为struct dst_entry数据结构分配一个空间,之后就是对该数据结构进行填充,这里需要注意的是rth->u.dst.input= ip_local_deliver;该行对后面将要讲解的dst->input函数进行了填充,就是具体由ip_local_deliver函数来处理。 接下来就看标记intern: intern:
err = rt_intern_hash(hash, rth, (struct rtable**)&skb->dst);
rt_intern_hash()主要是将rth加入到hash队列之中,之后将其赋给skb->dst,也就是在skb中添加了这样一个路由地址包了!
2.2)由于接下来要在skb数据包上添加一个ip_option的数据结构,所以skb就需要在头部重新添加一个头部空间来加载这些数据量,如下:
if (skb_cow(skb, skb_headroom(skb)))//拷贝一个skb头部信息 {
IP_INC_STATS_BH(IpInDiscards); goto drop; }
iph = skb->nh.iph;//重新获取数据包头 ? ? ?
if (ip_options_rcv_srr(skb))//添加ip_option数据 goto drop;
2.3)最后调用return dst_input(skb); 该函数的完整代码如下:
static inline int dst_input(struct sk_buff *skb) {
int err;
for (;;) {
err = skb->dst->input(skb);
if (likely(err == 0)) return err;
/* Oh, Jamal... Seems, I will not forgive you this mess. :-) */ if (unlikely(err != NET_XMIT_BYPASS)) return err; }
}
代码功能很简单,就是不断地调用skb->dst->input(skb)函数,这个函数其实就是和我们在发送过程的网络层中最后所讨论的那个函数skb->dst->output(skb)是对应的。就是将数据包传送到上一层:传输层.具体的过程如下:
由上面的讨论我们已经知道了,input函数实际上是由ip_local_deliver()来处理,在这个函数中调用了钩子函数NF_HOOK,最后会转到一个名为ip_local_diliver_finish()的函数来处理,在这个函数中我们只需要注意以下两行: if ((ipprot = inet_protos[hash]) != NULL) { int ret; ? ? ? ?
ret = ipprot->handler(skb); 在这两行代码中,我们注意到有个inet_protos,这是一个承载协议类型的数据结构,在ipv4中是如下定义的:
static struct inet_protocol tcp_protocol = { .handler = tcp_v4_rcv, .err_handler = tcp_v4_err, .no_policy = 1, };
到此,我们明白了,接下来在传输层中首先要执行的函数是tcp_v4_rcv()。
Layer 4: 传输层(Transport Layer)
1) tcp_v4_rcv(skb) 该函数按如下步骤进行:
1.1) 获取tcp头数据结构,并且在skb->cb[]中添加数据包控制信息,如下:
th = skb->h.th;
TCP_SKB_CB(skb)->seq = ntohl(th->seq);
TCP_SKB_CB(skb)->end_seq = (TCP_SKB_CB(skb)->seq + th->syn + th->fin + skb->len - th->doff * 4); TCP_SKB_CB(skb)->ack_seq = ntohl(th->ack_seq); TCP_SKB_CB(skb)->when = 0;
TCP_SKB_CB(skb)->flags = skb->nh.iph->tos; TCP_SKB_CB(skb)->sacked = 0; 以上的TCP_SKB_CB是获取skb->cb[]的宏。
1.2) 将skb中的源地址,目的地址,数据包指针都转存到一个sock的数据结构中,在
发送过程中讲过这个数据结构,它是沟通传输层和协议层之间的重要数据类型。 sk = __tcp_v4_lookup(skb->nh.iph->saddr, th->source,
skb->nh.iph->daddr, ntohs(th->dest), tcp_v4_iif(skb)); 1.4) 调用tcp_rcv_established
在该函数中会调用tcp_data_queue(),该函数主要是用来维护receive queue以及out_of_order_queue两个队列的。当用户空间正在等待内核的数据包时,内核就会调用如下函数将数据包从内核拷贝到用户空间skb_copy_datagram_iovec(),否则内核会将sk_buff挂载到socket的队列之中以等待用户需要时再进行拷贝。最后函数会调用
sk_data_ready()函数来标明数据可以获取,同时也唤醒等待数据包的用户进程。
Layer 5:应用层(Application Layer)
最后一层就是和用户直接接触的一层。当用户调用read,recvfrom,recvmsg时都会陷入内核最后都调用__sock_recvmsg。该函数首先进行权限检查,当是内核权限时,该函数会调用下层(即传输层)套接字所定义的虚拟函数recvmsg,而这个函数针对不同的协议会定义不同的处理函数,在TCP中就是tcp_recvmsg()。该函数也是使用skb_copy_datagram_iovec()函数从套接字队列中将数据拷贝到用户空间,或是使用sk_wait_data()等待内核空间数据包的到来,这样就返到了上层的1.4)最后所阐述的,就是当数据包到来时内核会使用sk_data_ready()函数来标明数据可以获得,同时启动等待队列。到此数据包的接收就算是圆满完成了!