一般我们聊到 netpoll 时,是指 Go runtime 中借助于epoll对套接字进行批量监听、数据到来时唤醒特定goroutine的机制。对应的代码存放在runtime/netpoll.go 和 runtime/netpoll_epoll.go (只考虑linux) 中。为此 runtime 提供了两大类函数:
第一类:调用方是 Go Runtime
- netpoll: 检查有事件发生的套接字,并返回处于pdReady状态的goroutine列表,基于epoll_wait;
- netpollBreak: 向 netpollBreakWr 写入一个字节数据,通过管道传到 netpollBreakRd,epoll_wait 监听到read pipe上的event,立即返回;
第二类:调用方是internal/poll、net、net/http等
- poll_runtime_pollServerInit(netpollGenericInit): 初始化poller,基于epoll_create1
- poll_runtime_pollOpen: 将套接字添加到监听列表,基于 epoll_ctl
- poll_runtime_pollWait: 等待套接字上的事件,可以休眠(gopark)当前goroutine, 借助于netpollblock函数
- poll_runtime_pollUnblock: 使用Unblock模式进行poll
- poll_runtime_pollClose: 将套接字从监听列表删除,基于 epoll_ctl
- poll_runtime_pollReset: nonblock模式下 prepareRead/prepareWrite 使用
这些函数都会被link到 internal/poll.runtime_xxx, xxx 可以是 runtime_pollServerInit/runtime_pollOpen等。
后面我们挑一些主要的函数来说一下。
netpollGenericInit 初始化 poller
netpollGenericInit 保证 poller 被初始化,原子变量netpollInited保证其仅被初始化一次。
这个函数只是一个壳,初始化逻辑封装在netpollinit函数中,依赖于平台具体的实现。linux下,init的逻辑是:
- 通过epoll_create1系统调用创建 epoll fd
- 创建一对 read/write pipe。pipe的一个特性是向 write pipe写入数据,read pipe 就能收到同样的数据
- 通过epoll_ctl将 write pipe 对应的fd 加入到监听列表
单独创建一对pipe后,runtime就能够按需中断epoll_wait,让netpoll函数立即返回。
netpoll函数
netpoll函数的功能是检查可用的网络连接,它的工作流程是(happy path):
- 创建size=128的epollevent数组, 以接收事件
- 调用epollwait等待事件: 依赖epoll_wait系统调用
- 遍历epoll events,对于每个event
- 创建一个pollDesc对象
- 调用netpollready,找到对应的goroutine,并将其状态从pdWait修改为pdReady
- 返回pdReady状态的 goroutine列表 (gList)
struct pollDesc中包含两个信号量字段,可以表示四种状态:
- pdReady: io ready信号等待被接收,goroutine可以消费这个信号,逻辑上是把信号量改成nil
- pdWait: goroutine已经准备好在该信号量上阻塞,但还没有阻塞;
- 如果goroutine通过gopark阻塞,状态会变成G pointer
- 如果并发的io ready信号到达,状态会改成pdReady
- 如果并发的timeout/close信号到达,状态会被改成nil
- G pointer: goroutine被阻塞在信号量上,可以被下面两类事件唤醒:
- io ready信号到来时,状态被修改好pdReady
- timeout/close信号到来时,状态被修改为nil
- nil: 不是上面三种状态
对应一些辅助函数:
- netpollblock 函数将goroutine状态从 pdReady 转化成 pdWait,并gopark当前goroutine
- netpollunblock 函数将goroutine状态从 pdWait 转换为 pdReady 或 nil
netpoll函数的代码在runtime/netpoll_epoll.go中,部分代码如下:
备注: netpollready 函数借助于netpollunblock修改goroutine状态,并将其加到 io ready 的 goroutine list。
runtime在调用 netpoll 时,通常采用的是 nonblock 模式(delay=0), 只有在 findrunnable 的最后一个环节,会检查是否有单独的M(GMP中的M)进行net polling,如果没有,会block等待delay参数指定的时间。
netpollBreak 函数
netpollBreak函数的功能比较简单,但实现比较有意思。它和netpoll函数通过变量netpollWakeSig进行交互,由于在不同的goroutine中,所以对于该变量的操作都是原则操作。
poll_runtime_pollOpen 函数
poll_runtime_pollOpen 的逻辑分为三块:
- 给 pollDesc 分配内存
- 初始化 pollDesc 对象
- 借助于 netpollopen 注册epoll监听(netpollopen在linux下是 epoll_ctl)
- 返回 pollDesc 对象
poll_runtime_pollOpen函数的实现位于 runtime/netpoll.go 中, 主要逻辑如下:
poll_runtime_pollWait 函数
poll_runtime_pollWait 函数只是对 netpollblock 函数的封装,增加了容错。值得注意的是,该函数不是runtime触发的,而是用户程序触发的。
下面我们看下用户程序如何触发 poll_runtime_xxx 系列的函数。首先,套接字分为两类:LISTEN套接字(Server套接字) 和 ESTABLISHED套接字(TCPConn);
- LISTEN 套接字通过系统调用 socket/bind/listen 去生成;
- ESTABLISHED 套接字通过系统调用 accept 去生成;
LISTEN套接字(Server套接字)
从http server的角度来看,LISTEN套接字注册epoll监听的链路如下:
ESTABLISHED套接字(TCPConn)
http server accept 新的tcp conn
关于 net.netFD struct
netFD是对套接字(网络文件描述符)的封装。对于Server套接字而言,可以通过accept方法从Server套接字(LISTEN套接字)获取新的TCP连接(或ESTABLISHED套接字)。Linux的accept系统调用返回的ESTABLISHED套接字是一个int值,通过 newFD 和 init 函数将其封装为一个完整的 netFD结构,后面会被封装为一个net.TCPConn。
对于操作系统而言,LISTEN套接字和ESTABLISHED套接字都只是一个int类型的文件描述符,没有本质区别。系统调用accept和read都是从套接字读取数据,所以epoll里会放到一个batch里去监听。
这是 netFD 的定义和accept方法的实现:
net.netFD 依赖 poll.FD 实现poll功能。区别正如名字所展示,net.netFD是封装了网络相关的功能,而 poll.FD是更为通用的FD,封装了文件描述符上能进行的操作。其定义如下
poll.FD 依赖 poll.pollDesc 实现poll功能。poll.pollDesc 实现了 IO polling 的功能。poll.pollDesc 有一系列的方法,比如 init、wait、close、prepare 等都是对 runtime_pollXXX 函数系列的封装,下面诗pollDesc的部分逻辑:
推荐阅读
福利
我为大家整理了一份从入门到进阶的Go学习资料礼包,包含学习建议:入门看什么,进阶看什么。关注公众号 「polarisxu」,回复 ebook 获取;还可以回复「进群」,和数万 Gopher 交流学习。