I/O 模型 04 - 多路 I/O 就绪通知

By 09月22日 2016 OS IO select poll SIGIO epoll kqueue

多路 I/O 就绪通知

在实际应用中，特别是 Web 服务器，同时处理大量的文件描述符是必不可少的，但是使用同步非阻塞 I/O 显然不是最佳的选择，在这种模型下，我们知道如果服务器想要同时接收多个 TCP 连接的数据，就必须轮流对每个 socket 调用接收数据的方法，比如 recv()。不管这些 socket 有没有可以接收的数据，都要询问一遍，假如大部分 socket 并没有数据可以接收，那么进程便会浪费很多 CPU 时间用于检查这些 socket，这显然不是我们所希望看到的。

多路 I/O 就绪通知的出现，提供了对大量文件描述符就绪检查的高性能方案，它允许进程通过一种方法来同时监视所有文件描述符，并可以快速获得所有就绪的文件描述符，然后只针对这些文件描述符进行数据访问。

回到买面条的故事中，假如你不止买了一份面条，还在其他几个小吃店买了饺子、粥、馅饼等，因为一起逛街的朋友看到你的面条后也饿了。这些东西都需要时间来制作。在同步 I/O 非阻塞模型中，你要轮流不停地去各个小吃店询问进度，痛苦不堪。
现在引入多路 I/O 就绪通知后，小吃城管理处给大厅安装了一块电子屏幕，以后所有小吃店的食物做好后，都会显示在屏幕上，这可真是一个好消息，你只需要间隔性地看看大屏幕就可以了，也许你还可以同时逛逛附近的商店，在不远处也可以看到大屏幕。

需要注意的是，I/O 就绪通知只是帮助我们快速获得就绪的文件描述符，当得知数据就绪后，就访问数据本身而言，仍然需要选择阻塞或非阻塞的访问方式，一般我们选择非阻塞方式，以防止任何意外的等待阻塞整个进程，比如有时就绪通知只代表一个内核的提示，也许此时文件描述符尚未真正准备好或者已经被客户端关闭连接。

UNIX 家族历史

由于平台和历史等原因，多路 I/O 就绪通知有很多不同的实现，在检查大量文件描述符时的性能也存在一定的差异。说到这里，我们有必要简单介绍一下 UNIX 家族的历史，这有助于我们更加深刻地了解这些依赖于平台的技术。

记住，最早的 UNIX 诞生于贝尔实验室，在随后的十年，UNIX 在学术机构和大型企业中被广泛应用。贝尔实验室是 AT&T 收购了西方电子公司的研究部门后设立的一个独立实体， AT&T 这时以廉价的许可将 UNIX 的源代码授权给一些研究机构和大学，供它们研究和教学使用，这使得很多机构在此基础上对 UNIX 进行了完善和扩展，促进了 UNIX 的发展，同时产生了一些新的变种版本，其中最著名的变种之一便是由加州大学 Berkeley 分校开发的 BSD，这一变种对 UNIX 有着重大贡献和深远影响。

由于 BSD 开始被很多企业广泛采用，不久之后，AT&T 意识到 UNIX 的商业价值，于是开始停止源代码授权，同时为了统一混乱的 UNIX 版本，AT&T 综合了其他大学和企业开发的各种 UNIX，开发了 UNIX System V Release 1。

这时候 BSD 已经非常成熟，比如 select 就诞生于这时候的 4.2 BSD，而 TCP/IP 则诞生于 4.1 BSD，它的代码也成为以后几乎所有操作系统 TCP/IP 实现代码的前辈，包括 Windows。 BSD 不断增大的影响力终于引起了 AT&T 的关注，AT&T 将 BSD 告上了法庭，一场源代码版本的官司开始了，一直持续到 AT&T 将 UNIX 实验室项目卖给 Novell。

Novell 采取了开明的态度，它允许 BSD 自由开发，但前提是必须删除来自 AT&T 的代码，就这样，BSD 诞生了全新的版本 4.4 BSD Lite，这个版本不存在法律问题。所以它成为很多现代自由版 UNIX 的基础，它们和 UNIX 以及 Linux 一起，共同成为 UNIX 大家族的成员。

BSD 在发展中逐渐衍生出 3 个主要的分支：FreeBSD、OpenBSD 和 NetBSD。

正是在 UNIX 之间的利益纷争及其商业化运作的背景下，乱世出英雄，Linux 诞生了，它天生便吸取了 UNIX 的教训，在版权问题上直接采用自由开发的 GPL 开源许可，这种开发精神使得 Linux 就像当年的 BSD 一样迅速发展，同时又由于 GPL 的使用，很好地规避了变种并存的情况。

这真是一部充满斗争的历史，它深深影响到几十年后的我们，本章介绍的技术都来自于那个时代，所以当你被很多相似的实现方法搞得眼花缭乱时，想想那也许只是多年前的一个历史错误。

以下的实现方法，我们只侧重介绍其优势和局限性，目的在于真正了解它们在何种场景下表现出现，至于如何使用它们来编写代码，超出了本书的讨论范围，你可以查看手册或者《UNIX 网络编程》。

select

select 最早于 1983 年出现在 4.2 BSD 中，它通过一个 select() 系统调用来监视包含多个文件描述符的数组，当 select 返回后，该数组中就绪的文件描述符便会被内核修改标志位，使得进程可以获得这些文件描述符从而进行后续的读写操作。

select 目前几乎在所有的平台上都支持，其良好跨平台支持也是它的一个优点，事实上从现在看来，这也是所剩不多的优点之一。

select 的一个缺点在于单个进程能够监视的文件描述符数量存在最大限制，在 Linux 上一般为 1024，不过可以通过修改宏定义甚至重新编译内核的方式提升这一限制。所以，假如你使用了 select 的服务器已经维持了 1024 个连接，那么你的请求可能会被拒绝。

另外，select() 所维护的存储大量文件描述符的数据结构，随着文件描述符数量的增大，其复制的开销也线性增长。同时，由于网络响应时间的延迟使得大量 TCP 连接处于非活跃状态，但调用 select() 会对所有 socket 进行一次线性扫描，所以这也浪费了一定的开销。

poll

poll 在 1986 年诞生于 System V Release 3，显然 UNIX 不愿意直接沿用 BSD 的 select，而是自己重新实现了一遍，它和 select 在本质上没有多大差别，但是 poll 没有最大文件描述符数量的限制。

poll 和 select 同样存在的一个缺点就是，包含大量文件描述符的数组被整体复制于用户态和内核的地址之间，而不论这些文件描述符是否就绪，它的开销随着文件描述符数量的增加而线性增长。

另外，select() 和 poll() 将就绪的文件描述符告诉进程后，如果进程没有对其进行 I/O 操作，那么下次调用 select() 或 poll() 的时候将再次报告这些文件描述符，所以它们一般不会丢失就绪的消息，这种方式称为水平触发（Level Triggered）。

SIGIO

Linux 2.4 提供了 SIGIO，它通过实时信息号（Real Time Signal）来实现 select/poll 的通知方法，但是它们的不同在于，select/poll 告诉我们哪些文件描述符是就绪的，一直到我们读写它之前，每次 select/poll 都会告诉我们；而 SIGIO 则是告诉我们哪些文件描述符刚刚变为就绪状态，它只说一遍，如果我们没有采取行动，那么它将不会再次告知，这种方式称为边缘触发（Edge Triggered）。SIGIO 几乎是 Linux 2.4 下性能最好的多路 I/O 就绪通知方法。

但是，SIGIO 也存在一些缺点，在 SIGIO 机制中，代表事件的信号由内核中的事件队列来维护，信号按照顺序进行通知，这可能导致一个信号到达的时候，该事件已经过期，它所描述的文件描述符已经被关闭。另一方面事件队列长度是有长度限制的，无论你设置多大的上限，总有可能被事件装满，这就很很容易发生事件丢失，所以这时候需要采用其他方法来弥补损失。

/dev/poll

Sun 在 Solaris 中提供了新实现方法，它使用了虚拟的 /dev/poll 设备，你可以将要监视的文件描述符数组写入这个设备，然后通过 ioctl() 来等待事件通知。当 ioctl() 返回就绪的文件描述符后，你可以从 /dev/poll 中读取所有就绪的文件描述符数组，这点类似于 SIGIO，节省了扫描所有文件描述符的开销。

在 Linux 下有很多方法可以实现类似 /dev/poll 的设备，但是都没有提供直接的内核支持，这些方法在服务器负载较大时性能不够稳定。

/dev/epoll

随后，名为 /dev/epoll 的设备以补丁的形式出现在 Linux 2.4 上，它提供了类似 /dev/poll 的功能，而且增加了内存映射（mmap）技术，在一定程度上提高了性能，后面会详细介绍内存映射的内容。

但是，/dev/epoll 仍然只是一个补丁，Linux 2.4 并没有将它的实现加入内核。

epoll

直到 Linux 2.6 才出现了由内核直接支持的实现方法，那就是 epoll，它几乎具备了之前所说的一切优点，被公认为 Linux 2.6 下性能最好的多路 I/O 就绪通知方法。

epoll 可以同时支持水平触发和边缘触发，理论上边缘触发的性能要更高一些，但是代码实现相当复杂，因为任何意外的丢失事件都会造成请求处理错误。在默认情况下 epoll 采用水平触发，如果要使用边缘触发，则需要在事件注册时增加 EPOLLET 选项。

在 Lighttpd 的 epoll 模型代码（src/fdevent_linux_sysepoll.c）中，可以看到它注释掉了 EPOLLET，并没有使用边缘触发方式，如下所示： ep.event |= EPOLLERR | EPOLLHUP /* | EPOLLET */;

而在 Nginx 的 epoll 模型代码(src/event/moudules/ngx_epoll_module.c)中，可以看到它使用了边缘触发，如下所示： ee.event = EPOLLIN|EPOLLOUT|EPOLLET

另外，epoll 同样只告知那些就绪的文件描述符，而且当我们调用 epoll_wait() 获得就绪文件描述符时，返回的并不是实际的描述符，而是一个代表就绪描述符数量的值，你只需要去 epoll 指定的一个数组中依次取得相应数量的文件描述符即可，这里也使用了内存映射（mmap）技术，这样便彻底省掉了这些文件描述符在系统调用时复制的开销。

另一个本质的改进在于 epoll 采用基于事件的就绪通知方式。在 select/poll 中，进程只有在调用一定的方法后，内核才对所有监视的文件描述符进行扫描，而 epoll 事先通过 epoll_ctl() 来注册每一个文件描述符，一旦某个文件描述符就绪时，内核会采用类似 callback 的回调机制，迅速激活这个文件描述符，当进程调用 epoll_wait() 时便得到通知。

回到买面条的故事中，虽然有了电子屏幕，但是显示的内容是所有餐品的状态，包括正在制作的和已经做好的，这显然给你造成阅读上的麻烦，就好像 select/poll 每次返回所有监视的文件描述符一样。如果能够只显示做好的餐品，那该多好，随后小吃城管理处改进了大屏幕，实现了这一点，这就像 /dev/poll 一样只告知就绪的文件描述符。在显示做好的餐点时，如果只显示一次，而不管你有没有看到，这就相当于边缘触发，而如果在你领取餐点之前，每次都显示，就相当于水平触发。

但尽管这样，一旦你走得比较远，就还得花时间走到小吃城去看电子屏幕，能不能让你更轻松地获得通知呢？管理处这次采用了手机短信通知的方法，你只需要到管理处注册后，便可以在餐点就绪时及时收到短信通知，这类似于 epoll 的事件机制。

kqueue

FreeBSD 中实现了 kqueue，它像 epoll 一样可以设置水平触发或边缘触发，同时 kqueue 还可以用来监视磁盘文件和目录，但是它的 API 在很多平台都不支持，而且文档相当匮乏。 kqueue 和 epoll 的性能非常接近。

对于以上介绍的多种实现方法中，在 Linux 平台的 Web 服务器中，我们常用的主要有 select、poll、SIGIO、epoll，尤其是在 Linux 2.6 中，epoll 成为首要选择。

也许你没有特别留意，在安装一些 Web 服务器软件的时候，configure 过程中会检查当前系统支持的多路 I/O 就绪通知方法，比如 Nginx 在 configure 时，其中一部分内容如下所示：

 + rt signal found
checking for epoll ... found
checking for poll() ... found
checking for /dev/poll ... not found
checking for kqueue ... not found

Ref

摘自《构建高性能 Web 站点》第 3 章服务器并发处理能力 3.6 I/O 模型
 聊聊 IO 多路复用之 select、poll、epoll 详解

I/O 模型 05 - 内存映射

I/O 模型 03 - 同步非阻塞 I/O

Jamin Zhang

To be empty in order to be full!