「Tech初见」对epoll的理解

一、Motivation

通常,操作系统会为每个进程划分一个时间片的,在这个时间片内进程可以合法占有 cpu 进行一些计算任务。并当时间片结束后自动退回至就绪状态待命,等待下一次的调度

但是,有一种情况会使进程提前(时间片还未用完)进入等待状态,即是进程发生了阻塞(多半是因为 I/O 请求)。进程一旦发生了阻塞,它就要让出 cpu 给其他进程,这个让位的动作就是进程之间切换的操作,这种操作非常蠢(在开发者眼里是无用功),也很耗时。可以说是时间和 cpu 资源没用在正儿八经的计算任务上

select 和 epoll 的提出就是来解决这个愚蠢的问题,有一种设想:在分配给该进程时间片还未结束之前,如果进程的某个 socket 连接发生阻塞,先不急着逼该进程退位,而是通过某种手段去查询一下进程的其他 socket 连接是否有已就绪的。如果其他 socket 连接有活动可以处理,不如充分利用 cpu 先进行计算,在处理完成 OR 时间片到期后再让位也不迟。这样不就可以提高计算机资源的利用率了嘛

但是,在 Linux 老的版本中,有关事件触发的问题,一直是采用 select 轮询手段来解决的,所谓的轮询就是 cpu 不停地去查询任务队列是否有已经就绪的任务。这种方法在任务较少的情况下还能勉强应付,当任务数量增加至千级数量级之后,效率就会出现断崖式地降低。因为每次需要轮询上千个任务,自然非常耗时

为此,Linux 提出了新的解决方法 epoll,不再采用轮询的方法来感知新事件的发生,而是通过 epoll 结构体内部的红黑树来自动将等待的任务和就绪的任务分开,从而使 kernel 能够快速感知新事件的发生

再说直白一点,只要活儿足够多,epoll_wait 根本就不会让用户进程阻塞,用户进程会一直干活,直到属于该进程的时间片结束。这样就大大减少了进程切换次数,提高了效率

二、Solutions

S1 - epoll_create

创建一个 epoll 句柄,size 用来告诉 kernel 共能监听多少个事件,

int epoll_create(int size)

这个参数在现在的版本中没有意义,kernel 会根据实际情况自行决定的,意思就是说这个 size 只是我们规定的事件的大致数量,而不是能够处理的最大事件数

epoll 结构体中定义的等待队列 wq 存放阻塞在 epoll 对象上的用户进程,当软中断数据就绪时会前来寻找进程;epoll 对象用红黑树 rbr 来管理用户进程 accept 添加进来的所有 socket 连接,选用红黑树的原因是因为红黑树能够更好地支持海量连接的查找、插入和删除;就绪链表 rdllist 存放着一些已就绪的任务,这样一来,应用进程只需要查询 rdllist 就能判断是否有就绪任务可供处理,而不必去遍历整棵红黑树

S2 - epoll_ctl

该方法向 epoll 对象中添加、修改和删除特定的事件,返回 0 表示成功,-1 表示失败,

int epoll_ctl(int epfd, int op, int fd, struct epoll_event* event)

添加意味着对这件事感兴趣,应用进程想收来处理;删除则表示对这件事没了兴趣。其中,epfd 是 epoll 对象的 id,epoll_create() 的返回值;op 有三种操作类型,EPOLL_CTL_ADD、EPOLL_CTL_MOD 和 EPOLL_CTL_DEL;fd 是需要监听的文件描述符,通常是连接至服务端的 socket;最后一个参数 event 可以是以下几种宏的集合,

  • EPOLLIN:文件描述符可读
  • EPOLLOUT:文件描述符可写
  • EPOLLPRI:文件描述符有紧急数据可读
  • EPOLLERR:文件描述符发生错误
  • EPOLLHUP:文件描述符被挂断
  • EPOLLET:边缘触发(后面会讲到)
  • EPOLLONESHOT:只监听一次,意味着触发来事件之后就被踢出 epoll 对象中了

它是一个传入的指针,这就要求我们需要在进入函数之前分配好空间并初始化,以便 epoll_create() 可以在方法内获取内容,但 epoll_create() 并不会替我们释放 events 空间

再进一步解释,当有新的 socket 连接加入 epoll 对象时,epoll 对象会创建一个 epitem 用来关联该 socket 连接,然后将 epitem 挂到红黑树 rbr 中。之后,会设置该 epitem 的回调函数(如果该连接有数据写入,请将其存入 epoll 对象的就绪链表 rdllist 中),以及其他的回调函数

在这我只列举了 “增” 的一个例子,其他关于 “删” 和 “改” 的操作,它们的本质是一样的,都是 socket 连接有什么动作就会去调用对应的回调函数。关于能够快速实现 “增删改查” 最主要的原因是因为选用了红黑树

S3 - epoll_wait

等待处于监听范围的事件发生,

int epoll_wait(int epfd, struct epoll_event* events, int maxevents, int timeout)

epoll 对象会将已经发生的事件复制到数组 events 中,maxevents 是数组的长度;timeout 如果为 0,则意味着就绪链表 rdllist 若为空则立刻返回,不会等待;-1 表示阻塞,会一直陷入 epoll_wait 状态中

关于 ET 和 LT 模式,我想用简短的语言去描述,不要深究细节。ET(边缘触发)模式仅当状态发生变化时才会感知事件的发生,即使这个事件对应的缓冲区内还有未读取的数据;而 LT(水平触发)模式是只要有数据没处理就会一直通知下去

三、Result

我想透过一个简单的 demo 来介绍 epoll 的经典用法。说到用法,最常用的就是连接 socket,监听 socket 的动静并读/写数据进行处理,之后返回给 client 结果。我写了一个小写转大写的程式来说明 epoll 的用法,请看代码,

#include <stdio.h>
#include <string.h>
#include <sys/socket.h>
#include <sys/epoll.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <sys/types.h>
#include <ctype.h>
#include <unistd.h>#define EPOLL_MAXSIZE 16
#define SRV_PORT_ID 1980  /* 端口号 */
#define SOCKET_QUEUE_LEN 20
#define BUFSIZE 256struct myepoll_data {int fd;char data[BUFSIZE];
};int main()
{int i,j;int epfd, sockfd, nfds, clntfd;struct sockaddr_in srvaddr, clntaddr;struct epoll_event ev, evs[EPOLL_MAXSIZE];socklen_t clntlen = sizeof(clntaddr);char buf[BUFSIZE];/* 创建epoll结构体(就绪链表、等待队列和红黑树) */epfd = epoll_create(EPOLL_MAXSIZE);if(epfd == -1) {printf("epoll_create err\n");goto over;}printf("epoll_create ok\n");/* 创建socket结构体 */sockfd = socket(AF_INET, SOCK_STREAM, 0);if(sockfd == -1) {printf("socket_create err\n");goto over;}printf("socket_create ok\n");/* 初始化socket绑定监听 */bzero(&srvaddr, sizeof(srvaddr));srvaddr.sin_family = AF_INET;srvaddr.sin_port = htons(SRV_PORT_ID);srvaddr.sin_addr.s_addr = htonl(INADDR_ANY);if(bind(sockfd, (struct sockaddr*)&srvaddr, sizeof(struct sockaddr)) == -1) {printf("socket_bind err\n");goto over;}printf("socket_bind ok\n");if(listen(sockfd, SOCKET_QUEUE_LEN) == -1) {printf("socket_listen err\n");goto over;}printf("socket_listen ok\n");/* 向epoll结构体中注册socket,实现监听功能 */ev.data.fd = sockfd;ev.events = EPOLLIN | EPOLLET;if(epoll_ctl(epfd, EPOLL_CTL_ADD, sockfd, &ev) == -1) {printf("epoll_ctl_add err\n");goto over;}printf("epoll_ctl_add ok\n");/* 不停地处理外来事件 */while(1) {/* 阻塞地等待事件发生,其中0为没有就绪事件就立刻返回,-1为阻塞 */nfds = epoll_wait(epfd, evs, EPOLL_MAXSIZE, -1);/* 处理每个收上来的事件 */for(i=0; i<nfds; i++) {if(evs[i].data.fd == sockfd) {  /* 有人敲sockfd的门了(收到新的连接)*/clntfd = accept(sockfd, (struct sockaddr*)&clntaddr, &clntlen);ev.events = EPOLLIN | EPOLLET;ev.data.fd = clntfd;if(epoll_ctl(epfd, EPOLL_CTL_ADD, clntfd, &ev) == -1)printf("epoll_ctl_add %d err\n", clntfd);elseprintf("epoll_ctL_add %d clnt ok\n", clntfd);} else if(evs[i].events & EPOLLIN) {  /* 读取数据但先不处理 */clntfd = evs[i].data.fd;memset(buf, 0, BUFSIZE);if(read(clntfd, buf, BUFSIZE) == 0) { /* 客户端关闭连接 */if(epoll_ctl(epfd, EPOLL_CTL_DEL, clntfd, NULL) == -1) {printf("epoll_ctl_del %d err\n", clntfd);} else {printf("epoll_ctl_del %d ok\n", clntfd);close(clntfd);}continue;}/* 先接收client的请求 */struct myepoll_data fddata;fddata.fd = clntfd;strcpy(fddata.data, buf);ev.data.ptr = &fddata;memset(buf, 0, BUFSIZE);strcpy(buf, "i'm keep u's data, deal with it later, please check u can be written...\n");send(clntfd, buf, strlen(buf), 0);ev.events = EPOLLOUT | EPOLLET;/* 下一次epoll时再处理client的请求 */if(epoll_ctl(epfd, EPOLL_CTL_MOD, clntfd, &ev) == -1) printf("epoll_ctl_mod clnt %d EPOLLIN -> EPOLLOUT err\n", clntfd);else printf("epoll_ctl_mod clnt %d EPOLLIN -> EPOLLOUT ok\n", clntfd);} else if(evs[i].events & EPOLLOUT) { /* 对之前读取的数据予以处理并将处理结果返回给client */struct myepoll_data* fddata = (struct myepoll_data*)evs[i].data.ptr;clntfd = fddata->fd;char* data = fddata->data;memset(buf, 0, BUFSIZE);strcpy(buf, "i'm processing u's data, please waiting...\n");send(clntfd, buf, strlen(buf), 0);/* 将小写转为大写的业务逻辑 */for(j=0; j<strlen(data); j++)data[j] = toupper(data[j]);send(clntfd, data, strlen(data), 0);ev.events = EPOLLIN | EPOLLET;/* 准备接收client的下一次计算请求 */if(epoll_ctl(epfd, EPOLL_CTL_MOD, clntfd, &ev) == -1)printf("epoll_ctl_mod clnt %d EPOLLOUT -> EPOLLIN err\n", clntfd);else printf("epoll_ctl_mod clnt %d EPOLLOUT -> EPOLLIN ok\n", clntfd);} else {printf("unknown event\n");}}}over:return 0;
}

整个流程,我认为较为清晰,首先创建 socket,然后将 socket 添加进 epoll 对象中,这就意味着让 epoll 对象监听 socket 的一举一动。如果有数据写入 socket 中,那么就读出来,等待下一轮再进行处理(为什么下一轮再进行处理?而不是接收了请求就处理,其中的道理我暂时还没有悟透,但有人告诉我,先接收后处理的手法是 epoll 的精髓,说实话我并不认同,因为我不能说服自己要相信这种脱裤子放屁的说法)

按照流程走下去,在下一轮中进行处理(小写转大写),然后将结果返回给 client。这就是 epoll demo。在另一个终端中透过 nc 命令尝试连接 server 进程,

nc 127.0.0.1 1980

作为 client,输入小写的字符串,server 就会返回大写的结果,

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/196259.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 堆

手写堆&#xff0c;而非stl中的堆 如何手写一个堆&#xff1f; //将数组建成堆 <O(n) for (int i n / 2;i;i--) //从n/2开始down down(i); 从n/2元素开始down&#xff0c;最下面一层元素的个数是n/2&#xff0c;其余上面的元素的个数是n/2&#xff0c;从最下面一层到最高层…

【开源】基于Vue和SpringBoot的教学过程管理系统

项目编号&#xff1a; S 054 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S054&#xff0c;文末获取源码。} 项目编号&#xff1a;S054&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 教师端2.2 学生端2.3 微信小程序端2…

7 Redis的PipeLine

PipeLine的作用是批量执行命令 redis的性能瓶颈基本上是网络 import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Component; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.…

【Flink】核心概念:并行度与算子链

并行度&#xff08;Parallelism&#xff09; 当要处理的数据量非常大时&#xff0c;我们可以把一个算子操作&#xff0c;“复制”多份到多个节点&#xff0c;数据来了之后就可以到其中任意一个执行。这样一来&#xff0c;一个算子任务就被拆分成了多个并行的“子任务”&#x…

Python---return返回值

return返回值 返回值&#xff1a;很多函数在执行完毕后&#xff0c;会通过return关键字返回一个结果给 调用它的位置。 return 英 /rɪˈtɜːn/ n. 回来&#xff0c;返回&#xff1b; 思考&#xff1a;如果一个函数需要两个return (如下所示)&#xff0c;程序如何执行&…

Go语言常用命令详解(二)

文章目录 前言常用命令go bug示例参数说明 go doc示例参数说明 go env示例 go fix示例 go fmt示例 go generate示例 总结写在最后 前言 接着上一篇继续介绍Go语言的常用命令 常用命令 以下是一些常用的Go命令&#xff0c;这些命令可以帮助您在Go开发中进行编译、测试、运行和…

滚雪球学Java(09-5):Java中的赋值运算符,你真的掌握了吗?

咦咦咦&#xff0c;各位小可爱&#xff0c;我是你们的好伙伴——bug菌&#xff0c;今天又来给大家普及Java SE相关知识点了&#xff0c;别躲起来啊&#xff0c;听我讲干货还不快点赞&#xff0c;赞多了我就有动力讲得更嗨啦&#xff01;所以呀&#xff0c;养成先点赞后阅读的好…

《数字图像处理-OpenCV/Python》连载(44)图像的投影变换

《数字图像处理-OpenCV/Python》连载&#xff08;44&#xff09;图像的投影变换 本书京东优惠购书链接&#xff1a;https://item.jd.com/14098452.html 本书CSDN独家连载专栏&#xff1a;https://blog.csdn.net/youcans/category_12418787.html 第 6 章 图像的几何变换 几何变…

V100 GPU服务器安装GPU驱动教程

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

网络割接用VRRP替换HSRP

如图3-11所示&#xff0c;C6500作为核心层设备上行连接出口路由器NE40E-X3&#xff0c;下行连接接入层设备CE6800。C6500上配置HSRP实现冗余备份网关&#xff0c;同时在二层网络部署MSTP破除环路。 总体思路 HSRP为CISCO私有协议&#xff0c;CE系列交换机&#xff08;以CE1280…

【汇编】[bx+idata]的寻址方式、SI和DI寄存器

文章目录 前言一、[bxidata]寻址方式1.1 [bxidata]的含义1.2 示例代码 二、SI和DI寄存器2.1 SI和DI寄存器是什么&#xff1f;2.2 [bxsi]和[bxdi]方式寻址2.3 [bxsiidata]和[bxdiidata] 总结 前言 在汇编语言中&#xff0c;寻址方式是指指令如何定位内存中的数据。BX寄存器与偏…

计算机网络——物理层-信道的极限容量(奈奎斯特公式、香农公式)

目录 介绍 奈氏准则 香农公式 介绍 信号在传输过程中&#xff0c;会受到各种因素的影响。 如图所示&#xff0c;这是一个数字信号。 当它通过实际的信道后&#xff0c;波形会产生失真&#xff1b;当失真不严重时&#xff0c;在输出端还可根据已失真的波形还原出发送的码元…