文章目录

📖 前言
1. 文件描述符fd的分配规则
2. 重定向的本质
3. 缓冲区的理解
- 3.1 感受缓冲区的存在：
- 3.2 正式认识缓冲区：
- - 综合例题：
4. 模拟实现C语言的文件操作
5. 完善之前实现的shell
- 5.1 程序替换，会影响曾经子进程打开的文件吗？

📖 前言

紧接着上篇的文件描述符，我们要继续讲解文件描述符，通过文件描述符讲解重定向的原理，再用所学的知识自己模拟实现一下C语言中fopen等文件操作，讲解一下缓冲区，最后再完善一下我们之前实现的shell。目标已经确定，接下来就要搬好小板凳，准备开讲了…🙆🙆🙆🙆

1. 文件描述符fd的分配规则

上一篇我们已经讲述了文件操作的内核中实现的映射关系，并且画了图理解了一遍。

创建struct file，初始化内部属性，函数指针指向对应方法，将这个对象的struct file地址填到，进程对应的文件描述表里面，分配一个指针数组没有被占用的下标，将数字下标返回。

那么这些下标fd都是如何分配的呢？

我们接下来做个小实验，将1号文件关掉，再创建一个文件，看其文件的fd是什么：

#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>int main()
{close(1);int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);if(fd < 0){perror("open");return 0;}fprintf(stdout, "打开文件成功，fd : %d\n", fd);fflush(stdout);return 0;
}

我们显示一开始关闭了0号文件：

在这里插入图片描述
我们看到了fd为0，这就说明了，内核中struct file* fd array[]数组中0号下标是log.txt的文件的fd。
我们关闭了0号，关了之后0号又被打开，指向了别的文件。

结论：

从头遍历数组fd array[]，找到一个最小的，没有被使用的下标，分配给新的文件！！

2. 重定向的本质

在之前学习Linux基础指令时，我们学过重定向操作，向指定文本中写入或追加文件内容。
而现在我们在了解文件内核基本结构之后，我们就可以理解重定向的本质了。

重定向是一种通过修改标准输入、标准输出和标准错误流的方式来改变程序的输入和输出方向的技术~

以我们现在所学的知识，完全可以实现，只需要将stdout关掉。
再将1号位置存的指针改成要被写入的文件的 files_struct 结构体的指针即可，这样写入就是往该文件写入了。
先close是先将1号描述符对应的对象设置成空，然后将新文件的文件对象的地址填入。
但是重定向可不用这么麻烦，有接口可供我们使用。

一堆的数据，都是内核数据结构，只有OS有权限，必定提供对应的接口~

dup函数：

dup函数的作用是创建一个新的文件描述符，该描述符是原始文件描述符的副本。

在这里插入图片描述
返回值：

在这里插入图片描述

dup函数返回新的文件描述符，如果复制成功，则返回的文件描述符与oldfd具有相同的值和属性。如果复制失败，则返回-1，并设置errno来指示错误的原因。

我们要弄清楚谁是谁的一份拷贝，一定是oldfd拷贝给了newfd（newfd的内容是oldfd的一份拷贝），最后两个都是oldfd，别弄反了~

在这里插入图片描述
输出重定向：

#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>int main()
{int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);if(fd < 0){perror("open");return 1;}//本来1号位置的指针，被覆盖成了3号位置的指针int ret = dup2(fd, 1); //fd = 3, 1if(ret > 0) close(fd);printf("ret : %d\n", ret);//本来应该要往显示器打印，最终却变成了向指定文件打印 -- 重定向的原理fprintf(stdout, "打开文件成功, fd: %d\n", fd);//暂时不做解释，后面再说 -- 和缓冲区有关fflush(stdout);close(fd);return 0;
}

追加重定向：

在这里插入图片描述

输入重定向：

int main()
{int fd = open("log.txt", O_RDONLY);if(fd < 0){perror("open");return 1;}char line[64];//输入定向dup2(fd, 0);while(fgets(line, sizeof(line), stdin) != NULL){printf("%s", line);}close(fd);return 0;
}

从log.txt文件内容通过fgets按行读取，读取完之后再用循环体将内容打印出来。

注意：

文件地址的拷贝，拷贝的是指向。
拷贝的是指针（file*）
是将数组下标对应的内容做拷贝，拷贝的是里面的内容，不是拷贝整数。

总结：

如果我们要进行重定向，上层只认0, 1, 2, 3, 4, 5这样的fd，我们可以在OS内部，通过一定的方式调整数组的特定下标的内容（指向），我们就可以完成重定向操作！

3. 缓冲区的理解

3.1 感受缓冲区的存在：

上述代码结果我们已经看了，如果我们关闭的是1号文件呢？

int main()
{close(1);//根据fd的分配规则，新的fd值一定是1int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);if(fd < 0){perror("open");return 1;}//printf -> stdout -> 1 -> 虽然不再指向对应的显示器了，但是已经指向了log.txt的底层struct file对象！printf("fd : %d\n", fd);fflush(stdout);close(fd);return 0;
}

printf -> stdout -> 1 -> 虽然不再指向对应的显示器了，但是已经指向了log.txt的底层struct file对象！

既然是向log.txt写入，我们运行之后，来看一下log.txt中的结果：

在这里插入图片描述

文件中并没有内容，这就是因为缓冲区的存在，我们需要用到fflush(stdout);来刷新一下缓冲区，不然就不会显示。

有个疑问：

为什么在进程结束之后缓冲区的内容没有直接刷新到 log.txt 文件当中呢？

在我们之前的学习中知道，进程结束就会将缓冲区的内容刷新到显示器上。

因为之前都是向显示器刷新，stdout并没有被关闭，1号没有分配新的fd。

对于标准输出流 stdout，当进程正常结束时，缓冲区的内容通常会被刷新到1号文件中。

没有刷新到 log.txt 文件的原因：

当进程正常终止时，操作系统会负责清理和关闭打开的文件描述符，包括标准输出流。

所以最后一行的close(fd)会关闭文件描述符1，导致标准输出流被关闭。

在关闭之前，操作系统会尝试将缓冲区中的内容刷新到对应的文件中。

在进程结束之前，缓冲区的内容会被刷新到 stdout（标准输出流）中。

然而在关闭标准输出流之前，缓冲区的内容并没有被刷新到文件中，因此最终没有将内容写入文件。

而将close(fd)去掉则会刷新到log.txt这个文件里，因为在关闭文件之前就刷新了。

正确做法：

为了确保缓冲区的内容被正确刷新到文件中，可以在关闭文件描述符之前进行一次输出操作，或者显式地使用 fflush(stdout) 函数来手动刷新缓冲区。这样可以保证在关闭文件描述符之前，缓冲区的内容会被刷新到文件中。

总之，在进程正常终止前，操作系统会尽力将缓冲区的内容刷新到stdout，但不能保证一定成功。因此，最好使用fflush函数或其他相关函数来确保缓冲区的内容被刷新到文件中。

3.2 正式认识缓冲区：

什么是缓冲区？

缓冲区的本质，就是一段内存。

为什么要有缓冲区？

解放使用缓冲区的进程时间。
缓冲区的存在可以集中处理数据刷新，减少IO的次数。
从而达到提高整机的效率的目的。

缓冲区在哪里？

FILE 指针是一个指向 FILE 结构体的指针，该结构体包含了有关文件的信息和状态。
通过 FILE 指针，程序可以对文件进行读取、写入和定位等操作。
所以这个结构体中封装了文件的很多属性。
例如fd，还有该FILE对应的语言级别的缓冲区！

既然缓冲区在FILE内部，在C语言中，而我们每一次打开一个文件，都要有一个FILE*会返回！
是不是意味着，每一个文件都有一个fd和属于它自己的与语言级别缓冲区！是的！！

#include <stdio.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>int main()
{//printf没有立即刷新的原因，是因为有缓冲区的存在//数据被暂存在了缓冲区里面，当进程退出时，数据才被刷新//首先printf内部就是封装了writeprintf(" hello printf"); // stdout -> 1fprintf(stdout, " hello fpritnf");fputs(" hello fputs", stdout);//write可是立即刷新的！printf -> write //那么这个缓冲区在哪里？？ -- 只能是C语言提供的，是个语言级别的缓冲区//那么这个缓冲区不在那里？？ -- 一定不在write内部！//那么我们曾经谈论的缓冲区，不是内核级别的const char* msg = " hello write";write(1, msg, strlen(msg));//close(1);sleep(5);close(stdout->_fileno);return 0;
}

在这里插入图片描述

因为这些函数底层调用write函数就失败了。

首先printf内部就是封装了write。
立刻刷新，所以sleep的时候数据并没有立刻显示出来。
不带缓冲区代表数据没法立即刷新。加上fflush就可以立即刷新出来了。
fprintf、fputs和printf一样都是等待再刷新，等到进程退出的时候刷新。
这几个接口底层都封装了write。

为什么会出现等几秒钟才刷新出来的现象？

不是直接调用write接口，写到操作系统最后刷到硬件上的。
而是直接把数据写到了cache里面。
当数据量积累到一定程度，会定期的通过fd去调用write把数据刷新到内存中。

那么这个缓冲区在哪里？？

只能是C语言提供的，是个语言级别的缓冲区。

那么这个缓冲区不在那里？？

一定不在write内部！
那么我们曾经谈论的缓冲区，不是内核级别的。

fprintf、fputs和printf这三个接口都是C语言提供的，都有一个公共参数 — stdout。printf也有只是没有写出来而已。stdout是FILE结构体的指针。

缓冲区刷新策略：

什么时候刷新？
常规：
- 无缓冲（立即刷新）
- 行缓冲（逐行刷新），显示器文件。
- 全缓冲（缓冲区满，刷新），块设备对应的文件，磁盘文件。
特殊：
- 进程退出
- 用户强制刷新

根据文件类型来决定刷新策略。

综合例题：

下面程序的可执行程序test，重定向到log.txt文件中，那么log.txt文件中的内容是什么？

#include <stdio.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>int main()
{const char* str1 = "hello printf\n";const char* str2 = "hello fprintf\n";const char* str3 = "hello fputs\n";const char* str4 = "hello write\n";//C库函数printf(str1);fprintf(stdout, str2);fputs(str3, stdout);//系统接口write(1, str4, strlen(str4));//是调用完了上面的代码，才执行的fork()fork();return 0;
}

在这里插入图片描述

因为此时已经重定向到了log.txt所以不会立即刷新而变成了全缓冲。
缓冲方式变化了，从行缓冲变成了全缓冲。
父子进程结束，代码父子进程共享，数据要以写时拷贝的形式各自有一份。
最终父进程刷一份，子进程刷一份，就会出现上述结果。
缓冲区，是自己的FILE内部维护的，属于父进程内部的数据区域！
写时拷贝，子进程内部缓冲区也有一份。

4. 模拟实现C语言的文件操作

有了之前的知识储备，我们可以封装系统调用接口，模拟一个缓冲区，来模拟实现C语言的文件操作接口的：

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
#include <assert.h>#define NUM 1024//定义三种缓冲区刷新方式
#define NONE_FLUSH 0x0
#define LINE_FLUSH 0x1
#define FULL_FLUSH 0x2typedef struct _MyFILE
{int _fileno;char _buffer[NUM];int _end;int _flags; //fflush method -- 刷新方式
} MyFILE;MyFILE* my_fopen(const char* filename, const char* method)
{assert(filename);assert(method);//默认以读的方式打开int flags = O_RDONLY;if(strcmp(method, "r") == 0){}else if(strcmp(method, "r+") == 0){}else if(strcmp(method, "w") == 0){flags = O_WRONLY | O_CREAT | O_TRUNC;}else if(strcmp(method, "w+") == 0){}else if(strcmp(method, "a") == 0){flags = O_WRONLY | O_CREAT | O_APPEND;}else if(strcmp(method, "a+") == 0){}int fileno = open(filename, flags, 0666);if(fileno < 0){return NULL;}MyFILE*fp = (MyFILE *)malloc(sizeof(MyFILE));if(fp == NULL) return fp;memset(fp, 0, sizeof(MyFILE));fp->_fileno = fileno;fp->_flags |= LINE_FLUSH;fp->_end = 0;return fp;
}void my_fflush(MyFILE* fp)
{assert(fp);if(fp->_end > 0){write(fp->_fileno, fp->_buffer, fp->_end);fp->_end = 0;syncfs(fp->_fileno);}
}void my_fwrite(MyFILE* fp, const char* start, int len)
{assert(fp);assert(start);assert(len > 0);//abcde123//写入到缓冲区里面 -- 每次都像结尾开始写strncpy(fp->_buffer + fp->_end, start, len); //将数据写入到缓冲区了fp->_end += len;if(fp->_flags & NONE_FLUSH){}else if(fp->_flags & LINE_FLUSH){if(fp->_end > 0 && fp->_buffer[fp->_end - 1] == '\n'){//仅仅是写入到内核中write(fp->_fileno, fp->_buffer, fp->_end);fp->_end = 0;//真正把数据刷到磁盘上syncfs(fp->_fileno);}}else if(fp->_flags & FULL_FLUSH){}
}void my_fclose(MyFILE* fp)
{my_fflush(fp);close(fp->_fileno);free(fp);
}int main()
{MyFILE* fp = my_fopen("log.txt", "w");if(fp == NULL){printf("my_fopen error\n");return 1;}const char* s = "hello my 111\n";my_fwrite(fp, s, strlen(s));printf("消息立即刷新");sleep(3);const char* ss = "hello my 222";my_fwrite(fp, ss, strlen(ss));printf("写入了一个不满足刷新条件的字符串\n");sleep(3);const char* sss = "hello my 333";my_fwrite(fp, sss, strlen(sss));printf("写入了一个不满足刷新条件的字符串\n");sleep(3);const char* ssss = " end\n";my_fwrite(fp, ssss, strlen(ssss));printf("写入了一个满足刷新条件的字符串\n");sleep(3);const char* sssss = "-aaaaaaa\n";my_fwrite(fp, sssss, strlen(sssss));printf("写入了一个不满足刷新条件的字符串\n");fork();//模拟进程退出 -- 代码父进程执行一遍，子进程执行一遍my_fclose(fp);return 0;
}

把数据写到内核里，并不代表就是把数据写到硬件上了。如果非要写到硬件上就要加上一个接口sync。

在这里插入图片描述

在这里插入图片描述
通过监控脚本，我们来观察一下：

在这里插入图片描述

5. 完善之前实现的shell

之前在学习进程程序替换的时候，我们模拟实现过一个shell【实现简易shell-复习传送门】。

没改进之前会出现的情况：
在这里插入图片描述
我们要对输入的命令做检查，对重定向操作符做单独处理。

单独加一个函数：

void CheckDir(char* commands)
{assert(commands);//[start, end)char* start = commands;//指向的是字符串最后的那个'\0' char* end = commands + strlen(commands);//ls -a -l>log.txtwhile(start < end){if(*start == '>'){if(*(start + 1) == '>'){//ls -a -l>>log.txt -- 追加*start = '\0';start += 2;g_redir_flag = APPEND_REDIR;DROP_SPACE(start);g_redir_filename = start;break;}else {//ls -a -l > log.txt -- 输出重定向*start = '\0';start++;DROP_SPACE(start);g_redir_flag = OUTPUT_REDIR;g_redir_filename = start;break; }}else if(*start == '<'){//输入重定向*start = '\0';start++;DROP_SPACE(start);g_redir_flag = INPUT_REDIR;g_redir_filename = start;break;}else {start++;}}
}