1、初始文件管理
1.1、文件的属性
1)文件名:由创建文件的用户决定文件名,主要是为了方便用户找到文件,同一目录下不允许有重名文件。
2)标识符:一个系统内的各文件标识符唯一,对用户来说毫无可读性,因此标识符只是操作系统用于区分各个文件的一种内部标识。
3)类型:指明文件的类型。
4)位置:文件存放的路径(让用户使用),在外存中的地址(操作系统使用,用用户不可见)。
5)大小:指明文件大小。
6)创建时间、上次修改时间、文件所有者信息。
7)保护信息:对文件进行保护的访问控制信息。
1.2、文件分类
1)无结构文件:如,文本文件——由一些二进制或字符流组成,又称流式文件。
2)有结构文件:如,数据库表,Excel表格——由一组相似的记录组成,又记录式文件。
1.3、文件间应该怎样组织起来?
用户可以自己创建一层一层的目录(文件),各层目录中存放相应的文件。系统中的各个文件就通过一层一层的目录合理有序的组织起来。
目录其实也是一种特殊的有结构文件(由记录组成)。
1.4、操作系统应该向上提供哪些功能?
主要是一些系统调用:
1)create系统调用:创建文件。点击新建后,图形化交互进程在背后调用create系统调用。
2)read系统调用:可以“读文件”将文件数据读入内存,才能让CPU处理(双击后,”记事本”应用程序通过操作系统提供的读文件功能,即read系统调用,将文件数据从外存读入内存,并显示在屏幕上)。
3)write系统调用:可以“写文件”,将更改过的文件数据写回外存(我们在“记事本”应用程序中编辑文件内容,点击“保存”后,“记事本”应用程序通过操作系统提供的写文件功能,即write系统调用,将文件数据从内存写回外存)。
4)delete系统调用:可以“删除文件”(点了“删除”之后,图形化交互进程通过操作系统提供的删除文件功能,即delete系统调用,将文件数据从外存中删除)。
5)open系统调用:打开文件,读/写文件之前,需要“打开文件”。
6)close系统调用:关闭文件,读/写文件结束之后,需要“关闭文件”。
【注】可用几个基本操作完成更复杂的操作,比如:‘“复制文件”:先创建一个新的空文件,再把源文件读入内存,再将内存中的数据写到新文件中。
1.5、从上往下看,文件应如何存放在外存?
1)与内存一样,外存也是由一个个存储单元组成的,每个存储单元可以存储一定量的数据(如1B)。每个存储单元对应一个物理地址。
2)类似于内存分为一个个“内存块”,外存会分为一个个块/磁盘块/物理块。每个磁盘块的大小是相等的,每块一般包含2的整数幂个地址(如下,一块包含2^10个地址,即1KB)。同样类似的是,文件的逻辑地址也可以分为(逻辑块号,块内地址),操作系统同样需要将逻辑地址转换为外存的物理地址(物理块号,块内地址)的形式。块内地址的位数取决于磁盘的大小。
3)操作系统以块为单位为文件分配存储空间,因此即便一个文件大小只有10B,但它依然需要占用1KB的磁盘块。外存中的数据读入内存时同样以块为单位。
文件数据在磁盘中存放有两种方式:
- 连续存放:文件数据放在连续的几个磁盘中。
- 离散存放:文件数据放在离散的几个磁盘块中。
那使用那种方式呢?后续学习。
1.6、其它由操作系统实现的文件管理功能
1)文件共享:使多个用户可以共享使用一个文件。
2)文件保护:如何保证不同的用户对文件有不同的操作权限。
1.7、知识回顾
2、文件的逻辑结构
学习目标:
所谓的逻辑结构,就是指在用户看来,文件内部的数据应该是如何组织起来的。
而物理结构指的是在操作系统看来,文件的数据是如何存放在外存中的。
2.1、无结构文件
按文件是否有结构分类,可以分为无结构文件、有结构文件两种。
无结构文件:文件内部的数据就是一系列二进制流或字符流组成。又称流式文件。如:Windows操作系统中的.txt文件。
由于文件内部的数据其实就是一系列字符流,没有明显的结构特性。因此也不用探讨无结构文件的“逻辑结构”问题。
因此我们要重点关注有结构文件。
2.2、有结构文件
有结构文件:有一组相似的记录组成,又称记录式文件。每条记录由若干个数据项组成。如:数据库表文件。一般来说,每条记录有一个数据项可作为关键字(作为识别不同记录的ID)。
根据各条记录的长度(占用的存储空间)是否相等,又可分为定长记录和可变长记录(常用)两种。
根据有结构文件中各条记录在逻辑上如何组织,可以分为三类:
- 顺序文件
- 索引文件
- 索引顺序文件
2.2.1、顺序文件
顺序文件:文件中的记录一个接一个地顺序排序(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。
而顺序结构又分为两类:
- 串结构
- 顺序结构
因此。这些记录时定长的还是可变长的,是按关键字排序还是无序,或者记录在物理上是顺序存储还是链式存储都会影响顺序文件实现的功能。
下面我们来思考两个问题:
假设:已经知道了文件的起始地址(也就是第一个记录存放的位置)。
思考1:能否快速找到第i个记录对应的地址?(即能否实现随机存取?);
思考2:能否快速找到某个关键字对应的记录存放的位置?
直接揭晓答案:
顺序文件:
- 链式存储:无论是定长/可变长记录,都无法实现随机存取,每次只能从第一个记录开始依次往后查找。
- 顺序存储:
- 可变长记录:
- 无法实现随机存取。每次只能从第一个记录开始依次往后查找
- 定长记录:
- 可实现随机存取。记录长度为L,则第i个记录存放的相对位置是
i*L
。 - 若采用串结构,无法快速找到关键字对应的记录。
- 若采用顺序结构,可以快速找到某关键字对应的记录(如折半查找)。
- 可实现随机存取。记录长度为L,则第i个记录存放的相对位置是
- 可变长记录:
【结论】定长记录的顺序文件,若物理上采用顺序存储则可实现随机存取;若能再保证记录的顺序结构,则可实现快速检索(即根据关键字快速找到对应记录)。
【注】一般来说,考试中题目所说的”顺序文件“指的是物理上顺序存储的顺序文件。
但是顺序文件的缺点是增加/删除一个记录比较困难(如果是串结构则相对简单)。
2.2.2、索引文件
对于可变长记录文件,要找到第i个记录,必须先顺序第查找前i-1个记录,但是很多应用场景中又必须使用可变长记录。那能不能解决可变长记录的查找速度慢的问题呢?
能不能让可变长记录的文件也实现随机存取的功能呢?
答:能。这就引入索引文件。
索引表本身是定长记录的顺序文件。因此可以快速找到第i个记录对应的索引项。
可将关键字作为索引号内容,若按关键字顺序排列,则还可以支持按照关键字折半查找。
每当要增加/删除–个记录时,需要对索引表进行修改。由于索引文件有很快的检索速度,因此主要用于对信息处理的及时性要求比较高的场合。
另外,可以用不同的数据项建立多个索引表。如学生信息表中,可用关键字”学号“建立一张索引表。也可用”姓名“建立一张索引表。这样就可以根据”姓名“快速地检索文件了。Eg:SQL就支持根据某个数据项建立索引地功能。
2.2.3、索引顺序文件
思考索引文件地缺点:每个记录对应一个索引表项,因此索引表可能会很大。比如:文件的每个记录平均只占8B,而每个索引表项占32个B,那么索引表都要比文件本身大4倍,这样对存储空间的利用率就太低了。
为了解决索引文件的缺点,引入索引顺序文件。
索引顺序文件:是索引文件和顺序文件思想的结合。索引顺序文件中,同样会为文件建立一张索引表,但不同的是,并不是每个记录对应一个索引项,而是一组记录对应一个索引表项。
用这种策略确实可以让索引表”瘦身“,但是能否解决不定长记录的顺序文件检索速度慢的问题呢?
答:可以。
若一个顺序文件有10000个记录,则根据关键字检索文件,只能从头开始顺序查找(这里指的并不是定长记
录、顺序结构的顺序文件),平均须查找5000个记录。
若采用索引顺序文件结构,可把10000个记录分为开根号√10000=100组,每组100个记录。则需要先顺序查找索引表找到分组(共100个分组,因此索引表长度为100,平均需要查50次),找到分组后,再在分组中
顺序查找记录(每个分组100个记录,因此平均需要查50次)。可见,采用索引顺序文件结构后,平均查
找次数减少为50+50= 100次。可见,采用了索引顺序文件结构后,平均查找次数减少为50+50=100次。
那同理,若文件共有10^6个记录,则可分为√1000000=1000个分组,每个分组1000个记录。根据关键字检索一个记录平均需要查找500+500= 1000次。这个查找次数依然很多,如何解决呢?
2.2.4、多级索引顺序文件
为了进一步提高检索效率,可以为顺序文件建立多级索引表。例如,对于一个含10^6个记录的文件,可先
为该文件建立一张低级索引表,每100个记录为一组,故低级索引表中共有10000个表项(即10000个定长
记录),再把这10000个定长记录分组,每组100个,为其建立顶级索引表,故顶级索引表中共有100个表
项。
此时,检索一个记录平均需要查找50+50+50=150次。
2.3、知识回顾
3、文件目录
学习目标:
3.1、文件控制块
目录本身就是一种有结构文件,由一条条记录组成。每条记录对应一个在该目录下的文件。
当我们双击”照片“后,操作系统会在这个目录中找到关键字”照片“对应的目录项(也就是记录),然后从外存中将”照片“目录的信息读入内存,于是,”照片“目录中的内容就可以显示出来了。
目录文件中的一条记录就是一个”文件控制块“(FCB)。
FCB的有序集合称为”文件目录“,一个FCB就是一个目录项。
FCB中包含了文件的**基本信息(文件名、物理地址、逻辑结构、物理结构)**等,存取控制信息(是否可读/可写、禁止访问的用户名单等),使用信息(如文件的建立时间、修改时间等)。
这里有两个信息很重要文件名和物理地址。
因为FCB就是实现了文件名和文件之间的映射。使用户(用户程序)可以实现”按名存取“。
需要对目录进行那些操作?
搜索:当用户要使用一个文件时,系统要根据文件名搜索目录,找到该文件对应的目录项。
创建文件:创建一个新文件时,需要在其所属的目录中增加一个目录项
删除文件:当删除一个新文件时,需要在目录中删除相应的目录项
显示目录:用户可以请求显示目录的内容,如显示该目录中的所有文件及相应属性。
修改目录:某些文件属性保存在目录中,因此这些属性变化时需要修改相应的目录项(如:文件重命名)
3.2、目录结构——单级目录结构
早期操作系统并不支持多级目录,整个系统中只建立一张目录表,每个文件占一个目录项。
单级目录实现了”按名存取“,但是不允许文件重名。
在创建一个文件时,需要先检查目录表中有没有重名文件,确定不重名才能允许建立文件,并将新文件对应的目录项插入目录表中。
显然,单级目录结构不适用于多用户操作。
3.3、目录结构——两级目录结构
早期的多用户操作系统,采用两级目录结构。分为主文件目录(MFD,Master File Directory)和用户文件目录(UFD,User File Directory)。
1)主文件目录记录用户名及相应用户文件目录的存放位置。
2)用户文件目录由该用户的文件FCB组成。
3)允许不同用户的文件重名。文件名虽然相同,但是对应的其实是不同的文件。
4)两级目录结构允许不同用户的文件重名,也可以在目录上实现实现访问限制(检查此时登录的用户名是否匹配)。但是两级目录结构依然缺乏灵活性,用户不能对自己的文件进行分类
3.4、目录结构——多级目录结构(树形目录结构)
用户(或用户进程)要访问某个文件时要用文件路径名标识文件,文件路径名是个字符串。各级目录之间用/
隔开。从根目录出发的路径称为绝对路径。
系统根据绝对路径一层一层地找到下一级目录。刚开始从外存读入根目录的目录表;找到“照片”目录的
存放位置后,从外存读入对应的目录表;找到“2015-08” 目录的存放位置,再从外存读入对应目录表;
最后才找到文件“自拍jipg”的存放位置。整个过程需要3次读磁盘I/O操作。
很多时候,用户会连续访问同一目录内的多个文件(比如:接连查看“2015-08”目录内的多个照片文件),
显然,每次都从根目录开始查找,是很低效的。因此可以设置一个**“当前目录”**a
例如,此时已经打开了”照片”的目录文件,也就是说,这张目录表已调入内存,那么可以把它设置为“当前目录”。当用户想要访问某个文件时,可以使用从当前目录出发的**“相对路径“**。
可见,引入“当前目录”和“相对路径”后,磁盘I/O的次数减少了。这就提升了访问文件的效率。
树形目录结构可以很方便地对文件进行分类,层次结构清晰,也能够更有效地进行文件的管理和保护。但是,树形结构不便于实现文件的共享。为此,提出无环图目录结构。
3.5、目录结构——无环图目录结构
在树形目录结构的基础上,增加一些指向同一节点的有向边,是整个目录成为一个有向无环图。可以更方便的实现多个用户间的文件共享。
可以用不同的文件名指向同一个文件,甚至可以指向同一个目录(共享同一个目录下的所有内容)。
需要为每个共享结点设置一个共享计数器,用于记录此时有多少个地方在共享该结点。用户提出删除结点的请求时,只是删除了该用户的FCB、并使共享计数器减1,并不会直接删除共享节点。
只有共享计数器减为0时,才删除结点。
注意:共享文件不同于复制文件。在共享文件中,由于各用户指向的是同一个文件,因此只要其中一个
用户修改了文件数据,那么所有用户都可以看到文件数据的变化。
3.6、索引节点(FCB的改进)
通过上面的学习,我们知道其实在查找各级目录的过程中只需要用到”文件名“这个信息,只有文件名匹配时,才需要读出文件的其它信息。因此可以考虑让目录表“瘦身”来提升效率。
每一个文件都会有一个唯一的索引结点。
【思考】采用索引结点的好处
Eg:假设一个FCB是64B,磁盘块的大小为1KB,则每个盘块中只能存放16个FCB。 若一个文件目录中共有640个目录项,则共需要占用640/16 = 40个盘块。因此按照某文件名检索该目录,平均需要查询320个目录项,平均需要启动磁盘20次(每次磁盘I/O读入一块)。
若使用索引节点机制,文件名占14B,索引结点指针站2B,则每个盘块可存放64个目录项,那么按文件名检索目录平均只需要读入320/64=5个磁盘块。显然,这将大大提升文件检索速度。
当找到文件名对应的目录项时,才需要将索引节点调入内存,索引节点中记录了文件的各种信息,包括文件在外存中的存放位置,根据“存放位置”即可找到文件。
存放在外存中的索引节点称为**“磁盘索引结点”,当索引节点放入内存后称为内存索引节点**。
相比之下内存索引节点中需要增加一些信息,比如:文件是否被修改,此时有几个进程正在访问该文件等。
3.7、知识回顾
4、文件的物理结构(文件分配方式)
学习目标:
文件的物理结构(文件分配方式):就是讨论文件数据应该怎样存放在外存中
- 连续分配
- 链接分配
- 隐式链接
- 显示链接
- 索引分配
4.1、补充知识
类似于内存分页,磁盘中的存储单元也会被分为一个个“块/磁盘块/物理块”。很多操作系统中,磁盘块的大小与内存块、页面的大小相同。
在内存管理中,进程的逻辑地址空间被分为一个一个页面,同样的,在外存管理中,为了方便对文件数据的管理,文件的逻辑地址空间也被分为了一个一个的文件“块”。
于是文件的逻辑地址也可以表示为(逻辑块号,块内地址)。
4.2、文件分配方式——连续分配
4.2.1、连续分配实现
连续分配方式要求每个文件在磁盘上占有一组连续的块。
【思考】用户通过逻辑地址来操作自己的文件,操作系统如何实现从逻辑地址到物理地址的映射?
答:(逻辑块号,块内地址)——>(逻辑块号,块内地址)。只需转换块号就行,块内地址保持不变。
针对上图,我们可以写出文件目录表,文件目录表记录存放文件的起始块号和长度(总共占用几个块)。
用户给出要访问的逻辑块号,操作系统找到该文件对应的目录项(FCB)…
物理块号=起始块号+逻辑块号。
Eg:计算上图中
aaa
文件逻辑块号2的物理地址。查看目录表可知,
aaa
文件的起始块号为4,那逻辑块号2的物理地址=起始块号+逻辑块号=4+2=6。所以逻辑块号2的物理地址为6。
当然,还需要检查用户提供的逻辑块号是否合法(逻辑块号>=长度)就不合法
可以直接算出逻辑块号对应的物理块号,因此连续分配支持顺序访问和直接访问(即随机访问)。
【补充】:
顺序访问:假设想要访问逻辑块2,必须先访问逻辑块1,假设想要访问逻辑块3,必须先访问逻辑块1,必须先访问块逻辑2…
随机访问:可以直接访问逻辑块2,无需前提访问其它逻辑块。
读取某个磁盘块时,需要移动磁头。访问的两个磁盘块相隔越远,移动磁头所需时间就越长。
所以:连续分配的文件在顺序读/写时速度最快。
4.2.2、连续分配的缺点分析
缺点一:物理上采用连续分配的文件不方便扩展
缺点二:物理上采用连续分配,存储空间利用率低,会产生难以利用的磁盘碎片
4.2.3、连续分配总结
连续分配方式要求每个文件在磁盘上占有一组连续的块。
优点:支持顺序访问和直接访问(即随机访问);连续分配的文件在顺序访问时速度最快。
缺点:不方便扩展;存储空间利用率低,会产生磁盘碎片。
4.3、文件分配方式——链接分配
链接分配采取离散分配的方式,可以为文件分配离散的磁盘块。分为隐式链接和显示链接两种。
4.3.1、链接分配——隐式分配
实现方式:
目录表中记录了文件存放的起始块号和结束块号。当然,也可以增加一个字段来表示文件的长度。
除了文件的最后一个磁盘之外,每个磁盘块中都会保存指向下一个盘块的指针,这些指针对用户是透明的。
【思考一】如何实现文件的逻辑块号到物理块号的转变?
用户给出要访问的逻辑块号i
,操作系统找到该文件对应的目录项(FCB),从目录项中找到起始块号(即0号块),将0号逻辑块读入内存,由此知道1号逻辑块存放的物理块号,于是读入1号逻辑块,再找到2号逻辑块的存放位置…以此类推。因此,读入i号逻辑块,总共需要i+1次磁盘I/O。
【结论】采用**链式分配(隐式链接)**方式的文件,只支持顺序访问,不支持随机访问,查找效率低。另外,指向下一个盘块的指针也需要耗费少量的存储空间。
【思考二】是否方便扩展?
答:方便扩展。
若此时要扩展文件,则可以随便找一个空闲磁盘块,挂到文件的磁盘块链尾,并修改文件的FCB
【结论】采用隐式链接的链接分配方式,很方便文件扩展。另外,所有的空闲磁盘块都可以被利用,不会有碎片问题,外存利用率高。
4.3.2、链接分配——显式链接
核心思想:把用于链接文件各物理块的指针显示地存放在一张表中。即文件分配表(FAT,File Allocation Table)。
此时目录表中只需记录文件地起始块号。
Eg:假设某个新创建地文件aaa
依次存放在磁盘块2——>5——>0——1。
显式链接实现如下:
【注意】一个磁盘仅设置一张FAT。开机时,将FAT读入内存,并常驻内存。FAT的各个表项在物理上来连续存储,且每个表项长度相同,因此物理号字段可以是隐含的。
【思考】如何实现文件的逻辑块号到物理块号的转变?
用户给出要访问的逻辑块号i,操作系统找到该文件对应的目录项(FCB),从目录项中找到起始块号,若i>0,则查询内存中的文件分配表FAT,往后找到i号逻辑块对应的物理块号。逻辑块号转换成物理块号的过程不需要读磁盘操作(因为FAT是常驻内存地,所以逻辑块号——>物理块号不需要读磁盘操作)。
【结论】采用链式分配——显式链接方式的文件,支持顺序访问,也支持随机访问(想访问i号逻辑块时,并不需要依次访问之前的0~i-1号逻辑块),由于块号转换的过程不需要访问磁盘,因此相比于隐式链接来说,访问速度快很多。
显然,显示链接也不会产生外部碎片,也可以很方便地对文件进行扩展。
4.3.3、链接分配总结
显式链接——把用于链接文件各物理块的指针显式地存放在-张表中,即文件分配表(FAT, File
Allocation Table)。一个磁盘只会建立- -张文件分配表。开机时文件分配表放入内存,并常驻内存。
优点:很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接来说,地址转换时不需要访问磁盘,因此文件的访问效率更高。
缺点:文件分配表的需要占用- -定的存储空间。
!!!【注】考试题目中遇到未指明隐式/显式的“链接分配”,默认指的是隐式链接的链接分配。
4.4、文件分配方式——索引分配
4.4.1、索引分配——实现过程
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文件的各个逻辑地址对应地物理块(索引表的功能类似于内存管理中的页表——建立逻辑页面到物理页面之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。
假设某个新创建的文件aaa
的数据依次存放在磁盘块2——>5——>13——>9。7号磁盘块作为aaa
的索引块,索引块中保存了索引表的内容。
那aaa
的索引表如下:
因此在目录表中,最主要的两个信息:文件名和索引块。
通过文件名——>索引块——>索引表——>实现逻辑块号到物理块号的转换。
【注】在显示链接的链式分配方式中,文件分配表FAT是一个磁盘对应一张。而索引分配方式中,索引表是一个文件对应一张。
索引表中逻辑块号和物理块号大小计算:
- 逻辑块号可以是隐含的。
- 可以用固定的长度表示物理块号。如假设磁盘总容量为1TB=240B,磁盘块大小为1KB,则共有2^30个磁盘块,4*8bit=32bit,所以可用4B表示磁盘块号)。
【思考】如何实现文件的逻辑块号到物理块号的转换?
答:用户给出要访问的逻辑块号
i
,操作系统找到该文件对应的目录项(FCB),从目录项中找到索引块,索引块找到索引表,将索引表从外存读入内存,并查找索引表即可知i
号逻辑块在外存中的存放位置。可见,索引分配方式可以支持随机访问。文件扩展也很容易实现(只需要给文件分配一个空闲块,并增加一个索引表项即可)。
【问题】若每个磁盘块1KB,一个索引表项4B,则一个磁盘块只能存放256个索引项。
如果一个文件的大小超过了256块,那么一个磁盘块是装不下文件的整张索引表的,如何解决这个问题?
针对以上疑问,有三种解决方案:
- 链接方案
- 多层索引
- 混合索引
4.4.2、链接方案
链接方案:如果文件索引表太大,一个索引块装不下,那可以为这个文件索引表分配多个索引块,那么可以将多个索引块链接起来存放。
但是链接方案有个很大的缺点。比如,假如一个文件需要256个索引块,但如果要访问的逻辑块号在第256个索引表中,那必须要先顺序地读入前255个索引块。
这显然是很低效的,因此引入多层索引。
4.4.3、多层索引
多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件大小的要求在建立第三层,第四层索引块。
假设磁盘块大小为1KB,一个索引表项占4B,则一个磁盘块只能存放256个索引项。
若某文件采用两层索引,则该文件的最大长度可以到256*256*1KB=65536KB=64MB。
同时可根据逻辑块号算出应该查找索引表中的那个表项。
Eg:要访问1026号逻辑块,则通过
1026/256=4
得出该逻辑块号处于二级索引表中的第4个索引表。然后再通过1026%256=2
,代表1026号逻辑块号。然后通过此1026逻辑块号得到对应的物理块号。比较正式的过程:因此可以先将一级索引表调入内存,查询4号表项,将其对应的二级索引表调入内存,再查 询二级索引表的2号表项即可知道1026号逻辑块存放的磁盘块号了。
所以以上过程,访问目标数据块,需要3次磁盘I/O:
- 第一次是读入一级索引表
- 第二次是读入对应二级索引表
- 第三次是读入目标数据块
类似的,若采用三层索引,则文件的最大长度为256*256*256*1KB=16GB。
同样,三层索引,访问目标数据块,需要4次磁盘I/O。
【结论】采用K层索引结构,且顶级索引表未调入内存,则访问一个数据块需要
k+1
次读磁盘操作。
4.4.4、混合索引
混合索引:多种索引分配方式相结合。例如,一个文件的顶级索引表中,既包含直接地址索引(直接指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。
这种结构的索引支持的最大文件长度未65800KB。
【分析】要访问某一个逻辑块,需要几次读磁盘操作呢?
前提:顶级索引表还没读入内存。
1)访问0~7号逻辑块,需要两次读磁盘:
- 第一次访问:顶级索引表
- 第二次访问:根据顶级索引表的某一个直接地址找到目标数据块存放的位置,然后再把目标数据块读入内存。
2)8访问~263号逻辑块,需要三次读磁盘:
- 第一次访问:顶级索引表
- 第二次访问:根据一级间接找到索引表
- 第三次访问:访问目标数据块
3)访问264~65799,需要四次读磁盘:
- 第一次访问:索引表
- 第二次访问:两级间接索引对应的索引表
- 第三次访问:一级间接索引对应的索引表
- 第四次访问:访问目标数据块
4.4.5、索引分配总结
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文
件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表——建立逻辑页面到物理页之间
的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。若文件太大,索引表项太多,可以采取以下三种方法解决:
1)链接方案:如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。
缺点:若文件很大,索引表很长,就需要将很多个索引块链接起来。想要找到i号索引块,必须先依次读 入0~i-1号索引块,这就导致磁盘I/O次数过多,查找效率低下。
2)多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件 大小的要求再建立第三层、第四层索引块。采用K层索引结构,且顶级索引表未调入内存,则访问一个数 据块只需要K+1次读磁盘操作。
缺点:即使是小文件,访问一个数据块依然需要K+1次读磁盘。
3)混合索引:多种索引分配方式的结合。例如, 一个文件的顶级索引表中,既包含直接地址索引(直接指 向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引( 指向两层索引表)
优点:对于小文件来说,访问一个数据块所需的读磁盘次数更少。
!!!【重要考点】!!!
- 要会根据多层索引、混合索引的结构计算出文件的最大长度(注意:各级索引表大小不能查过一个块)
- 要能自己分析访问某个数据块所需要的读磁盘次数(注意:FCB中会存有指向顶级索引块的指针,因此可根据FCB读入顶级所以块,每次读入下一级的索引块都需要一次读磁盘操作)。
- 注意题目条件——顶级索引是否已调入内存。
4.5、文件分方式总结
5、逻辑结构 VS 物理结构
逻辑结构(从用户视角看)
在用户看来,用户使用逻辑地址访问文件。并且从用户视角来看,整个文件占用连续的逻辑地址空间。
物理结构(操作系统视角)
所有的数据就是一堆二进制数据,每个磁盘块可存储1KB。
接下来,操作系统会根据文件管理策略来决定到底使用连续分配/链接分配/索引分配的那种方式把用户的数据块存到磁盘里边。
索引分配:操作系统为每个文件维护一张索引表,其中记录了逻辑块号——>物理块号的映射关系。
【易混点一】链式存储的顺序文件采用链接分配/连续分配?
是不是听起来有点混乱?
分析:首先有结构中——>顺序文件——>链式存储。链式存储(各条记录离散着存放,用指针表示先后关系)
然后我们在使用链接分配方式将文件分配到磁盘中:
或者使用连续分配方式将文件分配到磁盘中:
文件内部各条记录链式存储:由创建文件的用户自己设计的
文件整体用链接分配:由操作系统决定
【易混点二】索引文件采用索引分配
索引文件:从用户视角来看,整个文件依然是连续存放的。如:前1MB存放索引项,后续部分存放记录。
操作系统视角:到”我这里“就是一堆二进制数据,每个磁盘块可存储1KB,拆就行了。
索引文件的索引表:用户自己建立的,映射:关键字——>记录存放的逻辑地址。
索引分配的索引表:操作系统建立的,映射:逻辑块号——>物理块号。
总结
6、文件存储管理
以上所学习的内容都是对非空闲磁盘块的管理(存放了文件数据的磁盘块)
此章节是对空闲磁盘块的管理
学习时注意从三个方便进行理解:
- 用什么方式记录、组织空闲块?
- 如何分配磁盘块
- 如何回收磁盘块
6.1、存储空间的划分与初始化
安装Windows操作系统的时候,一个必经步骤是——为磁盘分区(C:盘、D:盘、E:盘等)。
存储空间的划分:将物理磁盘划分为一个个文件卷(逻辑卷、逻辑盘)。
存储空间的初始化:将各个文件卷划分为目录区,文件区。
并且目录区主要存放文件目录信息(FCB)、用于磁盘存储空间管理的信息。
有的系统支持超大型文件,可支持有多个物理磁盘组成一个文件卷
6.2、存储空间管理——空闲表法
注意一个核心:此章节的操作是针对空闲磁盘块的处理。
【问题一】如何分配磁盘块?与内存管理中的动态分区分配很类似,为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配那个区间。
Eg:新创建的文件请求3个块,采用首次适应算法
那使用最佳适应、最坏适应算法和内存分配是一样的道理。
【问题二】如何收回磁盘块,与内存管理中的动态分区分配很类似,当回收某个存储区时需要四种情况:
1)回收区的前后都没有相邻空闲区
2)回收区的前后都都是相邻空闲区
3)回收区的前面是空闲区
4)回收区的后面是空闲区
总之,回收时需要注意表项的合并问题。
6.3、存储空间管理——空闲链表法
空闲链表法:
- 空闲盘块链:以盘块为单位组成一条空闲链
- 空闲盘区链:以盘区为单位组成一条空闲链
6.3.1、空闲盘块链
操作系统保存着链头、链尾指针。
如何分配?
答:若某文件申请k个盘块,则从链头开始依次摘下k个盘块分配,并修改空闲链的链头指针。
如何回收?
答:回收的盘块依次挂到链尾,并修改空闲链的链尾指针。
此方法适用于离散分配的物理结构,为文件分配多个盘块时可能要重复对此操作。
6.3.2、空闲盘区链
操作系统保存着链头、链尾指针。
如何分配:若某文件申请k个盘块,则可以采用首次适应、最佳适应等算法,从链头开始检索,按照算法规则找到一个大小符合要求的空闲盘区,分配给文件。若没有合适的连续空闲块,也可以将不同盘区的盘块同时分配给一个文件,注意分配后可能要修改相应的链指针、盘区大小等数据。
如何回收:若回收区和某个空闲盘相邻,则需要将回收区合并到空闲盘区中。若回收区没有和任何空闲区相邻,将回收区作为单独的一个空闲盘区挂到链尾。
此方法即适用于离散分配又适用于连续分配。
6.4、存储空间管理——位示图法
(易考)
位示图:每个二进制位对应一个盘块。在本例中,
0
代表盘块空闲,1
代表盘块已分配。位示图一般用连续的“字”来表示,如本例中一个字的字长是16位,字中的每一位对应一个盘块。因此可以用(字号,位号)对应一个盘块号。当然有的题目中也描述位(行号、列号)。
!!!【重要】要能自己推出盘块号与(字号,位号)相互转换的公式。
注意题目条件:盘块号、字号、位号到底是从0开始的还是从1开始的。
如本例中盘块号、字号、位号从0开始,若n表示字长,则…
公式一:(字号,位号)=(i,j)的二进制位对应的盘块号:b=ni+j
Eg:
1)(0,1)=16*0+1=1
2)(1,10)=16*1+10=26
公式二:b号盘对应的字号=i=b/n,位号j=b%n
Eg:
1)b=13—>i=13/16=0,j=13%16=13
2)b=31—>i=31/16=1,j=31%16=15
那如果盘块号、字号、位号从0开始呢?
如何分配:若文件需要k个块
1)顺序扫描位示图,找到k个相邻或不相邻的
0
; 2)根据字号、位号算出对应的盘块号,将相应盘块分配给文件
3)将相应位设置为
1
如何回收:
1)根据回收的盘块号计算出对应的字号,位号;
2)将相应二进制位设为
0
此方法即适用于离散分配又适用于连续分配。
6.5、存储空间管理——成组链接法
空闲表法、空闲链表法不适用于大型文件系统,因为空闲表或空闲链表可能过大。UNIX系统中采用了成组链接法对磁盘空闲块进行管理。
文件卷的目录区中专门用一个磁盘块作为超级块,当系统启动时需要将超级块读入内存。并且要保证内存与外存中的超级快数据一致。
成组链接法的实现过程:
需要注意的几个点:
- 若已经没有下一组空闲块,设为特殊值。
- 一个分组中的块号不需要连续。
- 每一个分组的盘块数量是有上限的,例如上图,每个分组最多只有100个盘块
- 最后一个分组的盘块数是要比其他分组要少
如何分配?
Eg1:需要1个空闲块
1)检查第一个分组的块数是否足够。(1<100,因此是足够的)【注】有超级块在系统启动时装入内存,所以不需要读I/O磁盘。
2)分配第一个分组中的1个空闲块,并修改相应数据
Eg2:需要100个空闲块
1)检查第一个分组的块数是否足够。(100=100,因此是足够的)【注】有超级块在系统启动时装入内存,所以不需要读I/O磁盘。
2)分配第一个分组中的100个空闲块。但是由于300号块内存放了下一组的信息,因此300号块的数据需要复制到超级快中,如下:
如何回收?
情况一:假设每个分组最多为100个空闲块,此时第一个分组已有99个块,还要再回收一块。
情况二:假设每个分组最多为100个空闲块,此时第一个分组已经有100个块,还要再回收一块。
此时需要将超级块中的数据复制到新回收的块中,并修改超级块的内容,让新回收的块称为第 一个分组。
6.6、知识回顾
7、文件的基本操作
学习目标:
本章节就分析这些基本功能背后发生的事。
7.1、创建文件
进行Create系统调用时,需要提供的几个主要参数:
1)所需的外存空间大小(如: 一个盘块,即1KB)
2)文件存放路径(“D:/Demo”)
3)文件名(这个地方默认为“新建文本文档.txt”)
操作系统在处理Create系统调用时,主要做了两件事:
1)在外存中找到文件所需的空间(结合上小节学习的空闲链表法、位示图、成组链接法等管理策略,找到空闲空 间)
2)根据文件存放路径的信息找到该目录对应的目录文件(此处就是D:/Demo目录),在目录中创建该文件对应的 目录项。目录项中包含了文件名、文件在外存中的存放位置等信息。
7.2、删除文件
进行Delete系统调用时,需要提供的几个主要参数:
1)文件存放路径( .D:/Demo”)
2)文件名(“tqst.txt” )
操作系统在处理Delete系统调用时,主要做了几件事:
1)根据文件存放路径找到相应的目录文件,从目录中找到文件名对应的目录项。
2)根据该目录项记录的文件在外存的存放位置、文件大小等信息,回收文件占用的磁盘块。(回收磁盘块时,根 据空闲表法、空闲链表法、位图法等管理策略的不同,需要做不同的处理)
3)从目录表中删除文件对应的目录项
7.3、打开文件
在很多操作系统中,在对文件进行操作之前,要求用户先使用open系统调用“打开文件”,需要提供的几个主要参数:
1)文件存放路径(D:/Demo)
2)文件名(aa.txt)
3)要对文件的操作类型(如:r只读,rw读写等)
操作系统再处理open系统调用时,主要做了几件事:
1)根据文件存放路径找到相应的目录文件,从目录中找到文件名对应的目录项,并检查该用户是否有指定的操 作权限
2)将目录项复制到内存中的“打开文件表”中。并将对应表目的编号返回给用户。之后用户使用打开文件表的 编号来指明要操作的文件(win中打开文件的索引号叫做文件句柄,UNIX中叫做文件描述符)
打开文件表有两种:
- 用户进程的打开文件表
- 系统的打开文件表
两者打开文件表的关系:
7.4、关闭文件
进程使用完文件后,要关闭文件
操作系统在处理Close系统调用时,主要做了几件事:
1)将进程的打开文件表相应表项删除
2)回收分配该文件的内存空间等资源
3)系统打开文件表的打开计算器count
减1,若count=0
,则删除对应表项。
7.5、读文件
再读文件前,记事本打开文件表已经有这个文件的表项了:
使用read
系统调用需要提供的几个参数:
1)因此记事本进程在读文件时只需要指明自己要读文件在打开文件表中对应的编号即可。这是一个参数
2)还需要指明要读入多少数据(如:读入1KB)
3)还需要指明读入的数据要放在内存中的什么位置
操作系统在处理read
系统调用时,会从读指针指向的外存中,将用户指定大小的数据读入用户指定的内存区域中。
7.6、写文件
使用write
系统调用需要提供的几个参数:
1)在支持打开文件操作系统中,只需要提供文件在打开文件表中的索引号即可
2)需要指明写出多少数据(如:写出1KB)
3)写回外存的数据放在内存中的什么位置
操作系统在处理write
调用时,会从用户指定的内存区域中,将指定大小的数据写回写指针指向的外存。
7.7、知识回顾
打开文件和读文件是重点考察对象。
8、文件共享
学习目标:
【注意】多个用户共享同一个文件,意味着系统只有”一份“文件数据。并且只要某个用户修改了文件的数据,其它用户也可以看到文件数据的变化。
如果是多个用户都”复制“了同一个文件,那么系统中会有”好几份“文件数据。其中一个用户修改了自己的那份文件数据,对其他用户的文件数据并没有影响。
8.1、基于索引点的共享方式(硬链接)
知识回顾,索引结点:是一种文件目录瘦身策略。由于检索文件时只需用到文件名,因此可以将除了文件名之外的其它信息放到索引结点中。这样目录项就只需要包含文件名、索引节点指针。
索引结点中设置一个链接计数器变量count
,用于表示链接到本索引结点上的用户目录项数。
若count=2
,说明此时有两个用户目录项链接到该索引结点上,或者说是有两个用户在共享此文件。
若某个用户决定”删除“该文件,则只是要把用户目录中与该文件对应的目录项删除,且索引结点的count
值减1。
若count>0
,说明还有别的用户要使用该文件,暂时不能把文件数据删除,否则或导致指针悬空。
若count=0
时系统负责删除文件。
8.2、基于符号链的共享方式(软链接)
当User3访问ccc
时,操作系统判断文件ccc
属于Link类型文件(Link类型的文件可以不同),于是会根据其中记录的路径层层查找目录,最终找到User1的目录表中的aaa
表项,于是就找到了文件1的索引节点,进而访问到文件1。
Windows操作系统的“快捷方式”就是软连接。
下面以QQ为例说明,软链接:
上例中,如果文件1被删除,但是软链接(文件二)依然存在,只是通过C:/User1/aaa
这个路径已经找不到文件1了。此软链接就会失效。
知识回顾:
9、文件保护
学习目标:
9.1、口令保护
为文件设置一个”口令“(如:abc11223),用户请求访问该文件时必须提供”口令“。
口令一般存放在文件对应的FCB或索引节结点中。用户访问文件前需要先输入”口令“,操作系统会将用户提供的口令与FCB存储的口令进行对比,如果正确,则允许该用户访问文件。
优点:保存口令的空间开销不多,验证口令的时间开销也很小。
缺点:正确的”口令“存放在系统内部,不够安全。
9.2、加密保护
使用某个”密码“对文件进行加密,在访问文件时需要提供正确的”密码“才能对文件进行正确的解密。
Eg:一个最简单的加密算法——异或加密
假设用于加密/解密的密码为:01001(异或规则:相同位得0,不相同位得1)
系统中保存得就是加密后得数据,想要得出原数据,必须要解密码在异或一次加密数据,即可得到原数据。
优点:保密性强,不需要再系统中存储密码。
缺点:编码/译码,或者说加密/解密要花费一定时间。
9.3、访问控制
在每个文件得FCB或索引结点中增加一个访问控制列表(Access-Control,ACL),该表中记录了各用户对该文件执行那些操作。每个文件都会有属于自己的ACL表
访问类型:
有的计算机可能会有很多个用户,因此访问控制列表可能会很大,可以用精简的访问列表解决这个问题。
所谓精简的访问控制列表:以组为单位,标记各“组”用户可以对文件执行那些操作。如:分为系统管理员、文件主、文件主的伙伴、其它用户几个分组。
当某用户想要访问文件时,系统会检查该用户所属的分组是否有相应的访问权限。
当然系统需要管理分组的信息。
9.4、Windows的访问控制
知识回顾:
10、文件系统的层次结构
本章节不考察
用一个例子来辅助记忆文件系统的层次结构:
假设某用户请求删除文件"D:/aaa/bbb.xlsx"的最后100条记录。
1)用户需要通过操作系统提供的接口发出上述请求——用户接口
2)由于用户提供的是文件的存放路径,因此需要操作系统一层一层的查找目录,找到对应的目录项——文件目录系统
3)不同的用户对文件有不同的操作权限,因此为了保证安全,需要检查用户是否有访问权限——存取控制模块(存取控制验证层)
4)验证了用户的访问权限之后,需要把用户提供的“记录号”转变为对应的逻辑地址——逻辑文件系统与文件信息缓冲区
5)知道了目标记录对应的逻辑地址后,还需要转换成实际的物理地址——物理文件系统
6)要删除这条记录,必定要对磁盘设备发出请求——设备管理程序模块
7)删除这些记录后,会有一些盘块空闲,因此要将这些空闲盘块回收——辅助分配模块
11、文件系统的全局结构(布局)
我们从一个磁盘出厂、物理格式化、逻辑格式化来一步一步的认识文件系统在外存当中是如何一步一步被建立的。
11.1、文件系统在外存中的结构
首先一个磁盘刚被生产出来的时候是没有划分扇区的。那第一步要做的事情就是物理格式化(低级格式化)
物理格式化:划分扇区,检测坏扇区,并用备用扇区替换坏扇区。
紧接着,就是逻辑格式化。
逻辑格式化后,磁盘分区(分卷Volume),完成各分区的文件系统初始化。
注:逻辑格式化后,灰色部分就有实际数据了,白色部分还没有数据。如下图:
每个分区的大小,地址范围(起始地址~结束地址)是多少,这个就需要分区表来记录。
11.2、文件系统在内存中结构
内存分为用户区和内核区。
11.3、open系统调用打开文件的背后过程
12、虚拟文件系统&文件系统挂载(安装)
12.1、普通的文件系统
不同的文件系统,定义的函数接口也不同,不同的文件系统所使用的
open
系统调用也需要不同(参数名和参数格式都不同)。比如:
UFS文件系统使用
open(参数a,b)
系统调用, NTFS文件系统使用
fopen(参数x)
系统调用, FAT文件系统使用
openf(参数p,q)
系统调用,所带来的问题就是,程序员在编写代码时,根据不同的文件系统,编程人员就需要不同的
open
系统调用,更有甚者还需要不同的代码去适配不同的文件系统,所以这样看来很不统一,很麻烦。
那解决办法就是应该向上层用户进程提供一个统一标准的函数调用接口,至此引入了虚拟文件系统。
12.2、虚拟文件系统
虚拟文件系统的特点:
1)向上层用户进程提供统一标准的系统调用接口,屏蔽底层具体文件系统的实现差异。
2)VFS要求下层的文件系统必须实现某些规定的函数功能,如:open/read/write。一个新的文件系统想 要在某些操作系统上被使用,就必须满足该操作系统VFS的要求。
3)每打开一个文件,VFS就在主存中新建一个vnode,用统一的数据结构表示文件,无论该文件存储在那 个文件系统
第3)特性讲解:
但是还有个存在的问题:不同的文件系统,表示文件数据结构各不相同。打开文件后,其在内存中的表示就不同。
如下:
那如何解决上述问题呢?如下方案:
在虚拟文件系统中,每当我们
open
打开文件以后,这个虚拟文件系统就会给这个文件在主存中新建一个vnode(v结点)
然后每个不同的文件系统的数据信息给复制到vnode中,这样虚拟文件系统就会用一个统一的数据结构vnode来表示任何一个文件的信息,无论这个文件是存在哪一种文件系统当中。
【注意vnode和inode的区别】
1)vnode只存在于主存中,而inode即会被调入主存,也会在外存中存储。
具体如下:
如果此时要打开的文件刚好是在UFS文件系统中,找到文件对应的FCB后,会把文件inode从外存 读入主存,然后将inode复制到vnode中。
2)vnode中有函数功能指针
什么是函数功能指针呢?
函数功能指针是指向对应文件系统的函数功能列表,只要
open
打开文件,无论是对文件read
和write
,都会先找到这个文件的vnode,然后根据vnode的函数功能指针指向的函数功能列表,然后执行read
或write
等函数调用
12.3、文件系统挂载(mounting)
文件系统挂载(mounting),即文件系统安装/装载——如何将一个文件系统挂载到操作系统中?
“挂载“操作很常见,比如:把U盘插入电脑,那U盘的文件系统就需要挂载到电脑的操作系统上,具体来说是把U盘的文件系统挂载到操作系统中虚拟文件系统VFS中。
文件挂载要做的事:
1)在VFS中注册新挂载的文件系统。**内存中的挂载表(mount table)**包含每个文件系统的相关信息,包 括文件系统类型,容量大小等。
2)新挂载的文件系统,要想VFS提供一个函数地址列表,VFS有了各个文件系统的函数地址列表后,VFS就 可以使用它们的
open
、read
、write
等系统调用了,如下图:
3)将新文件系统加到挂载点(mount point),也就是将新文件系统挂载在某个父目录下。
什么是挂载点呢?如下图:
只有确定了新文件系统挂载的位置,那接下来才可以正常访问和使用这个新的文件系统。