句柄和文件描述符(FD) - 简书
理解Linux的文件描述符FD与Inode

fd filedescriptor

说明

每个文件描述符会与一个打开的文件相对应
不同的文件描述符也可能指向同一个文件
相同的文件可以被不同的进程打开,也可以在同一个进程被多次打开

系统为每一个进程维护了一个文件描述符表,所以在不同的进程中会看到相同的 fd。那么要理解具体的内部结构,需要理解下面这三个数据结构

  • 进程级的文件描述符表
  • 系统级的打开文件描述符表
  • 文件系统 i-node 表

进程级别

每个进程可以打开多个文件,所以每个进程都会有一个私有的文件描述符表(file descriptors table)。

注:下文称 file descriptors table 中的每一个条目为 file descriptor,称 file descriptor 中的整数为 fd。

需要注意的是,每个进程的 fd 012 已经被占用(下文会有解释),之后分配的每个进程的 fd 从 3 开始。

515

linux 内核会为每一个进程创建一个 task_truct 结构体来维护进程信息,称之为 进程描述符,该结构体中 指针

struct files_struct *files

指向一个名称为file_struct的结构体,该结构体即 进程级别的文件描述表。

它的每一个条目记录的是单个文件描述符的相关信息

  • 控制文件描述符操作的一组标志
  • 对打开文件句柄的引用

系统级别

内核对所有打开的文件都有一个系统级的文件描述符表,各条目称为 打开文件句柄(open file handle) 一个打开文件句柄存储了一个与一个打开文件相关的所有信息

  • 当前文件偏移量(调用 read()和 write()时更新,或使用 lseek()直接修改)
  • 打开文件时所使用的状态标识(即,open()的 flags 参数-文件访问模式(如调用 open()时所设置的只读模式、只写模式或读写模式)式)
  • 与信号驱动相关的-对该文件 i-node 对象的引- 文件类型(例如:常规文件、套接字或 FIFO)和访问权限和访问权限
  • 一个指针,指向该文件所持有的锁列表
  • 文件的各种属性,包括文件大小以及与不同类型操作相关的时间戳

Inode

每个文件系统会为存储于其上的所有文件(包括目录)维护一个 i-node 表,单个 i-node 包含以下信息:

  • 文件类型(file type),可以是常规文件、目录、套接字或 FIFO
  • 访问权限
  • 文件锁列表(filelocks)
  • 文件大小
    等等
    i-node存储在磁盘设备上,内核在内存中维护了一个副本,这里的i-node表为后者。副本除了原有信息,还包括:引用计数(从打开文件描述体)、所在设备号以及一些临时属性,例如文件锁。

文件描述符、打开的文件句柄、i-node 关系

为什么需要文件描述符

进程进行系统调用的时候,内核为什么不直接返回指向文件的指针呢?反而多此一举加了个fd来引用文件。

原因是为了防止用户空间的程序随意读写操作系统内核的文件对象。

如果内核直接返回内核中文件对象的地址给进程,进程便可以绕过内核,肆意对该文件进行操作,这样一来用户空间和内核空间的划分便如同虚设。

有了文件描述符之后,由于 global file table 处于内核空间中,用户即使拥有 fd,也无法得到实际文件对象的地址,除非把 fd 作为系统调用的参数来使用,如此一来,控制权又回到了内核手中,也便达到了权限控制的目的。

文件描述符限制

有资源的地方就有战争,“文件描述符”也是一种资源,系统中的每个进程都需要有“文件描述符”才能进行改变世界的宏图霸业。世界需要秩序,于是就有了“文件描述符限制”的规定。

如下:

系统级:当前系统可打开的最大数量,通过 fs.file-max 参数可修改
用户级:指定用户可打开的最大数量,修改/etc/security/limits.conf
进程级:单个进程可打开的最大数量,通过fs.nr_open参数可修改

系统级命令

1. file-max

/proc/sys/fs/file-max

这个文件决定了系统级别所有进程可以打开的文件描述符的数量限制,如果内核中遇到VFS: file-max limit <number> reached的信息,那么就提高这个值。

设置方式:

# /etc/sysctl.conf
fs.file-max = 6553500
sysctl -p

2. file-nr

这个是一个状态指示的文件,一共三个值,第一个代表全局已经分配的文件描述符数量,第二个代表自由的文件描述符(待重新分配的),第三个代表总的文件描述符的数量。

cat /proc/sys/fs/file-nr
203136  0   19593935

用户级命令

3. nofile

nofile全称number of open files,最大可打开的文件描述符数量,这个限制是针对用户和进程来说的。

3.1. 全局修改,永久生效,需要重启
# /etc/security/limits.conf
* soft nofile 65535
* hard nofile 65535

soft 指的是当前系统生效的设置值
hard 指的是系统中所能设定的最大值
“-” 指的是同时设置了 soft 和 hard 的值

注意:对于ubuntu系统,还需要加载相应的pam模块才能生效

# /etc/pam.d/login
# Sets up user limits according to /etc/security/limits.conf
# (Replaces the use of /etc/limits in old login)
session    required   pam_limits.so

3.2. 临时调整
ulimit -HSn 655350

其他命令

4. lsof

$lsof | wc -l
253
[~]# lsof
COMMAND     PID   TID     USER   FD      TYPE             DEVICE  SIZE/OFF       NODE NAME
systemd       1           root  cwd       DIR              253,1      4096          2 /
systemd       1           root  rtd       DIR              253,1      4096          2 /
systemd       1           root  txt       REG              253,1   1478184     397653 /usr/lib/systemd/systemd
systemd       1           root  mem       REG              253,1     20032     401603 /usr/lib64/libuuid.so.1.3.0
systemd       1           root  mem       REG              253,1    252704     401631 /usr/lib64/libblkid.so.1.1.0
COMMAD: 命令  
PID:进程id  
TID:线程id  
USER:用户  
FD:文件描述符,比如:cwd当前工作目录;txt程序代码;0标准输入;1标准输出;2标准错误  
TYPE:node类型,比如:sock即socket;DIR目录;IPv4等。  
DEVICE:磁盘名  
SIZE/OFF:文件大小  
NODE:文件标识  
NAME:文件名称

lsof 是列出系统所占用的资源(list open files) 。

lsof /dev/random:列出哪些进程在使用/dev/random(用于产生随机数)

Inode 文件节点

一、inode 是什么?

理解 inode,要从文件储存说起。

文件储存在硬盘上,硬盘的最小存储单位叫做”扇区”(Sector)。每个扇区储存 512 字节(相当于 0.5KB)。

操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个”块”(block)。这种由多个扇区组成的”块”,是文件存取的最小单位。”块”的大小,最常见的是 4KB,即连续八个 sector 组成一个 block。

文件数据都储存在”块”中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做 inode,中文译名为”索引节点”。

每一个文件都有对应的 inode,里面包含了与该文件有关的一些信息。

二、inode 的内容

inode 包含文件的元信息,具体来说有以下内容:

  • 文件的字节数
  • 文件拥有者的 User ID
  • 文件的 Group ID
  • 文件的读、写、执行权限
  • 文件的时间戳,共有三个:ctime 指 inode 上一次变动的时间,mtime 指文件内容上一次变动的时间,atime 指文件上一次打开的时间。
  • 链接数,即有多少文件名指向这个 inode
  • 文件数据 block 的位置

可以用 stat 命令,查看某个文件的 inode 信息:
stat 233.txt

总之,除了文件名以外的所有文件信息,都存在 inode 之中。至于为什么没有文件名,下文会有详细解释。

三、inode 的大小

inode 也会消耗硬盘空间,所以硬盘格式化的时候,操作系统自动将硬盘分成两个区域。一个是数据区,存放文件数据;另一个是 inode 区(inode table),存放 inode 所包含的信息。

每个 inode 节点的大小,一般是 128 字节或 256 字节。inode 节点的总数,在格式化时就给定,一般是每 1KB 或每 2KB 就设置一个 inode。假定在一块 1GB 的硬盘中,每个 inode 节点的大小为 128 字节,每 1KB 就设置一个 inode,那么 inode table 的大小就会达到 128MB,占整块硬盘的12.8%。

查看每个硬盘分区的 inode 总数和已经使用的数量,可以使用 df 命令。

df -i

查看每个 inode 节点的大小,可以用如下命令:

sudo dumpe2fs -h /dev/hda | grep "Inode size"

由于每个文件都必须有一个 inode,因此有可能发生 inode 已经用光,但是硬盘还未存满的情况。这时,就无法在硬盘上创建新文件。

四、inode 号码

每个 inode 都有一个号码,操作系统用 inode 号码来识别不同的文件。

这里值得重复一遍,Unix/Linux 系统内部不使用文件名,而使用 inode 号码来识别文件。对于系统来说,文件名只是 inode 号码便于识别的别称或者绰号。

表面上,用户通过文件名,打开文件。实际上,系统内部这个过程分成三步:首先,系统找到这个文件名对应的 inode 号码;其次,通过 inode 号码,获取 inode 信息;最后,根据 inode 信息,找到文件数据所在的 block,读出数据。

使用 ls -i 命令,可以看到文件名对应的 inode 号码:

ls -i 233.txt

五、目录文件

Unix/Linux 系统中,目录(directory)也是一种文件。打开目录,实际上就是打开目录文件。

目录文件的结构非常简单,就是一系列目录项(dirent)的列表。每个目录项,由两部分组成:所包含文件的文件名,以及该文件名对应的 inode 号码。

ls 命令只列出目录文件中的所有文件名:

ls /etc

ls -i 命令列出整个目录文件,即文件名和 inode 号码:

ls -i /etc

如果要查看文件的详细信息,就必须根据 inode 号码,访问 inode 节点,读取信息。ls -l 命令列出文件的详细信息。

ls -l /etc

理解了上面这些知识,就能理解目录的权限。目录文件的读权限(r)和写权限(w),都是针对目录文件本身。由于目录文件内只有文件名和 inode 号码,所以如果只有读权限,只能获取文件名,无法获取其他信息,因为其他信息都储存在 inode 节点中,而读取 inode 节点内的信息需要目录文件的执行权限(x)。

六、硬链接

一般情况下,文件名和 inode 号码是”一一对应”关系,每个 inode 号码对应一个文件名。但是,Unix/Linux 系统允许,多个文件名指向同一个 inode 号码。

这意味着,可以用不同的文件名访问同样的内容;对文件内容进行修改,会影响到所有文件名;但是,删除一个文件名,不影响另一个文件名的访问。这种情况就被称为”硬链接”(hard link)。

ln 命令可以创建硬链接:

ln 源文件 目标文件

运行上面这条命令以后,源文件与目标文件的 inode 号码相同,都指向同一个 inode。inode 信息中有一项叫做”链接数”,记录指向该 inode 的文件名总数,这时就会增加1。

反过来,删除一个文件名,就会使得 inode 节点中的”链接数”减 1。当这个值减到 0,表明没有文件名指向这个 inode,系统就会回收这个 inode 号码,以及其所对应 block 区域。

这里顺便说一下目录文件的”链接数”。创建目录时,默认会生成两个目录项:”.”和”..”。前者的 inode 号码就是当前目录的 inode 号码,等同于当前目录的”硬链接”;后者的 inode 号码就是当前目录的父目录的 inode 号码,等同于父目录的”硬链接”。所以,任何一个目录的”硬链接”总数,总是等于 2 加上它的子目录总数(含隐藏目录)。

七、软链接

除了硬链接以外,还有一种特殊情况。

文件 A 和文件 B 的 inode 号码虽然不一样,但是文件 A 的内容是文件 B 的路径。读取文件 A 时,系统会自动将访问者导向文件 B。因此,无论打开哪一个文件,最终读取的都是文件 B。这时,文件 A 就称为文件 B 的”软链接”(soft link)或者”符号链接(symbolic link)。

这意味着,文件 A 依赖于文件 B 而存在,如果删除了文件 B,打开文件 A 就会报错:”No such file or directory”。这是软链接与硬链接最大的不同:文件 A 指向文件 B 的文件名,而不是文件 B 的 inode 号码,文件 B 的 inode”链接数”不会因此发生变化。

ln -s 命令可以创建软链接

ln -s 源文文件或目录 目标文件或目录

八、inode 的特殊作用

由于 inode 号码与文件名分离,这种机制导致了一些 Unix/Linux 系统特有的现象。

  • 有时,文件名包含特殊字符,无法正常删除。这时,直接删除 inode 节点,就能起到删除文件的作用。
  • 移动文件或重命名文件,只是改变文件名,不影响 inode 号码。
  • 打开一个文件以后,系统就以 inode 号码来识别这个文件,不再考虑文件名。因此,通常来说,系统无法从 inode 号码得知文件名。

第 3 点使得软件更新变得简单,可以在不关闭软件的情况下进行更新,不需要重启。因为系统通过 inode 号码,识别运行中的文件,不通过文件名。更新的时候,新版文件以同样的文件名,生成一个新的 inode,不会影响到运行中的文件。等到下一次运行这个软件的时候,文件名就自动指向新版文件,旧版文件的 inode 则被回收。