1. 引入
在linux系统上,file命令是用于检测文件类型的最好的工具,性能也一流。它能检测elf、pdf等各种各样的文件类型。
那么,问题来了,file命令是如何检测文件类型的呢?这个问题用中文、英文在bing和google搜索得到的都是file的用法,没有回答它的原理。
那本文简述如何查看file命令的原理的过程。
2. 如何理解file并找到源码
- 用man命令查看file的专业说明
man能查看到linux命令的细节的最专业的文档,其中也会给出很多源码级别的描述。
file tests each argument in an attempt to classify it. There are three sets of tests, performed in this order: filesystem tests, magic tests, and language tests. The first test that succeeds causes the file type to be printed.
从中可以看到,file命令用三种方法来检测文件类型:
- filesystem tests:文件系统测试
- magic tests: magic code
- language tests: 根据变成语言关键字来匹配(不准,详见下节描述)
- 用man命令找到file的源码
滚动到man file的最后输出,可以看到:
AVAILABILITY
You can obtain the original author's latest version by anonymous FTP on ftp.astron.com in the directory /pub/file/file-X.YZ.tar.gz.
用浏览器打开如下链接,就能下载到file命令的最新源码
- http://ftp.astron.com/pub/file/
3. 源码解读
- filesystem tests
(1)首先,根据man的描述,发现这个和<sys/stat.h>有关,所以通过搜索引擎G先找到stat.h的源码:
https://pubs.opengroup.org/onlinepubs/7908799/xsh/sysstat.h.html
(2)发现 <sys/stat.h> 中关于类型的描述,如下:
S_IFMT
type of file
S_IFBLK
block special
S_IFCHR
character special
S_IFIFO
FIFO special
S_IFREG
regular
S_IFDIR
directory
S_IFLNK
symbolic link
所以这个测试中,能判断出file后面的文件,属于如下几种类型:
- S_IFBLK: 区块装置(block device)
- S_IFCHR: 字符设备
- S_IFIFO: named pipes,管道
- S_IFREG: 普通文件
- S_IFDIR: 目录
- S_IFLNK: 符号链接
- magic tests
(1)magic测试的核心逻辑,位于源码的file-5.45/src/magic.h.in和file-5.45/src/magic.c中。
(2)从 magic.c中,能看到,它首先加载magic文件
/* 在做任何事情之前,尝试从用户HOME目录获取一个magic文件 */
if ((home = getenv("HOME")) != NULL)
_w32_append_path(&hmagicpath, "%s%s", home, hmagic);
/* 首先,尝试从用户应用程序数据获取一个magic文件 */
if ((home = getenv("LOCALAPPDATA")) != NULL)
_w32_append_path(&hmagicpath, "%s%s", home, hmagic);
/* 其次,尝试从用户配置文件数据获取一个magic文件 */
if ((home = getenv("USERPROFILE")) != NULL)
_w32_append_path(&hmagicpath,
"%s/Local Settings/Application Data%s", home, hmagic);
/* 第三,尝试从公共文件获取一个magic文件 */
if ((home = getenv("COMMONPROGRAMFILES")) != NULL)
_w32_append_path(&hmagicpath, "%s%s", home, hmagic);
/* 第四,尝试相对于exe位置获取magic文件 */
_w32_get_magic_relative_to(&hmagicpath, NULL);
/* 第五,尝试相对于dll位置获取magic文件 */
_w32_get_magic_relative_to(&hmagicpath, _w32_dll_instance);
/* 避免使用MAGIC常量,它可能指向MSys树中的一个文件 */
default_magic = hmagicpath;
(3)magic.h.in中定义了一些magic-code
(4)在src目录下,还有检测csv(is_csv.c),json(is_json.c)和tar(is_tar.c)等格式的逻辑
(5)比如csv文件,需要判断magic code并过滤,再解析csv,eatquote函数会处理并跳过包含双引号的字段,并检查字段数和总字段数,综合判断
- language tests
如果一个文件与magic-code的任何条目都不匹配,则检查该文件是否看起来是文本文件。
ASCII、ISO-8859-x、非ISO 8位扩展ASCII字符集(例如在Macintosh和IBM PC系统上使用的那些)、UTF-8编码的Unicode、UTF-16编码的Unicode和EBCDIC字符集可以通过构成每个集中可打印文本的不同的范围和字节序列来区分。如果文件通过这些测试中的任何一项,则将报告其字符集。
一旦file确定了文本类型文件中使用的字符集,它将尝试确定文件是用什么语言编写的。语言测试查找文件前几个块中可能出现的特定字符串(见<names.h>)。例如,关键字struct表示C程序。
这些测试不如前两组那么可靠,因此它们最后执行。
4. 总结
本文基于源码描述了file命令判断文件类型的三种方式:基于文件系统,基于magic-code(其中csv等文件根据文件结构解析来判断),基于关键词判断文本文件(比如c语言)。