●文件是作为一个单元看待的相关数据的外部集合。文件的主要目的是存储数据。因为当计算机关机后,主存的内容将丢失,所以我们需要文件用更持久的形式存储数据。文件被存储在辅助或二级存储设备上。
●存取的方法决定了记录如何被检索:顺序的或随机的。如果需要顺序地存取文件,那么使用顺序文件结构;如果需要存取一指定的记录而无须检索出该记录前的所有记录,那么使用随机文件结构。
●顺序文件是一种在其中每个数据必须按顺序从头到尾一一个接一个地进行存取的文件。顺序文件必须周期性地更新,以反映出信息的变化。与更新程序相关联的文件有4个:新主文件、旧主文件、事务文件和错误报告文件。
●为了在文件中随机存取记录,我们需要知道记录的地址。通常有两种文件类型用于随机存取记录:索引文件和散列文件。
●索引文件由数据文件构成,该数据文件是顺序文件且是一个索引。索引本身是一个只有两个域的非常小的文件,两个域是顺序文件的键和磁盘上相应记录的地址。索引是根据数据文件的键值排序的。在散列文件中,散列函数将键映射成记录地址。
●散列可以采用多种方法。在直接方法中,键就是地址,不需要任何的算法操作。在求模法中,键被文件的大小除,得到的余数加上1就是地址。在数字析取散列法中,选择的数字是从键中被析取出来的,用作地址。
●在散列过程中,有可能会出现多个键值散列至文件中的相同地址,这样就产生了冲突。我们讨论了几种冲突解决方法:开放寻址解决法、链表解决法和桶散列法。
●目录是大多数操作系统都提供的用来组织文件的。目录的作用就像文件柜中的文件夹。但是,在大多数操作系统中的目录被表示成为一个包含 关于其他文件的信息的特殊文件类型。
●存储在存储设备中的文件是一个二进制位的序列,它可以被应用程序翻译成文本文件或二进制文件。文本文件是字符的文件。二进制文件是使用计算机内部格式存储的数据集合。