本文主要记录一下这几天做的一个小Demo,它能够读取.ttf格式的字体文件,获取其中的相关数据,将得到的字体信息光栅化处理后输出到一张PNG文件中,最终输出的结果如下:
有兴趣的可以参考一下源码:
https://github.com/syddf/TTFFontRender
TTF文件解析
首先要注意ttf采用的是大端编址,即最低位的字节在最后面,而最高位的字节在最前面,如果所在的环境用的是小端编址就需要在读取时候逆转一下字节序,在C++中可以像这样读取数据:
static void InverseEudianRead(const char * source, char * target, const int per_data_size, int & offset, const int data_num = 1)
{
assert(target != NULL && source != NULL);
char * ptr = (char*)target;
for (int i = 0; i < data_num; i++)
{
for (int j = per_data_size - 1; j >= 0; j--)
{
ptr[j + i * per_data_size] = source[offset + (per_data_size - 1 - j)];
}
offset += per_data_size;
}
}
template<typename T>
void TRead(char * source, T * buffer, int & offset)
{
InverseEudianRead(source, (char*)buffer, sizeof(T), offset);
}
ttf格式的字体文件包含的数据非常多,然而如果只是想要把某个汉字提取出来,其实只会用到其中的一小部分数据,下面逐一介绍一下需要解析的内容。
这里每个Table只会说一下其中会用到的几个相关数据的意义和作用,对于其他的数据可以参考MSDN的文档:https://docs.microsoft.com/zh-cn/typography/opentype/spec/avar
OffsetTable
TTF文件中的数据分成了许多块,每一块都记录了不同类型的信息,对于每一块数据,如果想要读取它,那么肯定需要知道它相对于文件起始位置的一个偏移量,然后从相应的位置开始读取,OffsetTable就记录了这样的一些信息。OffsetTable位于TTF文件的开头位置,因此可以直接读取,它的结构如下:
ULONG m_sfntVersion;
USHORT m_numTables;
USHORT m_searchRange;
USHORT m_entrySelector;
USHORT m_rangeShift;
std::unordered_map<Tag,TableRecordEntry> m_RecordEntries;
其中的TableRecordEntry是这样一个结构:
Tag m_Tag;
ULONG m_Checksum;
ULONG m_Offset;
ULONG m_Length;
可能有一些类型名比较陌生,它们大多都是1、2、4字节的unsigned int类型,具体的类型定义可以看我的代码中的TTF_Type.h文件。
m_numTables表示整个ttf文件中一共有多少个数据块,在m_rangeShift被读取完之后,需要依次读取m_numTables个TableRecordEntry结构,TableRecordEntry记录了每个数据块的 名称、数据块的校验和、相对于文件起始的偏移量、数据块的长度,有了这些信息,在之后需要读取某个数据块时,只需要根据数据块的名称,在OffsetTable中找到相应的TableRecordEntry,然后获得偏移量,偏移到相应位置后开始读取即可。
以我所使用的等线字体为例,它的OffsetTable读取完之后的结果如下:
可以看到数据块的个数是一个不小的数字,但是并不需要将所有的数据块都读取出