Ubuntu软件包与汉字字库

最新推荐文章于 2024-04-26 19:40:37 发布

yuanmeng001

最新推荐文章于 2024-04-26 19:40:37 发布

阅读量3.9k

点赞数

分类专栏：开源文章标签： ubuntu 旅游互联网工具工作

本文链接：https://blog.csdn.net/yuanmeng001/article/details/1321516

版权

开源专栏收录该内容

640 篇文章 11 订阅

订阅专栏

今年4月，Ubuntu奠基人Mark Shuttleworth先生在中国三亚旅游之后，给中国开源软件（OSS）推进联盟陆首群主席写信表示，他希望在中国境内寻找一个合作伙伴，共同开发全球使用的“中文Ubuntu软件包”。这是什么意思呢？Ubuntu软件包不是已经支持中文了吗？实际情况，不完全是这样的。

任何操作系统处理汉字均必须借助“汉字字库”。汉字字库不同于拼音文字，只涉及几十个字母构成的“小字库”。汉字字库是“大字库”，字库体积非常庞大，汉字结构极为复杂，而且汉字有不同的“字体”。但是，汉字字库又是有标准的。GB18030规范就是国家关于汉字字库的强制性执行标准。

Ubuntu软件包，在汉字处理上，离不开一个“开源字库”，否则，Ubuntu软件包处理汉字就是有缺憾的。汉字字库一般涉及一万多个汉字的“个别处理”。在汉字个别处理过程中，使用“点阵字库”模式是远远不能解决问题的。当今计算机显示设备的精读极高，16点阵、24点阵，甚至64点阵的汉字字库都是不适用的。汉字的“个别处理”技术，需要一些复杂的数学工具，如：曲线拟合技术。一个汉字，偏旁部首，左右上下，都得处理妥当，确实不易。另外，汉字的书写风格又有许多不同。一个笔法家写出了数千个（比如恰好一万个）汉字以后，那么，第一万零一个汉字如何写法，能不能用计算机预测出来？回答是：能。这些问题，在我国，已经有人解决了。但是，这些技术却不是“开源”（Open Source）的软件技术。

“开源字库”，可以自由使用的字库，可不是“小事一桩”。使用经由互联网进行自由联络的方式，使用自由软件的开发方式，开发所谓“自由字库”，在目前是不现实的。一个汉字，内部包含有太多的“字形”信息，不易统一格式化处理，需要单独考虑，细心研究，慎重处理才行。总之，汉字字库的开发工作量十分巨大，不是借助“开源”开发模式所能解决的。对于“公共汉字字库”，必须由国家出面组织社会力量才能彻底解决问题。

理论上讲，每个汉字都对应着一批曲线拟合函数的软件实现。每个汉字的计算机实现，其中均含有微小而不能完全忽略的“知识产权”。严格讲来，一篇文章所包含的全部汉字的“知识产权”是可计算的。谁拥有汉字计算机实现软件的“知识产权”，谁一定是亿万富翁。我们坐等“开源”汉字字库的出现，那要花费许多许多年才能碰巧实现。

Ubuntu奠基人Mark先生关于联合开发“中文Ubuntu软件包”的想法，不是没有根据的。中文是我国汉民族使用的文字，理应是我们自己的事情，不需要别人的恩赐。政府出面，解决公共字库的问题，责无旁贷。希望政府主管部门及早注意如何解决公共汉字字库的实际问题。