Ubuntu软件包与汉字字库

 

今年4月,Ubuntu奠基人Mark Shuttleworth先生在中国三亚旅游之后,给中国开源软件(OSS)推进联盟陆首群主席写信表示,他希望在中国境内寻找一个合作伙伴,共同开发全球使用的“中文Ubuntu软件包”。这是什么意思呢?Ubuntu软件包不是已经支持中文了吗?实际情况,不完全是这样的。

任何操作系统处理汉字均必须借助“汉字字库”。汉字字库不同于拼音文字,只涉及几十个字母构成的“小字库”。汉字字库是“大字库”,字库体积非常庞大,汉字结构极为复杂,而且汉字有不同的“字体”。但是,汉字字库又是有标准的。GB18030规范就是国家关于汉字字库的强制性执行标准。

Ubuntu软件包,在汉字处理上,离不开一个“开源字库”,否则,Ubuntu软件包处理汉字就是有缺憾的。汉字字库一般涉及一万多个汉字的“个别处理”。在汉字个别处理过程中,使用“点阵字库”模式是远远不能解决问题的。当今计算机显示设备的精读极高,16点阵、24点阵,甚至64点阵的汉字字库都是不适用的。汉字的“个别处理”技术,需要一些复杂的数学工具,如:曲线拟合技术。一个汉字,偏旁部首,左右上下,都得处理妥当,确实不易。另外,汉字的书写风格又有许多不同。一个笔法家写出了数千个(比如恰好一万个)汉字以后,那么,第一万零一个汉字如何写法,能不能用计算机预测出来?回答是:能。这些问题,在我国,已经有人解决了。但是,这些技术却不是“开源”(Open Source)的软件技术。

“开源字库”,可以自由使用的字库,可不是“小事一桩”。使用经由互联网进行自由联络的方式,使用自由软件的开发方式,开发所谓“自由字库”,在目前是不现实的。一个汉字,内部包含有太多的“字形”信息,不易统一格式化处理,需要单独考虑,细心研究,慎重处理才行。总之,汉字字库的开发工作量十分巨大,不是借助“开源”开发模式所能解决的。对于“公共汉字字库”,必须由国家出面组织社会力量才能彻底解决问题。

理论上讲,每个汉字都对应着一批曲线拟合函数的软件实现。每个汉字的计算机实现,其中均含有微小而不能完全忽略的“知识产权”。严格讲来,一篇文章所包含的全部汉字的“知识产权”是可计算的。谁拥有汉字计算机实现软件的“知识产权”,谁一定是亿万富翁。我们坐等“开源”汉字字库的出现,那要花费许多许多年才能碰巧实现。

Ubuntu奠基人Mark先生关于联合开发“中文Ubuntu软件包”的想法,不是没有根据的。中文是我国汉民族使用的文字,理应是我们自己的事情,不需要别人的恩赐。政府出面,解决公共字库的问题,责无旁贷。希望政府主管部门及早注意如何解决公共汉字字库的实际问题。

 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值