语音信号处理
yzd_real
这个作者很懒,什么都没留下…
展开
-
GBK编码中汉字的提取
在训练语音模型、整理用于文本搜索的语料库时,通常要需要从GBK编码中提取汉字。GBK编码是怎样的呢?在一堆ASCII码、图形字符、汉字中怎样提取汉字呢?我是这么做的。 GB2312、GBK、ASCII编码如下所示:可见,难点在于[64 ~ 127]这个区间的判定。因为,64以下肯定不属于GBK编码,直接可以拿掉(或者转化为其它汉字,如1-->幺);127以上肯定输入GBK编码,无原创 2007-11-01 10:51:00 · 2868 阅读 · 0 评论 -
有关unicode, UTF-8, ANSI等编码转换
1. ANSI 美国国家标准码,操作系统默认的编码格式;但是不同国家有不同的文字,由此各个国家制定了自己的国标码,如GB2312等。注意,各个国家制定时还是按照ANSI准则进行的:即不属于ASCII(0~127)的一个文字(符号)占两个字节,属于ASCII的占一个字节。这样一来,一个大字符串用不同国标码,解释的结果就不同(但一点就是,属于ASCII部分的字符解释出来是相同的)。原创 2008-04-24 15:41:00 · 2557 阅读 · 1 评论