泰文换行处理

泰文的是单个字符组成,但又有上下标。两个单词之间没有明显的分隔符,不象英文和中文。

一般处理的方法为字典法。

因此处理之前要点准备好字典,^_^,这是不好办!

到网上找呀找,找到这个两个的开源代码:

http://www.links.nectec.or.th/~yai/software.html

http://thaigate.nii.ac.jp/files/ttex.html

一个C++代码,,前者Swath是比较完善的代码,并且提供两种算法:.1

1MaxWordSeg 最多单词匹配

2LongWordSeg 最长单词匹配

ttex是个比较简单的项目,并且是C代码的。

嘻嘻,我就用了ttex.

Ttex的算法很简单,也是最长单词匹配

 

While(ostring)

{

If(n=findword(ostring))

       Ostring++;

Else

       Jump1Char(ostring);

       //麻烦一点的就是在字典中找不到时的处理

      

}

代码处理的结果是给个单词加上分隔符,我的要求是换行。

就把主函数封装一下,当达到一行的最大长度就退出。

 

//split thai max length. add by yrui 20050428

//which 主从机

//in 需匹配的字符串

//width 匹配的最大象素宽度

//return 最适合width的字节长度

int Split_Thai(int which,unsigned char *in,int width)

{

记得字符超过了一行还要退回来哟。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值