分词与拼音转化

#-*-coding:utf-8-*-
from xpinyin import Pinyin
import glob
import codecs
import pkuseg
symbols = u''' !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~£§°±·×÷ˇˉ—‖‘’“”‰′※、。〃々〆〇〈〉《》「」『』【】〒〓〔〕〖〗!,?¢£¥'''
if __name__ == "__main__":
    trn_paths = glob.glob(u'''./test_std_bak/*.trn.trans''')
    count = 0
    seg = pkuseg.pkuseg()
    p = Pinyin()
    for trn_file in trn_paths:
        print(trn_file)
        count = count + 1
        coe = ""
        pinyind = ""
        with codecs.open(trn_file,'r','utf-8')  as fpr:      
            text_ = fpr.read()
            text = seg.cut(text_)
            for i in text:
                if i not in symbols:
                    coe = coe + " " + i
                    pinyind = pinyind + " " + p.get_pinyin(i,tone_marks="numbers",splitter=" ")
            coe = coe.strip(" ")
            pinyind = pinyind.strip(" ")
        with codecs.open(trn_file,'w','utf-8')  as fpw:     
            fpw.write(coe)
            fpw.write("\n")
            fpw.write(pinyind)
        print(u"已处理第%d个文件:%s" %(count,trn_file))

u’[takcb,]#stcmd数据集中的特殊字符

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值