基于字的二元模型拼音输入

lucky_cutie

于 2021-03-16 20:11:55 发布

阅读量1k

点赞数 2

分类专栏： AI 文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_45716768/article/details/114898156

版权

AI 专栏收录该内容

1 篇文章

订阅专栏

基于字的二元模型拼音输入

基本要求

使用基于字的二元模型，实现一个拼音到汉字的转换程序

介绍算法的基本思路和实现过程

基本思路

问题为隐马尔科夫链中的解码问题：给定模型 λ=(A,B,π) 和观测序列 O ，计算最有可能产生这个观测序列的隐含序列 X , 即使得概率 P(X|O,λ) 最大的隐含序列 X 。
观测序列 O 在不考虑多音字的情况下认为确定
训练语料得到确定模型
- 统计字频得到初始状态概率
- 统计二元字频得到转移频率
使用维特比算法计算概率 P(X|O,λ) 最大的隐含序列 X

实现过程

训练语料
- 以行为单位读取计算，先将非中文字符转换为空格，再以空格为界将文段分成短句，每当字出现一次则计数，在同一短句中先后出现的两字则把后面出现的字计入属于前字的列表中，将计数与列表存在文件中
- 由字频计算出每个字出现的概率，存在文件中
- 由列表计算出对于某字 $W$ ，在其后出现的每个字的的概率（转移概率），存在文件中（考虑平滑）
维特比算法预测
- 以 “qing hua da xue” 为例
  - 首先依据拼音汉字对照表列出所有读音为 “qing” 的字
  - 而后列出所有读音为 “hua” 的字，对每一个读音为 “hua” 的字，计算对于每个 “qing”，"qing hua"一中文词出现的概率（为此 “qing” 字的概率乘上 “qing hua” 的转移概率），选取概率最大的一组 “qing hua” 记为包含此 “hua” 字的序列。
  - 后续同理，每完成一步计算的结果是累积的，即第一步计算出 “qing” ，而后是 “qing hua”、 “qing hua da”、 “qing hua da xue”，最后选取"qing hua da xue"中概率最大的作为预测结果
- 平滑处理
  - 为了避免某序列没有被训练到，但实则合理的情况，在预测过程中使用平滑处理，如果查找转移概率的过程中未查到匹配结果，例如查找“椛”字前方的“謦”的概率失败，则将概率设置为 $\frac 1 {freq(謦) + n}$ （n为所有字的个数的粗略值，由于在训练后也对转移概率做了平滑操作（计算时分子加1分母加n），所以不会因此出现概率相加大于一的情况）