本章学习了语言模型,为了学习语言模型参数,标注了微型语料库,在该语料库上使用极大似然估计法估计了二元语法模型的参数,捕捉了词语二元接续的统计知识,此外尝试了平滑策略缓解数据稀疏的问题,为了搜索最大概率的分词序列,将中文分词转化为有向无环图上的最短路径问题,为了高效求解词网上的最短路,学习并实现了维特比算法。此外还有模型调整的手段。但 OOV 召回仍然是 n 元语法模型的短板。
【自然语言处理入门笔记】—— 二元语法与中文分词
最新推荐文章于 2024-04-22 14:44:06 发布
本章学习了语言模型,为了学习语言模型参数,标注了微型语料库,在该语料库上使用极大似然估计法估计了二元语法模型的参数,捕捉了词语二元接续的统计知识,此外尝试了平滑策略缓解数据稀疏的问题,为了搜索最大概率的分词序列,将中文分词转化为有向无环图上的最短路径问题,为了高效求解词网上的最短路,学习并实现了维特比算法。此外还有模型调整的手段。但 OOV 召回仍然是 n 元语法模型的短板。