语言模型
hit56笔记
持续学习NLP
展开
-
对当前网上公开的聊天对话机器人语料整理
https://github.com/yayuanzi8/chinese_chatbot_corpushttps://download.csdn.net/download/corpse2010/12660141https://download.csdn.net/download/dcclovewyl/10812661原创 2020-11-12 16:02:39 · 1399 阅读 · 0 评论 -
语言模型在大词汇表上 softmax 计算的改进方法
参考文献:https://nndl.github.io/old-chap/chap-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%8E%E8%AF%8D%E5%B5%8C%E5%85%A5.pdf原创 2020-06-18 21:53:42 · 342 阅读 · 0 评论 -
kenlm安装指南
注意以下make install时需要root权限1.去boost官网下载最新版的boost:http://www.boost.org/./bootstrap.sh./b2 install2.wget http://tukaani.org/xz/xz-5.2.2.tar.gztar xzvf xz-5.2.2.tar.gzcd xz-5.2.2./configure原创 2017-01-23 11:37:03 · 9641 阅读 · 3 评论 -
语料预处理的坑
我今天处理语料发现很多.开头的句子,觉得莫名其妙,才知道原来是因为这个符号导致的:-.-。看了下,使用这个符号的人还真不少。一查,没想到这个原来叫:兔斯基表情原创 2017-03-21 11:30:06 · 2662 阅读 · 0 评论 -
arpa格式的ngram模型概率如何计算
常见的arpa格式,3元文法如下:prob word1 word2 word3 backoff那么实现代码的时候,如下:float getBackoff(words, start, end){if(words in arpa){return 从arpa中取出对应的words的backoff值;}return 0;}float getProb(wor原创 2016-11-27 21:53:09 · 3467 阅读 · 1 评论