自然语言处理
涛涛不绝蕾蕾于冬
https://github.com/xlniu
展开
-
基于HMM的拼音转汉字程序
本文将讲述怎样利用HMM进行拼音转汉字。准备阶段 python 2.7; 安装 python 工具包 ChineseTone,直接使用 pip install 安装; 运行程序的过程中,可能还会用到其他工具包,自行使用 pip install 安装即可; 下载拼音转汉字程序,https://github.com/letiantian/Pinyin2Hanzi;原理讲述 HMM涉及...原创 2018-04-02 15:44:36 · 4437 阅读 · 0 评论 -
Quality-Estimation1 (翻译质量评价-复现 WMT2018 阿里论文结果)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...原创 2019-03-12 16:28:50 · 1721 阅读 · 0 评论 -
Quality-Estimation2 (翻译质量评价-在BERT模型后面加上Bi-LSTM进行fine-tuning)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...原创 2019-03-12 16:18:46 · 1985 阅读 · 0 评论 -
Quality-Estimation0 (翻译质量评价-使用 BERT 特征训练 QE 模型)
简介翻译质量评价(Quality Estimation,QE)是机器翻译领域中的一个子任务,大致可分为 Sentence-level QE,Word-level QE,Phrase-level QE,详情可参考WMT(workshop machine translation)比赛官网 http://www.statmt.org/wmt17/quality-estimation-task.html...原创 2019-02-01 10:38:44 · 2095 阅读 · 8 评论 -
端到端任务中目标词表过大问题
前言在端到端任务(如机器翻译、对话、摘要抽取等)中存在一个有待解决但没有引起研究者足够重视的问题:目标词表过大问题。这个问题不仅影响 training 和 decoding 的速度,也会影响生成句子的质量(引入不必要的噪声)。下面介绍两篇解决这个问题的论文,第一篇着眼于对话任务,第二篇着眼于机器翻译任务。Neural Response Generation with Dynamic Vocab...原创 2018-12-12 18:39:40 · 522 阅读 · 0 评论 -
结巴分词和哈工大ltp词性标注结合使用
根据自己的语料,发现使用结巴分词的粒度更适合,并且在使用外部词典进行分词时,哈工大的分词模块对于外部词典中的词会有不识别的现象。 对于词性标注而言,经过调研,各种分词工具都专注于做分词,词性标注做的都不是太好,结合语料比较之后决定使用哈工大ltp的词性标注模块。代码如下:import jiebafrom pyltp import Postaggerimport osMODEL...原创 2018-04-04 11:29:08 · 3003 阅读 · 2 评论 -
ROUGE评价指标
1、Ubuntu安装ROUGE教程2、在Ubuntu下配置pyrouge3、学习笔记———《自动文档摘要评价方法---Edmundson和ROUGE》4、pyrouge0.1.3官方教程5、pyrouge在Ubuntu下的使用转载 2018-03-28 21:18:03 · 5335 阅读 · 0 评论 -
tensorflow中crf模块函数解析
这篇博客主要想解释一下tensorflow中crf模块的几个函数的输入输出是什么意思。作为预备知识,建议英文好的同学先看下这篇博客,这篇博客有8个小节,前5个小节比较通俗易懂,后3个小节感觉不太理解。当然我也会先讲一下bilstm+crf的基本原理,主要讲一下模型的损失函数。一、预备知识 ...原创 2019-06-28 17:47:02 · 4945 阅读 · 0 评论