机器翻译技术的含义、发展和应用

数年前,搜索引擎公司先后上线了机器翻译业务,并凭借其强大的数据挖掘和机器学习能力,不断扩充语言数量、提高翻译质量,提升整体的机器翻译水平。以百度翻译为例,目前已扩充至16种语言,186个语言方向,并支持对文本和网页的翻译,某些场景准确率已经达到实用水平。

■ 机器翻译是什么?

机器翻译是计算语言学的一个分支,也是人工智能领域的一个重要应用,其最早的相关研究可以追溯到20世纪50年代。

随着互联网的飞速发展,人们对语言翻译的需求与日俱增。根据维基百科的数据,目前互联网上存在数百种不同的语言,其中英语内容占互联网全部内容的一半左右,而以英语为母语的互联网用户只占全部互联网用户的四分之一。跨域语言屏障,获取互联网上更多的内容是持续增长的需求。

机器翻译,即通过计算机将一种语言的文本翻译成另一种语言,已成为目前解决语言屏障的重要方法之一。早在2013年,谷歌翻译每天提供翻译服务就达十亿次之多,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。

相比人工翻译,机器翻译可以大幅节约翻译时间,提高翻译效率,满足诸如资讯等时效性要求较高或者海量文本的翻译需求,极大地降低了人力成本。而更重要的是,它让跨语言交流变成每个人都可以拥有的能力:出国、工作、学习很多时候不再求助于人,语言不通不再是人们获取信息和服务的障碍。

■ 机器翻译技术的发展

近些年来,随着大数据的涌现,机器翻译取得的进展有目共睹。通过对海量数据的汇聚、分析、组合,当数据无限多时,机器翻译也许根本不需要再去了解一个句子的意思,也可以翻译得相当漂亮。

近日百度牵头与中科院自动化所、浙江大学、哈尔滨工业大学、中科院计算所、清华大学研发的《基于大数据的互联网机器翻译核心技术及产业化》项目拿到了中国电子学会科技进步奖一等奖。项目成果被院士专家鉴定为“在多策略融合翻译等技术方面取得突破,在翻译质量、翻译语种方向、响应时间三个指标上达到国际领先水平,并取得了显著的经济效益和巨大的社会效益”。

机器翻译的研究经历了基于规则的方法、基于统计的方法、基于神经网络的方法三个阶段的发展。在机器翻译研究的早期,主要 使用基于规则的方法。机器翻译系统根据语言专家编写的翻译规则进行翻译,这是一个机械式的过程。基于规则的方法受限于人工编写的规则的质量和数量,编写规 则非常费时费力,且翻译规则无法用于不同的语言对之间。同时,规则数量增多,互相冲突的规则也随之增多,难以覆盖人类语言的全部情况,这也是机器翻译系统 的瓶颈。

20世纪90年代,基于统计的机器翻译方法被提出,随后迅速成了机器翻译研究的主流方法。统计机器翻译使用双语平行语料 库(即同时包含源语言和与其互为译文的目标语言文本的语料库,作为训练数据。世人熟知的罗塞塔石碑(见下图)可以认为是古老的平行语料库,石碑上 用圣书体、世俗体、古希腊语三种文字记录了相同的内容。正是罗塞塔石碑的发现才使得语言学家们获得了破译圣书体的钥匙。

罗塞塔石碑.png

图  罗塞塔石碑

统计机器翻译模型从平行语料中挖掘出不同语言的词语间的对齐关系,基于对齐关系自动抽取翻译规则。一个经典的统计机器翻译模 型通常包含翻译模型、调序模型和语言模型三部分。翻译模型负责估算单词、短语间互相翻译的概率,调序模型对翻译后的语言片段排序进行建模,而语言模型则用 于计算生成的译文是否符合目标语言的表达习惯。统计翻译模型减少了人工参与,模型本身和训练过程具有语言无关性,大大提升了机器翻译的性能和使用范围。

近年来随着基于神经网络的方法被引入机器翻译领域,机器翻译的性能得到了大幅提高。根据谷歌机器翻译团队发布的信息,谷 歌翻译于 2016 年 9 月上线中英神经网络模型,截至 2017 年 5 月,已经支持 41对双语翻译模块,超过 50% 的翻译流量已经由神经网络模型提供。

机器翻译一个新的趋势是正在“实用化”,被应用到生活场景中。过去机器翻译像是一个“更智能的词典”,帮助人们阅读外文网页内容。现在随着语音和图像识别技术的进步,机器翻译可以更多地与生活场景结合。比如人们出国时可用百度翻译了解菜单、店名、商品信息,看美剧时可以用电脑进行字幕翻译,通过拍照直接翻译出一朵花的名字,再比如开头提到的机器人进行多语翻译采访等等。

神经网络模型同样需要使用平行语料库作为训练数据,但和统计机器翻译将模型拆解成多个部分不同,神经网络模型通常是一个 整体的序列到序列模型。以常见的循环神经网络为例,神经网络模型首先需要将源语言和目标语言的词语转化为向量表达,随后用循环神经网络对翻译过程进行建 模,如图所示。通常会先使用一个循环神经网络作为编码器,将输入序列(源语言句子的词序列)编码成为一个向量表示,然后再使用一个循环神经网络 作为解码器,从编码器得到的向量表示里解码得到输出序列(目标语言句子的词序列)。

循环神经网络.png

图 循环神经网络

神经网络模型近年来已经成为机器翻译领域研究和应用的热点,对于神经网络翻译模型有很多新的改进,例如LSTM、注意力机制、训练目标改进、无平行语料训练等,机器翻译系统的性能正如日方升,一步步接近人类水平。

■ 机器翻译的应用

目前来说,机器翻译的效果还难以达到人类翻译的水平,但是随着机器翻译性能的提升,其应用场景也越来越多样化。谷歌 2006年推出的谷歌翻译(Google Translate)已经走过十几个年头,目前已经支持上百种不同语言,提供了网页、手机客户端、程序API等多种访问方式。2017年5月的数据显示, 谷歌翻译每天为5亿人次提供翻译服务。微软、百度、搜狗、网易等国内外公司也不断优化着自己的机器翻译服务,供大众使用。各种类型的机器翻译服务虽然暂时 还无法直接用于书面翻译,但人们理解其他语言的壁垒已经大大降低,在很多场景下机器翻译都起到了很好的辅助作用。

出国旅游时,语言不通是很多人的一大痛点。各种手机App的拍图翻译使人们可以方便快捷地看懂异国他乡的路标或菜单等, 如图14.34所示。百度、网易等公司将机器翻译成果用于旅游领域,推出专门的便携式翻译机(见下图),只要对着翻译机说出中文,就能自动帮用户 翻译成其他语言,可谓是出国旅游神器。

谷歌翻译的拍图翻译.png

图 谷歌翻译的拍图翻译

百度的便携翻译机.png

图 百度的便携翻译机

伴随着机器翻译性能的提升,各大公司的目标也逐渐放到了同传领域。在2016年的乌镇互联网大会上,搜狗CEO在演讲中使用 了实时机器翻译技术,能够实时地将演讲语音转换成文字并同步翻译成英文,2018年的博鳌论坛引入了腾讯提供的机器翻译同传技术,然而实际效果并不尽如人 意。可见,目前的机器翻译模型虽然已有很大的进步,但距离替代人类,在同传领域大展拳脚还有很长的一段路要走。

机器翻译领域吸引了越来越多的关注,同时也面临着巨大的挑战。如何克服现有的缺陷(例如神经网络模型可解释性差的问 题),实现翻译性能的进一步提高仍是一个待解决的问题。现阶段机器翻译的应用仍处于简单理解其他语言、辅助翻译等方面,离大规模替代人工翻译还有不小的差 距。但随着业界的广泛关注,人才的不断涌入,机器翻译领域将持续蓬勃发展,人类世界的巴别塔也终会得以重建。

互联网翻译的终极使命就是消灭语言障碍。未来哪一种语言成为通用语言并不重要,但使用互联网翻译工具,就像驾车一样会成为人们的基本技能。我相信,未来机器翻译会做得足够自然流畅,与智能手机、智能手表这些设备融合起来,人们可以便捷地使用,如同随身携带一个翻译助理。而在一些垂直行业上,比如电影字幕的翻译、跨境电商的客服,机器翻译都将迎来用武之地。

随着科技与社会经济的快速发展,相信机器翻译技术必将逐渐改变人们的工作、生活方式,随时随地为人们解决语言障碍,让世界再平一点。

本文部分摘自《百面机器学习》,作者是诸葛越和葫芦娃,这本书目前收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的真实场景。个人认为这本书非常值得一看,强烈建议大家买一本纸质书籍放在床头每天查阅,不久的将来您一定能成为机器学习领域的大牛!

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1195

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能的发展应用 这是个信息爆炸自动控制飞速发展的时代,而在这样的时代中,人工智能也取得了 飞速的发展.成为了最前沿最热门的学科和研究方向之一。 人工智能的定义?   ?"人工智能"(Artificial Intelligence)一词最初是在1956年Dartmouth学会上提出的。人工智能是指研究、开发 用于模拟、延伸和扩展人的智能的理论、方法、技术应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人 类智能相似的方式做出反应的智能机器。目前能够用来研究人工智能的主要物质手段以 及能够实现人工智能技术的机器就是计算机,人工智能的发展历史是和计算机科学与技术发展史联系在一起的。?   人工智能理论进入21世纪,正酝酿着新的突破,人工智能的研究成果将能够创造出更 多更高级的智能"制品",并使之在越来越多的领域超越人类智能,人工智能将为发展国 民经济和改善人类生活做出更大贡献。? 人工智能的应用领域?   ?1.在管理系统中的应用?   (1)人工智能应用于企业管理的意义主要不在于提高效率,而是用计算机实现人们非 常需要做,但工业工程信息技术是靠人工却做不了或是很难做到的事情。在《谈谈人工智 能在企业管理中的应用》一文中刘玉然指出把人工智能应用于企业管理中,以数据管理和 处理为中心,围绕企业的核心业务和主导流程建立若干个主题数据库,而所有的应用系统 应该围绕主题数据库来建立和运行。换句话说,就是将企业各部门的数据进行统一集成 管理,搭建人工智能的应用平台,使之成为企业管理与决策中的关键因子。?    2。在工程领域的应用?   (1)医学专家系统是人工智能和专家系统理论和技术在医学领域的重要应用,具有极 大的科研和应用价值,它可以帮助医生解决复杂的医学问题,作为医生诊断、治疗的辅助 工具.事实上,早在1982年,美国匹兹堡大学的Miller就发表了着名的作为内科医生咨询的 Internist 2 内科计算机辅助诊断系统的研究成果,由此,掀起了医学智能系统开发与应用的高潮.目 前,医学智能系统已通过其在医学影像方面的重要作用,从而应用于内科、骨科等多个 医学领域中,并在不断发展完善中。?   (2)地质勘探、石油化工等领域是人工智能的主要作用发挥领地。1978年美国斯坦福 国际研究所就研发制成矿藏勘探和评价专家系统"PROSPECTOR",该系统用于勘探评价、区 域资源估值和钻井井位选择等,是工业领域的首个人工智能专家系统,其发现了一个钼矿 沉积,价值超过1亿美元。?   3。在技术研究中的应用?   (1)在超声无损检测(NDT)与无损评价(NDE)领域中,目前主要广泛采用专家系统方 法对超声损伤(UT)中缺陷的性质、形状和大小进行判断和归类;专家运用超声无损检测 仪器,以其高精度的运算、控制和逻辑判断力代替大量人的体力与脑力劳动,减少了任务 因素造成的无擦,提高了检测的可靠性,实现了超声检测和评价的自动化、智能化.?    (2)人工智能在电子技术领域的应用可谓由来已久。随着网络的迅速发展,网络技术的 安全是我们关心的重点,因此我们必须在传统技术的基础上进行网络安全技术的改进和 变更,大力发展数据挖掘技术、人工免疫技术等高效的AI技术,开发更高级AI通用和专用 语言,和应用环境以及开发专用机器,而与人工智能技术则为我们提供了可能性。 人工智能的发展 人工智能的发展也并不是一帆风顺的,人工智能的研究经历了以下几个阶段: 孕育阶段:古希腊的Aristotle(亚里士多德)(前384—322),给出了形式逻辑的基本规 律。英国的哲学家、自然科学家Bacon(培根)(1561- 1626),系统地给出了归纳法."知识就是力量"德国数学家、哲学家Leibnitz(布莱尼兹 )(1646- 1716)。提出了关于数理逻辑的思想,把形式逻辑符号化,从而能对人的思维进行运 算和推理。做出了能做四则运算的手摇计算机英国数学家、逻辑学家Boole(布尔)(181 5-1864)实现了布莱尼茨 的思维符号化和数学化的思想,提出了一种崭新的代数系统——布尔代数。 第一阶段: 50 年代人工智能的兴起和冷落人工智能概念首次提出后,相继出现了一批显着的成果,如 机器定理证明、跳棋程序、通用问题s 求解程序LISP表处理语言等.但由于消解法推理能力的有限,以及机器翻译等的失败,使 人工智能走入了低谷。这一阶段的特点是:重视问题求解的方法,忽视知识重要性。 第二阶段: 60 年代末到70 年代,专家系统出现,使人工智能研究出现新高潮DENDRAL 化学质谱分析系统、MYCIN 疾病诊断和治疗系统、PROSPECTIOR 探矿系统、Hearsay-II 语音理解系统等专家系统的研究和开发,将人工智

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值