谈基于机器智能(知识)的机器翻译
摘要
目前机器翻译路线有基于规则的传统技术,基于统计的目前技术。我的思路是基于机器智能的。我们人类翻译一篇外文时,是否需要相关方面的知识呢?答案是 “肯定的,需要的”。那么,同理,机器翻译时,是否需要呢?我想,也是需要的。什么是机器知识,或者叫人工智能?就是计算机拥有人类的知识,比如知道星球类可以升起,而河水可以上涨,而且知道太阳是星球,可以说太阳升起,而不是太阳上涨,其实,升起和上涨差不多意思。机器拥有了知识,就可以自动推理,解决翻译中的歧义问题。那么,构建基于机器知识的机器翻译系统,需要哪些过程呢?首先,机器需要存储自己的知识,能够理解某个领域内的知识,包括理解语法,拥有常规知识(如衣食住行等)和某些行业知识。其次,能够人机交互,交流知识,这样,机器的知识才能越来越丰富,机器从人类学到越来越多的知识。再次,翻译的过程就是理解一种语言,将其转化为内部知识,再以另一种语言表达出来。文本试图从这几方面提供解决若干思考。
l # 知识存储
1) 借助人工语言如java语言。目前主流的计算机编程语言已经能够实现某些智能,但需要人工编制程序。编程语言总结下来,
实现的执行顺序有:顺序、分支判断、循环、并行。
实现的对象特性有:继承、多态、抽象。
2) 如何表达智慧?
a)有类和对象的概念,根据类生成对象。
类之间关系:
可以继承,
可以将类抽象出概念(相当java里的抽象类或接口)。
可以包含。如人类可以含有手脚头类
维或叫向量、属性、成员,维是不相交的,如时间和长度这2个维。
维的度量或测量。如时间的测量可以有年、月、日、时分秒(定量)或一会,很快(定性)。测量含测量的数量、测量单位。
维也是对象,所以通过 包含几个维,可以生成新的维。如用电量的千瓦时就是由千瓦和时组成的维。
导出维:dest = f(src1,src2...)。由若干个维计算出来的一个维,可以为对象引用关系或值引用关系(相当c的指针和值传递)。引用关系时,当src1发生变化,dest也要跟着变化;值引用关系时,dest是脱离原来维的,不发生变化。当变量为一个时,导出维还是变量那个维;变量多于一个时,导出维为一个新的维。如 高=(身高测量值>170cm),也是属于原来的身高维。千瓦时=(千瓦*时)属于一个不同于千瓦和小时的新的维。
b)句型分为形式句型和逻辑句型,如主+谓+直接宾+间接宾语这种形式句型,其中隐含了直接宾语和间接宾语 构成的逻辑主谓关系;这种逻辑句型就是一种知识结构(映射到java语言上的类)。所以,知识的存储就是存储一种逻辑句型的结构。
注意,一句话可能含有多个知识,如“我打球等车时候,看见556路车来了”这句话,知识点有“我去打球了”,“我看见556车的时间是...(打球等车那时间点)”
c)知识的检索。如sun rises的知识检索过程:识别出主谓结构,sun的中文解释有“太阳”,rise的中文解释有“升”,那么就命中“太阳升起”这个知识(假设这个知识已经被机器存储)。
知识结构的各部分都可能要建立索引,如对主语建立索引,就是建立<key=主语,value=知识>这样的索引。
另外,可能会涉及到别名,别名不同于实例,如太阳是天体的实例,而日头是太阳的别名。
d)知识的表达。如用英语表达 run rises,用中文 太阳升起,用河北方言 日头出来
机器翻译需要有关知识:
语法知识。
语义单元:如主+谓+直接宾+间接宾语。
He bought me a pen. he bougth a pen, pen of me
He asked us to do the work. he asked us,us to do the work
常识知识
(人)吃饭、(人)穿衣、(人)睡觉、日出日落等。
l # 向人类学习(人机知识交流)
这里的学习,不是目前流行的’机器学习‘技术。机器学习一般是基于统计的语料库,发现关联的东西。这里的学习,指机器向人类学习知识,将人类已经知道的知识消化,据为己有,比如‘填鸭式教学’这样的知识教授机制。
a)人类辅助翻译
就是人类辅助机器翻译,帮助机器消除歧义。过程:
i. 人类源语言(如英语)形式(语法)识别
ii. 将理解的结构表达出来,用人类目标语言(如汉语),这时候可以不通顺的,歧义的,如对 run rises的表达为 “[太阳,日] [升,上涨,拉]"
iii. 人类歧义消除
iv. 机器记住知识(分别用人类源语言和目标语言)
b)机人学习,就是人预先传授知识给机器。如告诉机器 "太阳升起","戴帽子","穿衣服"(尽管英语中都是wear)。这样,机器翻译 sun rises时候,就会自动消除歧义,找到"太阳升起”这个知识。
l # 进行翻译
l # 机器智能的延伸思考
一旦机器可以将知识存储、检索、关联,并不断向人类学习新知识,那么,就意味着真正的人工智能。如果有足够的知识,甚至可以自己做题,自己编程呢!
声明:转载就注明出处。邢立军,邮件15367481@qq.com。