谈基于机器智能(知识)的机器翻译

谈基于机器智能(知识)的机器翻译

 

摘要

    目前机器翻译路线有基于规则的传统技术,基于统计的目前技术。我的思路是基于机器智能的。我们人类翻译一篇外文时,是否需要相关方面的知识呢?答案是 “肯定的,需要的”。那么,同理,机器翻译时,是否需要呢?我想,也是需要的。什么是机器知识,或者叫人工智能?就是计算机拥有人类的知识,比如知道星球类可以升起,而河水可以上涨,而且知道太阳是星球,可以说太阳升起,而不是太阳上涨,其实,升起和上涨差不多意思。机器拥有了知识,就可以自动推理,解决翻译中的歧义问题。那么,构建基于机器知识的机器翻译系统,需要哪些过程呢?首先,机器需要存储自己的知识,能够理解某个领域内的知识,包括理解语法,拥有常规知识(如衣食住行等)和某些行业知识。其次,能够人机交互,交流知识,这样,机器的知识才能越来越丰富,机器从人类学到越来越多的知识。再次,翻译的过程就是理解一种语言,将其转化为内部知识,再以另一种语言表达出来。文本试图从这几方面提供解决若干思考。

 

l  # 知识存储

   

    1) 借助人工语言如java语言。目前主流的计算机编程语言已经能够实现某些智能,但需要人工编制程序。编程语言总结下来,

    实现的执行顺序有:顺序、分支判断、循环、并行。

    实现的对象特性有:继承、多态、抽象。   

 

    2) 如何表达智慧?

   

    a)有类和对象的概念,根据类生成对象。

    类之间关系:

        可以继承,

        可以将类抽象出概念(相当java里的抽象类或接口)。

        可以包含。如人类可以含有手脚头类

 

    维或叫向量、属性、成员,维是不相交的,如时间和长度这2个维。

    维的度量或测量。如时间的测量可以有年、月、日、时分秒(定量)或一会,很快(定性)。测量含测量的数量、测量单位。 

    维也是对象,所以通过 包含几个维,可以生成新的维。如用电量的千瓦时就是由千瓦和时组成的维。 

    导出维:dest = f(src1,src2...)。由若干个维计算出来的一个维,可以为对象引用关系或值引用关系(相当c的指针和值传递)。引用关系时,当src1发生变化,dest也要跟着变化;值引用关系时,dest是脱离原来维的,不发生变化。当变量为一个时,导出维还是变量那个维;变量多于一个时,导出维为一个新的维。如 高=(身高测量值>170cm),也是属于原来的身高维。千瓦时=(千瓦*时)属于一个不同于千瓦和小时的新的维。

   

    b)句型分为形式句型和逻辑句型,如主++直接宾+间接宾语这种形式句型,其中隐含了直接宾语和间接宾语 构成的逻辑主谓关系;这种逻辑句型就是一种知识结构(映射到java语言上的类)。所以,知识的存储就是存储一种逻辑句型的结构。

    注意,一句话可能含有多个知识,如“我打球等车时候,看见556路车来了”这句话,知识点有“我去打球了”,“我看见556车的时间是...(打球等车那时间点)

 

    c)知识的检索。如sun rises的知识检索过程:识别出主谓结构,sun的中文解释有“太阳”,rise的中文解释有“升”,那么就命中“太阳升起”这个知识(假设这个知识已经被机器存储)。

    知识结构的各部分都可能要建立索引,如对主语建立索引,就是建立<key=主语,value=知识>这样的索引。

    另外,可能会涉及到别名,别名不同于实例,如太阳是天体的实例,而日头是太阳的别名。

 

    d)知识的表达。如用英语表达 run rises,用中文 太阳升起,用河北方言 日头出来

 

    机器翻译需要有关知识:

    语法知识。

    语义单元:如主++直接宾+间接宾语。

     He bought me a pen.  he bougth a pen, pen of me

     He asked us to do the work.    he asked us,us to do the work

    常识知识

      (人)吃饭、(人)穿衣、(人)睡觉、日出日落等。

 

l  # 向人类学习(人机知识交流)

        这里的学习,不是目前流行的’机器学习‘技术。机器学习一般是基于统计的语料库,发现关联的东西。这里的学习,指机器向人类学习知识,将人类已经知道的知识消化,据为己有,比如‘填鸭式教学’这样的知识教授机制。

 

        a)人类辅助翻译

        就是人类辅助机器翻译,帮助机器消除歧义。过程:

        i. 人类源语言(如英语)形式(语法)识别

        ii. 将理解的结构表达出来,用人类目标语言(如汉语),这时候可以不通顺的,歧义的,如对 run rises的表达为 “[太阳,] [升,上涨,拉]"

        iii. 人类歧义消除

        iv. 机器记住知识(分别用人类源语言和目标语言)

 

        b)机人学习,就是人预先传授知识给机器。如告诉机器 "太阳升起""戴帽子""穿衣服"(尽管英语中都是wear)。这样,机器翻译 sun rises时候,就会自动消除歧义,找到"太阳升起”这个知识。

       

l  # 进行翻译  

 

l  # 机器智能的延伸思考

        一旦机器可以将知识存储、检索、关联,并不断向人类学习新知识,那么,就意味着真正的人工智能。如果有足够的知识,甚至可以自己做题,自己编程呢!

       

        声明:转载就注明出处。邢立军,邮件15367481@qq.com

       

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值