《从计算到智能》课程论文丨试论机器智能超越人类智能的不可能性——以NPL领域的两个任务为例

摘要

近年来,随着人工智能技术的迅速发展,“机器的智能会不会超越人类的智能”成为了一个热点话题。本文以NLP领域中的机器翻译与文本抑郁识别任务为例,通过对其发展历史、研究现状、面临的问题与挑战进行分析,进而推广至整个人工智能领域,得出了机器智能不会超越人类智能的结论。

关键词

人工智能 自然语言处理 机器翻译 文本抑郁识别

导言

自然语言处理(NLP)是人工智能领域一个重要的研究分支,采用计算技术来学习、理解和产生人类语言内容。1机器翻译与文本抑郁识别都属于自然语言处理领域的任务。以这两个任务为例,讨论机器智能超越人类智能的不可能性,具有一定的代表性和普适性。

一、机器翻译简述

(一)机器翻译发展历史

机器翻译 (Machine Translation, MT) 任务旨在将文本从一种源语言 (Source Language) 翻译到另一种目标语言 (Target Language)。其于上世纪五十年代被提出,至今已经有七十年的发展历史了。如图1.1所示,机器翻译的发展大致可以分为四个阶段,分别是基于规则的机器翻译(RBMT)、基于实例的机器翻译(EBMT)、统计机器翻译(SMT)以及神经网络机器翻译(NMT)。
在这里插入图片描述

1.基于规则的机器翻译(RBMT)

机器翻译的研究最早开始于上个世纪五十年代,这也是人类对NLP领域探索的开端。2由于冷战的驱动,以美国为首的西方世界急迫地想要了解俄语世界,因此争相开始研究以俄语到英语为主的机器翻译。然而,在经过十几年的研究之后,1966年,美国 ALPAC 委员会在其著名的报告中称机器翻译昂贵、不准确且没有前途。3

基于规则的机器翻译(RBMT)于上世纪七十年代被提出,其原理主要是根据一份双语词典,依据研究人员设定好的规则,将待翻译句子进行翻译。然而,由于自然语言表达的多样性,这些基于规则的机器翻译系统的设计都十分复杂,研究人员不得不手动添加许多规则,以适应更广泛的语料。

2.基于实例的机器翻译(EBMT)

基于实例的机器翻译起源于1984年,由日本学者提出,主要思想是基于实例类比,对于短语片段进行翻译。这种机制的好处在于只需要使用现有的翻译语料,不需要花费大量的时间设计规则以及考虑规则外的特殊情况。

3.统计机器翻译(SMT)

统计机器翻译于上世纪九十年代被提出,其核心思路是从数据中学习一个概率模型。这个概率模型可以分为两部分,分别为翻译模型和语言模型。翻译模型的含义可以概括为从平行语料中学习单词和短语如何正确被翻译,语言模型的含义可以概括为从单语语料中学习如何生成流畅的句子。也就是说,统计机器翻译实际上就是要根据输入的源语言语句,利用翻译模型和语言模型生成概率最大的目标语言句子。

4.神经网络机器翻译(NMT)

神经网络机器翻译于2014年被提出,其主要思想是使用神经网络进行端到端的文本翻译。常用的神经网络架构为序列到序列(seq2seq)模型,其中包含两个RNN。与SMT相比,NMT可以更好地利用上下文、短语的相似性。目前主流翻译引擎,如谷歌翻译、百度翻译、有道翻译等均已采用NMT,且取得较好效果。

(二)问题与思考

纵观机器翻译七十年来的发展历史,我们不难发现算法模型发展的一个趋势,那就是抽象化。对于早期的RBMT与EBMT,研究人员提出的思路更接近于人工翻译的思路,即在词语层次上依据双语词典进行翻译,在句子层次上根据已有的语法规则,利用实例类比等方法进行语句的组织。而当机器翻译发展到SMT阶段,研究人员抛弃了人工翻译的思路,将机器翻译抽象成为了一种基于数据的统计任务,利用概率模型来解释翻译的结果。至于当下的NMT,则是利用更加抽象的神经网络,将翻译转换为了一种序列的计算与生成。然而,尽管神经网络实际上是在模拟人类的大脑,但由多层神经网络构成的模型对人类而言就是一个“黑匣子”。从源语言的输入到目标语言的输出,整个过程模型究竟做了怎样的运算、每次运算结果的具体含义又是什么,我们不得而知。这种抽象已经完全将语言的翻译转换为了数值的计算,人类难以理解和解释。

机器翻译未来会如何发展,我们不得而知。但根据过去七十年的经验,它一定会向一个更加抽象化、人类更加难以理解的方向演化。但是我认为,机器翻译的效果终究难以超越人工翻译的水平。毕竟,自然语言的发展演化是由人类主导的,语言本身也是充满感性与人文色彩的,而机器翻译的本质只能是数字的计算。用数字的计算处理感性的语言,一定会丢失掉其中的一部分信息。因此,“In a comprehensive point of view, for the professional translator, translation is a kind of arts; while for the computers, it is still a kind of technologies.”4

二、文本抑郁识别简述

(一)背景及简介

近年来,由于升学、就业、环境、教育、感情、价值取向等多方面原因,我国大学生出现心理异常的情况显著增加,大多数学生处于心理亚健康状态,有的甚至产生了心理障碍或精神疾病,更有甚者错误地选择了轻生,给家人、学校和社会都造成了无法挽回的负面影响。大多数学生习惯在以微博为代表的社交平台发布动态,这些动态以文本为主,通常具有明显的情感倾向,在一定程度上可以反映学生的心理状态。

状态监测和情感识别是NLP领域的一个研究方向,近年来,利用机器学习技术,通过文本对目标主体的心理健康状况进行识别成为了一个研究热点。567此外,许多研究人员尝试构建多模态融合的抑郁识别模型,使用视频、音频和文本综合分析目标主体的心理健康状况。8910

(二)大致流程

中文文本的抑郁识别,数据来源一般是目标主体在微博等社交媒体发布的动态。对于这些文本信息,首先要进行数据预处理,主要是分词和去停用词。接着使用词袋模型、word2vec等将词语表示成计算机可以理解的形式。最后,将数据集分为训练集和测试集,将机器学习模型在训练集上进行学习,形成训练集模型,并将其在测试集上进行验证。抑郁识别本质上属于有监督学习中的二分类任务,目前比较常见的分类模型有朴素贝叶斯、支持向量机、最大熵、随机森林、逻辑回归等。

(三)问题与思考

中文文本的抑郁识别存在许多问题,接下来对两个最主要的问题进行讨论

1.数据集难以获取

对于机器学习模型的训练往往需要大规模的数据集,一般来说,数据集规模越大,训练出的模型的泛化能力就越强,更难出现过拟合的现象。然而,国内尚无大规模的已标注的用于抑郁识别的数据集。此外,抑郁情况的判定本身就是一项复杂的工作,通常需要专业的心理专家完成,这更增加了构建大规模数据集的难度。

对于英文文本的抑郁识别,目前使用最为广泛的是DAIC-­WOZ数据集。此数据集是一个大型语料库的一部分,其中包括临床访谈,旨在支持诊断心理困扰状况,如焦虑、抑郁和创伤后应激障碍。该数据集使用真实的PHQ-8量表分数作为标签,包含了几百名受访者与虚拟面试官对话时的音视频特征和文本记录。PHQ-8量表是在大型临床研究中建立的一种有效的诊断和严重程度的抑郁障碍的测量方法,受访者最终分数在0~24之间,一般认为得分>10分则具有抑郁倾向。11尽管该数据集的构建十分专业,但其只有几百段对话的文本记录,训练出的机器学习模型效果并不理想。

2.识别效果较差

用机器处理自然语言,分析抑郁倾向,本质上是从语句中抽取可以表示成数字的特征,以这些特征为自变量,以已标注的抑郁倾向为因变量,在高维空间中进行拟合。这是一个机械化的过程,在这个过程中,语句的许多信息都被丢失了。比如话语中的一些隐喻、典故,甚至是一些反语,想让机器理解这些几乎是不可能完成的任务。因此,文本抑郁识别模型的效果普遍较差。

总体来看,想要训练出一个精准高效的文本抑郁识别模型,在短时间内甚至永远是不可能实现的。理论上,只有使用一个无限大的已标注的数据集,并且使用一种能够完全提取语句中所有信息的词表示方法,才能达到最理想的效果。

三、结论

本文以机器翻译与文本抑郁识别模型两个NLP领域的任务为例,通过对其发展历史、研究现状以及面临的问题进行分析,得出了在这两项任务中机器解决问题的水平难以超越人类的结论。然而,这两项任务中的问题与挑战在人工智能的各个领域是普遍存在的,也是暂时无法解决的。因此,笔者认为,除非人工智能领域发生重大革新,提出一些颠覆性的理论,否则人工智能是难以超越人类智能的。


  1. Julia Hirschberg,Christopher D. Manning. Advances in natural language processing[J]. Science,2015,349(6245). ↩︎

  2. 摆摊卖报纸.自然语言处理NLP的百年发展简史[EB/OL].OSCHINA社区,2020-8-15 ↩︎

  3. Ilya Pestov. A history of machine translation from the Cold War to deep learning[EB/OL].Freecodecamp,2018-3-12 ↩︎

  4. Ying Qin,Jie Zhang,Xiaoping Lu. The Gap between NMT and Professional Translation from the Perspective of Discourse[P]. Innovation in Artificial Intelligence,2019. ↩︎

  5. 高彦琳,战学刚,迟呈英.基于CNN-LSTM模型的情感分析研究[J].辽宁科技大学学报,2018,41(06):469-474. ↩︎

  6. 杨烨蔓. 基于情绪识别的心理分析应用的研究与实现[D].北京邮电大学,2019. ↩︎

  7. 罗广清. 基于中文文本情感分类的情感宣泄系统的研究与实现[D].华南理工大学,2015. ↩︎

  8. Shi Yin,Cong Liang,Heyan Ding,Shangfei Wang. A Multi-Modal Hierarchical Recurrent Neural Network for Depression Detection[P]. Audio/Visual Emotion Challenge and Workshop,2019. ↩︎

  9. Mariana Rodrigues Makiuchi,Tifani Warnita,Kuniaki Uto,Koichi Shinoda. Multimodal Fusion of BERT-CNN and Gated CNN Representations for Depression Detection[P]. Audio/Visual Emotion Challenge and Workshop,2019. ↩︎

  10. Aven Samareh,Yan Jin,Zhangyang Wang,Xiangyu Chang,Shuai Huang. Detect depression from communication: how computer vision, signal processing, and sentiment analysis join forces[J]. IISE Transactions on Healthcare Systems Engineering,2018,8(3). ↩︎

  11. Kroenke Kurt,Strine Tara W,Spitzer Robert L,Williams Janet B W,Berry Joyce T,Mokdad Ali H. The PHQ-8 as a measure of current depression in the general population.[J]. Journal of affective disorders,2009,114(1-3). ↩︎

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值