人机交互语言不通?NLU数据打造真正善解人意的AI

什么是自然语言?

自然语言就是大家平时在生活中常用的表达方式。举个例子,“我近视了”,这句话就是自然语言,而非自然语言的表达可能为“平行光线进入我眼睛的屈光系统后,聚焦在了视网膜前”。

自然语言理解(NLU)素有“人工智能皇冠上的明珠”盛誉,其目标是使得机器能够像人一样进行阅读和理解。

几乎所有跟文字语言和语音相关的应用都会用到NLU,以下是几个常见的NLU应用场景:

· 机器翻译(MT)

用过有道词典或百度翻译的用户都知道,它们将一段文字的语言翻译成另外一种语言的容易度和精准度相当惊人。MT就是将一种语言中的文本自动转换成另一种语言,同时保持原意不变的过程。

由于神经网络的发展、海量数据的可用性,MT得以逐渐实现高精准率。而诸如有道、谷歌、搜狗等翻译工具正在帮助许多人和企业打破语言障碍并取得成功。

机器翻译是NLU常见的应用场景

· 语音助手

谷歌助手、苹果si、Siri、亚马逊Alexa、小米小爱……这些都是常见的语音助手。语音助手是一种软件,它使用语音识别、自然语言理解和自然语言处理来理解用户的口头命令并执行相应的操作。

从设置闹钟到找一家餐厅,语音助手可以做任何事情。语音助手现已成为AI产品、特别是智能手机提升用户体验的标配。

· 搜索自动更正和联想

每当你在谷歌搜索框中输入想要搜索的内容,在输入2-3个字母后,它会显示可能的搜索词。或者,当你搜索一些有错别字的内容,它会在做出更正提示后找到适合的相关结果。

这是也是NLU的一个典型应用,搜索自动完成和自动更正有助于用户更有效地找到准确的结果。现在,Facebook和Quora等网站上也开始使用这个功能。

谷歌浏览器搜索自动更正和联想功能正是借助了NLU

· 语法检查程序

这是NLU最广泛的应用之一。像Grammarly这样的语法检查工具正是借助了NLU才可以帮助人们写出更好的内容。

这些工具可以纠正语法、拼写、建议更好的同义词,并帮助以更好的清晰度和参与度交付内容。

机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。

因此,自然语言的理解需要通过表征学习的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取从文本信息中找到有用的信息,摒弃无用的噪音。

但实体提取的过程仅仅是在理解字面意思,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,需要进行深入的情感分析和意图识别。

语义分析技术能够使机器深入了解文字背后的含义

然而,若想实现这一目标,NLU还面临很多难点。

首先,语言的多样性和歧义性就给NLU带来了不小的挑战。自然语言的组合方式非常灵活,不同的组合能够表达出多种不同含义。例如,“羊在山上吃小草”、“小羊在山上吃草”、“羊在小山上吃草”。

其次,语言严重依赖上下文的语境。上下文的概念包括很多,如对话的上下文、设备的上下文、应用的上下文、用户画像等。

最后,语言的鲁棒性也是NLU需要攻克的难题。自然语言在输入的过程中,尤其是通过语音识别获得的文本,或多或少会存在增减字、错字、噪音等问题。

为了克服上述问题,企业和科研机构在改进算法的同时,也将注意力转向AI训练数据,开发了不少开源NLU训练数据集,如AWS爬虫数据、康奈尔电影对话语料库、哈佛图书馆等。

提升数据的数量和质量是提升NLU性能的重要途经

数据是起点,是非常有用的资产。在数据量大、速度快的时代,使用数据来训练人工智能十分便捷。

数据堂作为全球领先的人工智能数据服务提供商,依托自身的数据资源、技术优势以及丰富的数据处理经验,开发了可供深度学习的NLU文本训练数据集。

近年来,自然语言理解处于快速发展阶段,移动互联网和世界经济社会一体化的潮流对NLU产生了迫切需求,为自然语言处理研究发展提供了强大的市场动力。

但相比于性能趋于饱和的计算机视觉和语音识别技术,自然语言处理因技术难度太大、应用场景太复杂,研究成果还未达到足够的高度。

若想使AI真正做到善解人意,还需加强语料库、知识库等数据资源的建设,优化词语切分、句法分析等基础技术,以及信息检索、机器翻译等应用技术。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值