量子位

追踪人工智能产品和技术新趋势,我们只专注报道AI

科大讯飞执行总裁胡郁:AI赋能,智赢未来 | 北大AI公开课笔记

主讲人:胡郁 | 科大讯飞执行总裁
整理:张康 俞晶翔
量子位 出品 | 公众号 QbitAI

4月11日周三晚,北京大学“人工智能前沿与产业趋势”第七讲,本期科大讯飞执行总裁胡郁的授课主题为“AI赋能,智赢未来”,分享了人工智能的发展历史、如何实现人工智能以及人工智能的应用落地等相关内容。

讲解内容深入浅出,量子位作为独家合作媒体,为大家带来详细课程笔记一份。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

课程导师:雷鸣,天使投资人,百度创始七剑客之一,酷我音乐创始人,北京大学信科人工智能创新中心主任,2000年获得北京大学计算机硕士学位,2005年获得斯坦福商学院MBA学位,同时也是“千人计划”特聘专家。

主讲嘉宾:胡郁,科大讯飞执行总裁、消费者事业群总裁、核心研发平台总裁。中国科学技术大学信号与信息处理专业工学博士,教授级高工;国务院特殊津贴专家。自1997年以来一直从事智能语音及人工智能核心技术研究工作,作为主要完成人参与多项国家863、自然科学基金、省部级等层面重大科研攻关项目,分别荣获国家信息产业重大技术发明奖、国家科学技术进步二等奖各两次,并多次荣获省部级科技奖励,其在国内外核心期刊和重要国际会议上发表60余篇学术论文,申请发明专利68项,成果鉴定6项。

人工智能的发展趋势

人工智能是一个历史很悠久的学科,先讲一下把人工智能的发展趋势。

内容分为五大部分:what、where、when、how和who,也就是人工智能的定义、发展、怎样实现,会怎样改变生活,以及应该学习什么样的技能融入到人工智能的热潮中来。

人工智能的定义

这是一个最基本的问题。

首先,人的智能是怎么发展的。人在地球上智能的发展经历了一个漫长的过程:人类从猿人出现在地球上至今大概是两百到三百万年,人类具有在以往所有的地球生物的基础上不断演变出来的特殊的大脑。

人工智能也是一样,人工智能之前人类已经经历过很多的时代,比如蒸汽时代,瓦特发明蒸汽机,电力时代,在这个基础上我们才看到人工智能的爆发。

再从另外一个角度比较一下人的智能和人工智能。人类出现的时间是很漫长的,如果你把地球的历史看做一天,人类的出现时间是在晚上23点59分以后。

人工智能的发展速度怎么样呢?在1946年,美国陆军研发出世界上第一台数字计算机,这台计算机的出现开辟了一个新的空间,我们称之为数字宇宙。从产生到今天也只有72年时间,期间人工智能经历了多次繁衍,并且现在都已经到了考虑人工智能会不会替代人类这样的地步。

人工智能的发展浪潮

640?wx_fmt=jpeg

人工智能到底是由哪些人来推动发展的呢?前几年有一本书,叫《独立的大教堂》,揭示了最早出现数字计算机时一些重要的奠基人和他们讨论的问题。那个时候人工智能就已经被提出来。在这本书里,详细介绍了普林斯顿大学里有一帮计算机科学家,他们如何建立了第一台民用的数字计算机。这台计算机出来以后,他们把这台计算机的所有技术全部公开,使得当时世界各地包括中国都在仿制计算机。

在这个过程中,有一些人做了突出贡献:数学家哥德尔,证明了计算的工具能够完成人类的很多工作;图灵证明了这个图灵机的设置,可以通过输入输出,怎么样执行程序,怎么样来进行数学计算;冯诺依曼提出来了冯诺依曼架构,也就是现在讲的数据指令和操作指令是分流的;现在的计算机都有CPU有GPU有硬盘,狄德罗作为计算机的祖父,把这第一台计算机给搭出来了(第一台计算机:ENIAC艾尼阿克)。

图灵和冯诺依曼去世之后,后面的历史就好像断片了。

后来在1956年的时候,Dartmouth会议上第一次提出人工智能的概念,在达茅斯会议中,有一些年轻的研究员,在讨论两个问题:在计算机里面实现智能化的控制,到底用一个什么词来表示?当时有两个词备选:一个是人工智能,另一个是控制论,后来选择了人工智能这个词。

2006年有一张合照,可以看到这里面所有人都已经是耄耋老人了,里面有西门子,香农,明斯基等,他们中间有四位图灵奖得主,一位诺贝尔奖得主。

这60年中,人工智能是怎么发展的呢?人工智能不是一次波峰波谷之后就走向实用,它是经历了两到三次的时间。


640?wx_fmt=jpeg

第一次在1950年之后,人们认为人工智能能够解决非常非常大的问题,但是实际上,大家非常失望,包括当时的神经网络,当时的神经网络是不能够解决异或问题的。很快在1980年人工智能就陷入了一个谷底。

到了1980之后,个人电脑,苹果公司和微软公司出现,人工智能在个人电脑的领域给大家带来了一种期望。这里有一个有名的小例子:1984年,乔布斯发布了第一个作品:麦金托什,并在现场讲了三分钟的语音合成技术,让机器自己说话,当时引起了全场的轰动,但是事实上在后面的几十年里都没有投入使用,这说明技术还是没有成熟。

现在人工智能那么热,而那个时候做人工智能的都很惨。科大讯飞恰恰是那个时候成立的,并且一直坚持着做了下来。中国在这波浪潮中具备了和美日欧俄这些国家竞争的力量,奠定了这些方面的技术储备,为中国在第三波浪潮奠定了基础。

为什么第二波人工智能浪潮也失败了呢?个人电脑虽然更加强大,但是因为没有网络化,收集不到数据;因为没有超级计算能力,我们不能用现在正在用的深度神经网络算法。

随着互联网的发展,2000年以后,有一个标志性事件:将深度神经网络算法用在语音识别上,取得了比其他任何算法都要好的效果。在大概2007-2010的时候,又继续用在图像识别上。在2006年以后,这样的一个算法,配合大数据,产生了意想不到的效果。

对于人工智能,很多不同人对它的印象不同。工业界和研究界的观点是:同样的一个机制和算法,经过不同的训练可以做不同的事情,但是在现在这样一个计算机领域,我们完成不了这样的事情。

对人工智能的观点分歧

640?wx_fmt=jpeg


我们把像人脑一样强有力的人工智能叫做强人工智能,也叫通用人工智能。而我们现在研发的人工智能的程序,不是为了像人类一样思考,叫做弱人工智能或者专用人工智能。人怎么思考我们到现在都没研究清楚,我们只是想让算法做的事情看起来就像人做的一样。

比如:人可以把语音转成文字;讯飞输入法,也可以做到语音转成文字。但是,人是可以理解这段话的含义的,但是机器根本不知道这段话什么意思,只是机器做出来的结果,看起来好像和人做出来的结果一样。

类似的事情,比如自动驾驶,做数学题,翻译,每一个都需要一个专用的算法,而且这个算法是人想出来的,和人脑的思考方法没有太大的关系。所以说这样的智能我们称为专用人工智能。我们科学家也还在研究通用人工智能如何实现。

640?wx_fmt=jpeg

在社会上就出现了观点的分歧。很多人说,我们要警惕人工智能会毁灭我们人类,比如,霍金,埃隆马斯克,比尔盖茨,他们说我们人类要非常担心这一点,不要去放出来潘多拉的魔盒;但是真正的做人工智能的人,我们都认为现在的人工智能没有那么强,距离通用人工智能还有一段距离,这时候担心人工智能会不会毁灭人类,有些杞人忧天。

还有一个非常重要的问题:是不是人工智能超过人类就能毁灭人类呢?智能和意识之间是什么关系呢?如果一个智能没有意识,他还会做出毁灭人类的事么?

我们一直没有仔细考虑过这个问题,对于人脑的智能和意识的关系,不管是研究哲学的,心理学的脑科学的,神经科学的,都没搞清楚人的大脑是如何产生智能和意识的。但是我们知道,在地球上,如果一个东西他的智能越高,他的自我意识就越高。人类是智能和自我意识是最强的,但是在数字宇宙里面,难道就一定和自然宇宙一样么?一个人工智能越强,自我意识就越强么?

先介绍一个人——尤瓦尔赫拉利,著有《人类简史》《未来简史》。他的《未来简史》里有一个观点:我们将来一定在数字宇宙里面产生一种东西,它有高级的智能但是不会有自我意识,我们是可以把智能和意识分开的。

比如:打扫家务,这是一件非常痛苦的事情,这是一个意识,那想不想有个东西能够干所有的家务活,但是又不尥蹶子发脾气,所以我们希望的其实是有智能,没有意识,可能会更好。

机器人和人工智能

还有一个基本性的问题:机器人和人工智能是什么样的关系?机器人是20世纪20年代产生的一个词汇,当时是机械革命的时候,机械大行其道,大家都开始做机器。但是国家863计划有一次会议,有位学者提出机器人和机器的关系,和人工智能的关系。

机器人的定义,是像人一样能够感知决策执行的人造的设备或者是程序,人工智能定义也一样,没有什么区别。

但是他们两个最大的区别是:机器人是在自然宇宙,现实世界中运作的产品,而人工智能是在数字宇宙和虚拟世界工作的产品。一个是通过虚拟世界,数字世界中实现,另外一个是在真实世界中实际操作。

人工智能的现状

第二个方面讲我们比较关心的,人工智能的现状如何,到底发展到什么阶段了。

特别是前一段时间,因为AlphaGo战胜了李世石和柯洁,很多人就发出了这样的见解说人工智能全面超越人类。但这种说法是错的。

下围棋是一种用运算智能就能解决的问题。所有的棋类,其实就是一种枚举,如果你把它所有的算法,所有的做法,所有的计算情况全部都计算清楚,那么这个棋就不用下了。

人类能记录下来的所有棋局是多少盘?16万盘。而战胜李世石的时候,人工智能生成了3000万盘,并且自己记下来,到柯洁的时候它生成了3亿盘,它把这3亿盘的中间结果以某种形式保存下来。基本上,下过的所有的可能性它都下过一遍,并从中间总结出规律,而且记得住,算得多。所以说在下棋上,人工智能战胜人类没有悬念,悬念是什么时间能够战胜人类。

我们下面看看其他人类的智能,比如说我们人类和动物都有感知智能:我们能够看到感觉到触摸到闻到,我们周围的环境。还有运动智能,虽然我们不知道篮球从空中过来的轨迹,但是人类能用手配合眼睛抓到它。机器人在这两个方面,虽然还有距离但是正在赶上,并且有一些方面正在赶超。

认知智能

640?wx_fmt=jpeg

从原始人类开始,不同地区人类发展的差异主要在是否掌握语言。语言有个好处:传递信息更方便。

另外一个是八卦,八卦对人类社会的产生是非常非常重要的。要是不能张家长李家短的来聊天议论,人类就会像猩猩一样。(笑)

还有一个非常重要的能力就是:虚拟的概念,有宗教,有公司这样虚拟的概念。

我们总结一下,认知智能,就是通过语言语义理解,到最终复杂的决策。科学家也把人类发生在智人身上的这一场重要的革命叫做认知革命。

我们可以从这张图上看出,机器天生的就在运算智能上比人和动物要先进,而感知智能和运动智能,机器和人类都有,但人类具有独有的基于语言的认知智能。

小时候有一篇课文,《乌鸦喝水》——乌鸦把小石子填到杯子里,就能喝到里面的水了。还有更聪明的,乌鸦喜欢吃核桃,然而自己又开不了核桃所以很痛苦。但是乌鸦发现,汽车能把核桃压开,然后乌鸦就知道把核桃扔到路中间让汽车去压然后去吃。但是乌鸦很快又发现如果奋不顾身去吃就会被汽车压死,然后又发现,要把核桃扔在红绿灯前面,而且要等红灯亮的时候才能去吃。

这个例子说明乌鸦很聪明,但是如此聪明的乌鸦,也无法明白人和其它生物做的这些的目的,以及人造物体里面的属性,也不知道天上月亮是一个运行的天体。因此,在认知上动物只有简单的认知能力,没有人类那么高级,计算机的AI就卡在这个认知能力上面。

人工智能如何实现

我们知道人工智能的定义,发展的阶段以及目标,但是人工智能该怎么实现呢?在第三次人工智能浪潮的时候,我们发现有几百种算法,但当前最有效的只有一个算法:深度神经网络。

深度神经网络

640?wx_fmt=jpeg

深度神经网络是目前工业界实现人工智能所用的最广泛的算法之一。在图像识别、语音识别、自然语言处理,还有很多其它方面,都发挥很大作用。

但是这种深度神经网络的运行方式,和我们大脑里面的神经网络没有一点关系。人类可以通过少量样本学习到很多知识,而深度学习要识别某一个物体,比如挖土机,就需要几十万甚至几百万挖土机不同方向的照片。

深度神经网络的这个性质运用了现代计算机的运算智能。凭借算得快存得多,给计算机看大量的照片,这个网络就能记下来。比如为了实现语音的智能,我们需要10^11个语音样本去更新模型里面10^7个参数,而且需要迭代10^9次,这需要超强的运算能力。所以现在的深度神经网络,人们正在不断深入的推广到图像,语音,自然语言理解等更多的方面,希望它能解决更多的问题。

全脑模拟

640?wx_fmt=jpeg

另外一个实现人工智能的途径是全脑模拟。例如,美国在奥巴马时期“大脑活动图谱计划”,欧盟的“人类大脑项目”,以及中国正在酝酿启动的“中国脑计划”。

有人提出设想,能否使能模拟天气和核聚变的超算,来模拟爱因斯坦的大脑861个神经元的链接和拓扑结构,通过光成像或大脑冷冻起来切片技术记录下来,同时用功能性核磁共振(FMIR)和正电子CT(PET/CT)将大脑活动时的血液和交流模拟出来。

用超级计算机模拟一个大脑的东西,这样不久可以得到一个人工智能吗?如果模拟的足够像,不就是爱因斯坦的大脑吗?这种方式,我们既得到了智能也得到了情感。

最近在这个领域有一本书,叫《连接组》,里面提出了一种假说,如果把人类脑袋里面所有神经网络复现出来,就能造出另一个你,这就像“电子永生”,抛弃肉体,将思想保存在数字宇宙中去。

但如果仅仅做到这点是无法超越人脑的,因为这种方式也会复制人脑的缺点,比如人脑的体量限制,神经元间连接的限制。于是我们提出了第三种实现人工智能的方案,智能动力学。

智能动力学

640?wx_fmt=jpeg

在我们人脑的研究中,是否需要去模仿一个全部的人脑,我们有没有可能找到人脑中间的小样本学习,迁移学习,联合学习的方法,从而制造出超越人脑的超脑,而这正是我们研究组现在的研究内容。

还有一点,人脑和大脑是不一样的。有一本书《On Intelligentce》中提及一个例子,人脑的工作,人脑分为概念层,比如猫的概念会和很多感知层的概念混合在一起,提及猫,你的脑海里面就会映射出关于猫的外形,叫声和柔软的毛,这是一种综合的映射。但是我们现在关于图像,语音,触觉的研究是分开的,并没有整合在一起,这一点说明人工智能在智能动力学方面还有很大的提升。

三大弱人工智能法宝

640?wx_fmt=jpeg

在工业界,有三大弱人工智能法宝:深度神经网络,大数据和涟漪效应

其中,涟漪效应是什么呢?首先提一个悖论:人工智能需要不断的学习,这样才能变得足够好使得能够被大家使用。这里面有一个问题,我们传统中使用一个产品,这个产品如果不好用,就没人会去用,这就意味着收集不到数据,而数据是优化的关键,系统不优化就导致性能得不到改善,如此产生恶性循环。

而涟漪效应就是可以建立一个良性循环,首先将一个产品在小范围内扩散时进行优化,边优化边扩散,等扩散到更大范围的时候,系统的性能也就提升不错的程度了。

讯飞的语音识别

640?wx_fmt=jpeg

在2010年,讯飞将实验室使用的语音识别搬到了手机上,做了一个免费的手机输入法——讯飞语音输入法。这个输入法一开始的语音识别率是55%,经过一些用户的深度地使用,使得这些使用过程中产生的数据回到实验室,借这些数据进行系统的自我学习和改进,等到了有3000万用户的时候,我们的识别率已经有了87%,有一个亿用户的时候是93%,现在我们已经有了4到5亿的用户,识别率是98%。我们就采用了这种涟漪效应的方法。

目前现在碰到的一些困难,我们在感知学习中用到了机器学习的方法跑的比在认知智能上快。

最近语音和图像识别中的研究进展很快,但自然语言理解现在还没有本质的突破。我们也想借助大数据来理解人类的话,但是发现一个尴尬的事实:人学习语言,是不需要识字的,人类不会用文字去描述常识,但是对机器来说没有“常识”这个概念。

这些常识是没有用文字语言表达出来的,这样机器就无法借助大数据学习到。人获取常识是借助于一次又一次的实践,而机器可能要综合视觉、听觉、触觉才可能学到这种常识。这是一个挑战,也是我们正在努力攻克的难点。

关于常识的获取上,我们要实现机器学习的认知革命。2014年,提出了一个“讯飞超脑”的计划:用现在大数据人工智能的方法去实现认知智能的突破,让机器能听,会说,能理解,会思考。其架构就是有Neural Thinking Machine, Neural Expressing Machine 的认知智能和有 Neural Viewing Machine, Neural Reading Machine, Neural Listening Machine的感知智能。

通过这个架构,我们在2016年参加的语言识别方面最高级别的比赛CHiME中获得第一,比上次比赛中整体提高了100%。在国际上语音合成最高赛事Blizzard Challenge中,我们从2006年开始,已经连续12年保持冠军。

这充分证明,中国在这么多年的积累后在人工智能方面取得了不错的成绩。在知识图谱竞赛中,我们打败了由美国国防技术规划局(DARPA)资助的队伍,获得了第一名。在由斯坦福大学发起的阅读理解(SQuAD)大赛中也获得了第一名,成为中国本土研究机构首次获得该赛事的榜首。与此同时在图像识别这块,有个医疗影像的数据库LUNA,是关于肺部肺结节的数据库,在这个数据库上,我们达到了94%的正确率,现在也是处于最高的水平,这种检测技术,可以提高医院检测肺结节的准确率。

AI+

640?wx_fmt=jpeg

第四个方面讲关于AI+。人工智能只做两件事,一是与人交互的能力,二是专家系统。

从交互的角度来讲,人与机器的交互一开始是打孔,随后有了键盘和字符的显示DOS界面,接着是鼠标和图形界面,再后来是触摸界面,更进一步的发展最有可能是语音交互,因为人类的输出信息90%靠语音。

反过来,机器输出信息的主要方式是显示屏,而人获取消息的主要方式是眼睛,所以人能理解显示器里面的消息,那么机器接受消息最便捷的方式是什么呢?以前是键盘,现在是机器刚刚能听懂我们的语音,这就构成了一个工程上的闭环:机器有显示屏,人类可以获取显示屏承载的信息,人类用语音输出,机器用语音接收。

这种闭环,我们称之为基于视觉呈现的语音交互,所以在人工智能时代下,我们推出了基于视觉呈现的语音交互的AIUI。一开始就支持全双工,方言识别,远场降噪,有主动式对话,语种自适应,多模态交互,个性化识别等能力。

2010年建立了一个讯飞开放平台,现在有60多万开发者,同时也做出了一系列产品,例如讯飞语音输入法,灵犀,配音阁,讯飞翻译机等等。

从专家系统的角度来讲,智能学习颠覆了行业发展,行业里面最宝贵的是专家,由专家制作出来的大数据,和人工智能算法是最重要的。

人们常说互联网和人工智能都是比较重要的,其中互联网,云计算,大数据,人工智能共同解决了我们在需求侧和供给侧的问题。比如在北京有一个老专家,有了互联网,即便不去北京,我们也在通过互联网在外地进行看病,但看病人数有限,而人工智能可以学习到老专家的技能后,就可以解除看病人数的限制,这解决了看病的需求供给问题。

中国就是凭借专家系统制作了自动语音评测系统,从而可以进行普通话和英语口语考试的系统,还有智慧公检法,公共安全,智慧城市领域都占有一席之地。在将来,机器人将逐步替代人类的普通技能,人工智能让机器人获得顶尖专家的知识,从而达到一流专家的水平,这对行业是有很大冲击的,那些技能简单的行业一定会消失,而那些需要创造性的行业将会进行逐步扩大。

Q&A

你对中美的人工智能发展趋势上你持什么观点?

以前有人问,中美的差距在4-5年,你怎么看?我说谁说中美的差距在4-5年,我们没有说过。在这里想引用阿里巴巴王坚的说法:中美在技术上的差距,可以说3个月,也可以说有30年。为什么呢?只要斯坦福、哈佛、MIT把技术创新做出来,3个月之内,中国的教授肯定能做出来;但是只要美国人不做,30年之内,中国都没法做出来。

所以其实中美之间的差距在于原创性、自主性,这跟我们的教育有关系。但是中国在落地的方面,解决实际问题的方面,有自己独到的东西,在应用创新上中国很强。

AI时代,To B 和To C上,会有什么联系,未来会怎样?会不会有很多企业从To B可以逐渐转型成To C?

公司业务是To B 还是 To C,是很重要的。资金在消费者这里,距离消费者越远,钱会越少,但是,直接To C的公司,不一定能做得很大。为什么一些To B的厂商会比较大,是因为钱是从消费者这边流出来的,但是钱被很多家To C 的企业分,那么钱就会流到后面的To B 的厂家。

但是不同的生态系统不同,人工智能是一个新的生态,会产生什么新的情况我们也还在研究中。

下期预告

4/18下周三晚18:40,北京大学“人工智能前沿与产业趋势”第八讲,将由今日头条人工智能实验室主任李航为大家授课。

感兴趣的小伙伴可以添加量子位小助手6:qbitbot6,备注“北大”,通过后可进入课程活动群,获取每期课程信息,与其他小伙伴互动交流。

祝大家听课愉快~

学习资料

在量子位·吃瓜社微信公众号(QbitAI)界面回复:“北大AI公开课”,可获取本次课程的视频回放链接,以及前六讲的相关学习资料~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


阅读更多
上一篇想象力惊人!只凭一句话,AI就能脑补出动漫小片
下一篇今日宜发布融资消息:明略、智行者、Video++分获BAT投资
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭