吴恩达 IEEE采访 大数据到小数据

吴恩达:AI的下一个发展方向,从大数据转向小数据

吴恩达(Andrew Ng)在 AI 领域有着很高的声誉。在 2000 年代后期,他率先使用 GPU 与斯坦福大学的学生一起训练深度学习模型,并于 2011 年创立了 Google Brain,以通过分布式集群计算机开发超大规模的人工神经网络。2014 年 5 月,吴恩达加入百度,负责「百度大脑」计划,并担任百度公司首席科学家,2017 年 3 月,吴恩达宣布从百度辞职。2017 年 12 月,吴恩达宣布成立人工智能公司 Landing . AI,担任公司的首席执行官。

近日,吴恩达在接受 IEEE Spectrum 的采访时,他表示已经确定了 AI 领域的下一个重大转变方向,是时候从大数据转向小数据、优质数据。

目前,吴恩达的工作重心在其所创立的 Landing.AI 公司,该公司建立了一个名为 LandingLens 的平台,以帮助制造商通过计算机视觉改进视觉检测。此外,他还成为了「以数据为中心」的 AI 运动的拥护者,并表示小数据也能解决包括模型效率、准确率和偏见等问题在内的 AI 大问题。

以下是采访原文,机器之心做了不改变原意的编译。

1.在过去十年左右的时间里,深度学习的巨大进步是由越来越大的模型处理越来越多的数据推动的。有人认为这是一个不可持续的轨迹。你怎么看?

吴恩达:这确实是个值得思考的问题。我们在 NLP 领域已经看到了的基础模型的发展潜力。我对 NLP 模型变得更大以及在计算机视觉中构建基础模型感到兴奋。我认为在 CV 中仍有很多信息可以利用:但由于计算性能以及视频处理成本的限制,还无法建立相关的基础模型。大数据、大模型作为深度学习算法引擎已经成功的运行了大约 15 年,到目前为止,它仍然有动力。话虽如此,它只适用于某些问题,还有一系列其他问题需要小数据才能解决。

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。

2.你提到的计算机视觉基础模型是指什么?

吴恩达:这是我和斯坦福大学的一些朋友创造的一个术语,它指的是非常大的模型,并在非常大的数据集上进行训练,使用时可以为特定的应用进行微调。例如,我们可以将 GPT-3 视为 NLP 领域的一个基础模型。基础模型为开发机器学习应用程序提供了新范式,应用前景很大,但同时也面临着一些挑战:如何确保合理公平且没有偏见,特别是这些挑战随着越来越多的研究者在基础模型上构建应用,会越来越明显。

GPT-3 或第三代生成式预训练变压器,是一种神经网络机器学习模型,使用互联网数据进行训练以生成任何类型的文本。由 OpenAI 开发,它需要少量的输入文本来生成大量相关且复杂的机器生成文本。

“不想消灭人类”的人工智能 GPT-3究竟是什么?
What Is GPT-3: How It Works and Why You Should Care

3.为视频建立一个基础模型需要什么?

吴恩达:我认为存在可扩展性问题。相比于 NLP,在 CV 领域处理大量视频图像需要巨大的计算,我认为这就是为什么在 NLP 中率先出现了基础模型。许多研究者正在研究这个问题,我认为在 CV 领域开发此类模型已经有了早期迹象。但如果有比现在高 10 倍以上的处理器,我们就可以轻松构建包含 10 倍视频数据的基础视觉模型。

话虽如此,过去十年深度学习的成功更多的发生在面向消费者的公司,这些公司拥有庞大的用户群体,有时是数十亿用户,因此数据量巨大。虽然这种机器学习范式为消费软件带来了巨大的经济价值,但我发现这种规模化方法不适用于其他行业。

听你这么说很有趣,因为你早期的工作是在一家面向消费者、拥有数百万用户的公司。

吴恩达:十多年前,当我提议启动 Google Brain 项目时,使用谷歌的计算基础设施来构建大型神经网络,这是一个有争议的做法。一位非常资深的研究者曾告诉我,创办 Google Brain 会对我的职业生涯不利。我不应该只关注扩大规模,而应该专注于架构创新。

在数据行业中,我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例就足以向神经网络解释用户希望它学习什么。

我记得当我和我的学生发表第一篇 NeurIPS workshop 论文时,提倡使用 CUDA 进行深度学习——另一位 AI 领域的资深人士告诉我:CUDA 编程很复杂,作为一种编程范式,工作量太大了,但我没有办法说服他。
Google Brain is an unofficial name for a deep learning

NeurIPS 国际人工智能顶会
GPU则专注于执行高度线程化的并行处理任务(大规模计算任务)
CUDA:是NVIDIA推出的只能用于自家GPU的并行计算框架。

我想他们现在都相信了。

吴恩达:我也这样认为。在过去的一年里,当我与人们谈论以数据为中心的 AI 运动时,我总是想到 10 或 15 年前与人们谈论深度学习和可扩展性时的情景。在过去的一年里,我和 10 年前的评价一样:这里没有什么新东西以及这似乎是错误的方向。

你如何定义以数据为中心的 AI,为什么你认为它是一种运动?

吴恩达:以数据为中心的 AI 是一门学科,它的研究重点是构建 AI 系统所需的数据。对于 AI 系统,你必须用代码实现一些算法,比如神经网络,然后在你的数据集上训练它。基于这种范式,在过去的十年中,深度学习网络有了显著的改进,以至于对于许多应用程序,代码、神经网络架构基本上是一个已经解决的问题。因此,在实际应用程序中,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法。

当我讲到这件事时,很多研究者表示赞成,他们按照这个规律已经做了 20 年了。现在是时候把这些事做成一门系统的工程学科了。

以数据为中心的 AI 运动要比一家公司或一组研究人员要大得多。我和其他合作者在 NeurIPS 上组织了一个以数据为中心的 AI 研讨会,我对出席的作者和演讲者的数量感到非常高兴。

你经常谈论公司或机构可供使用的数据非常少,以数据为中心的 AI 如何帮助他们?

吴恩达:我们曾听说过很多用数百万张图像构建的视觉系统——我曾经用 3.5 亿张图像构建了一个人脸识别系统。用数亿张图像构建的系统,是用 50 张图像构建的系统所远不能达到的。但事实证明,如果你有 50 个非常好的示例,你就可以构建一些有价值的东西,比如缺陷检查系统。在许多缺少巨型数据集的行业中,我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例足以向神经网络解释用户希望它学习什么。

仅使用 50 张图像来训练模型,你所讲的是在非常大的数据集上训练模型并对其进行微调?还是训练一个全新的模型?

吴恩达:让我来描述一下 Landing.AI 的功能。在为制造商做视觉检查时,我们经常使用预训练模型 RetinaNet,其实预训练只是一小部分难题,更大的难题是可供使用的工具,使制造商能够选择正确的图像集并以相同的方式标注它们。我们在视觉、NLP 和语音方面都遇到过一个非常实际的问题,即使是人类标注也不能就标签达成一致。对于大数据应用程序,常见的反应是:如果数据有噪声,我们只需通过大量数据,相应的算法就会对其进行平均。但是,如果能够开发出一些工具来标记数据不一致的地方,并提供具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。

吴恩达于2017年12月14日在美国帕罗奥图(Palo Alto)创立了Landing AI,专注于将计算机视觉软件引入制造企业

RetinaNet算法源自2018年Facebook AI Research的论文 Focal Loss for Dense Object Detection,作者包括了Ross大神、Kaiming大神和Piotr大神。该论文最大的贡献在于提出了Focal Loss用于解决类别不均衡问题,从而创造了RetinaNet(One Stage目标检测算法)这个精度超越经典Two Stage的Faster-RCNN的目标检测网络。
收集更多的数据通常会有所帮助,但如果研究者尝试为所有内容收集更多数据,那代价非常昂贵。

例如,如果你有 10,000 张图像,其中 30 张图像属于一类,而这 30 张图像标签有不一致的地方,我们要做的就是构建一种工具来对不一致的数据子集进行处理。因此,你可以非常快速地重新标记这些图像以使其更加一致,从而提高性能。

对高质量数据的关注是否会帮助消除数据偏见?如果你可以在训练之前更多地整理数据?

吴恩达:肯定是这样。很多研究人员指出,有偏见的数据是导致有偏见系统的众多因素之一。在数据工程方面我们已经有许多深思熟虑的工作。在 NeurIPS 的研讨会上,Olga Russakovsky 对此进行了非常精彩的演讲。在 NeurIPS 主会议上,我也非常喜欢 Mary Gray 的演讲,其中谈到了以数据为中心的 AI 如何成为解决方案的一部分(而不是整个解决方案)。像 Datasheets for Datasets 这样的新工具似乎也是这个难题的重要组成部分。

以数据为中心的 AI 为我们提供的强大工具之一是能够设计数据子集。想象一下,训练一个机器学习系统,发现它的性能对于大多数数据集都还可以,但它的性能只对数据的一个子集有偏见。如果你尝试更改整个神经网络架构以仅提高该子集的性能,那将非常困难。但是,如果你可以调整数据的子集,则可以更有针对性地解决问题。
Olga Russakovsky 普林斯顿大学计算机科学系助理教授
Datasheets for Datasets(数据集的数据表)机器学习社区目前没有记录数据集的标准化过程,这可能会在高风险领域导致严重后果。为了解决这个差距,我们提出了数据集的数据表。在电子工业中,每个组件,无论多么简单或复杂,都附有一份数据表,描述其工作特性、测试结果、推荐用途和其他信息。通过类比,我们建议每个数据集都附带一份数据表,记录其动机、组成、收集过程、推荐用途等。数据集的数据表将促进数据集创造者和数据集消费者之间的更好沟通,并鼓励机器学习社区优先考虑透明度和问责制。

当说到数据工程,我们主要在讨论的是什么?

吴恩达:在 AI 领域里,数据清洗非常重要,但清洗数据的方式通常高度依赖手动的方式。在计算机视觉中,有人可能会通过 Jupyter Notebook 来可视化图像,以发现问题并修复它。我对能够让自己拥有大规模数据集的工具感到兴奋,这些工具可以快速有效地将你的注意力吸引到标签嘈杂的数据子集上。或者快速将你的注意力吸引到 100 个类别中的一个,这将有利于收集更多数据。但如果你尝试为所有内容收集更多数据,那可能是一项非常昂贵的工作。

例如,我曾经发现当背景中有汽车噪音时,语音识别系统的性能会很差。知道这一点让我能够在后台收集更多有汽车噪音的数据,而不是试图为所有事情收集更多数据,后者将是昂贵且缓慢的。
Jupyter Notebook是一个可以在浏览器中使用的交互式的计算应用程序,该应用程序的所有可见的内容,以笔记本文档表示,包括计算的输入和输出、解释文本、数学、图像和对象的富媒体等表示。因此,Jupyter Notebook可以实现将代码、文字完美结合起来,非常适合从事机器学习、数据分析等数据科学工作的人员。

使用合成数据怎么样,这通常是一个好的解决方案吗?

吴恩达:我认为合成数据是以数据为中心的 AI 工具箱中的重要工具。在 NeurIPS 研讨会上,Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途不仅仅是作为增加学习算法数据集的预处理步骤。我希望看到更多工具让开发人员使用合成数据生成作为迭代机器学习开发闭环的一部分。
Anima Anandkumar,NVIDIA机器学习总监、加州理工学院计算机与数学科学教授

你的意思是,合成数据可以让你在更多数据集上尝试模型吗?

吴恩达:不,这是个例子。假如你试图检测智能手机外壳上的缺陷,手机上有很多不同类型的缺陷:如划痕、凹痕、砂孔、涂料问题等等。如果你训练了一个模型,然后通过错误分析发现它总体上表现良好,但在凹痕问题上表现不佳,那么合成数据生成可以让你以更有针对性的方式解决问题。你可以仅为凹痕记类别生成更多数据。

合成数据生成是一个非常强大的工具,我们也会率先尝试很多其他工具。例如数据增强、提高标签一致性,或者仅仅要求工厂收集更多数据。

你能举个例子吗?有公司联系 Landing.AI 并表示在视觉检测方面有问题时,你如何说服他们部署自己的产品?

吴恩达:当客户找到我们时,我们首先就他们面临的问题进行交流,并查看一些图像以验证该问题在计算机视觉方面是否可行。通常我们会要求他们将数据上传到 LandingLens 平台。我们经常就以数据为中心的 AI 方法论向他们提供建议,并帮助他们标注数据。

Landing.AI 的一项重要业务就是帮助制造业公司应用机器学习。我们很多时候的工作是确保软件足够快速,易于使用。通过机器学习开发的迭代流程,我们为客户提供诸如如何在平台上训练模型、何时以及如何改进数据标记以提高模型性能等方面的建议。最后,我们的培训和软件服务,及已训练模型将部署到工厂的边缘设备上,来为他们提供全程支持。

如何应对不断变化的需求?如果工厂的产品发生变化或照明条件发生变化,AI 模型能否跟上?

吴恩达:每个工厂的情况都不一样。很多情况下都会出现数据飘移现象,但是有一些制造商的生产线已经运行了 20 年几乎没有变化,他们也预计未来五年不发生变化。那些稳定的环境使事情变得更容易。

对于其他生产商,我们提供了在出现重大数据漂移问题时进行标记的工具。我发现授权制造业客户更正数据、重新训练和更新模型是非常重要的事。因为如果发生问题并是在美国凌晨 3 点的情况下,我希望他们能够立即调整他们的机器学习算法以维持工厂运转。

在消费互联网软件中,我们可以训练一些机器学习模型来服务数十亿用户。在制造业中,你可能有一万家制造商构建一万个自定义 AI 模型。挑战在于,Landing.AI 如何在不雇佣一万名机器学习专家的条件下做到这一点?

同一业务日期下的数据包含了不属于该业务日期的数据(上一天数据漂移到当天,或者当天数据漂移到下一天)或者缺失了该业务日期数据或该业务日期下的数据非最新

你是说要使其规模化,就必须在用户侧做大量训练等工作?

吴恩达:就是这样。这是人工智能领域中的一个全行业问题,而不仅仅是制造业。看看医疗行业,每家医院的电子健康记录格式都略有不同。医院如何在此之上训练自己的 AI 模型?期望每家医院的 IT 人员都发明新的神经网络架构是不现实的。

摆脱困境的唯一方法是构建工具,通过为客户提供工具来构筑数据和表达他们的领域知识,从而使他们能够构建自己的模型。这是 Landing.AI 在计算机视觉领域中所做的工作,而 AI 领域需要其他团队在其他领域执行。

你认为在以数据为中心的 AI 运动中,还有哪些是人们需要知道的重要事情?

吴恩达:过去十年,人工智能最大的转变是向深度学习的转变。我认为在这十年中,最大的变化很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟,我认为在很多实际应用上,瓶颈将出在「能否有效获取开发运行良好系统所需的数据」上。

以数据为中心的 AI 运动在整个社区拥有巨大的能量和动力。我希望更多研究和开发人员能够加入并持续推动它。

以上内容出自机器之心:吴恩达:AI的下一个发展方向,从大数据转向小数据

吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里,他一直在提“以数据为中心的AI”,希望将大家的目光从以模型为中心转向以数据为中心

最近,在接受IEEE Spectrum的采访中,他谈到了对基础模型、大数据、小数据以及数据工程的一些感悟,并给出了发起“以数据为中心的AI”运动的原因。

“过去十年,代码—神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。”

吴恩达表示,他这种以数据为中心的思想受到了很多的批评,就和当年他发起Google brain项目,支持构建大型神经网络行动,时候受到的批评时一样:想法不新鲜,方向错误。据吴教授介绍,批评者中不乏行业资深人士。

关于小数据,吴教授认为,它同样能够有威力:“只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。”

以下是采访原文,AI科技评论做了不改变原意的编译。

IEEE:过去十年,深度学习的成功来源于大数据和大模型,但有人认为这是一条不可持续的路径,您同意这个观点么?

吴恩达: 好问题。

我们已经在自然语言处理(NLP)领域看到了基础模型(foundation models)的威力。说实话,我对更大的NLP模型,以及在计算机视觉(CV)中构建基础模型感到兴奋。视频数据中有很多信息可以利用,但由于计算性能以及视频数据处理成本的限制,还无法建立相关的基础模型。

大数据与大模型作为深度学习引擎已经成功运行了15年,它仍然具有活力。话虽如此,但在某些场景下,我们也看到,大数据并不适用,“小数据”才是更好的解决方案

IEEE:您提到的CV基础模型是什么意思?

吴恩达: 是指规模非常大,并在大数据上训练的模型,使用的时候可以为特定的应用进行微调。是我和斯坦福的朋友创建的术语,例如GPT-3就是NLP领域的基础模型。基础模型为开发机器学习应用提供了新的范式,有很大的前景,但同时也面临挑战:如何确保合理、公平、无偏?这些挑战随着越来越多的人在基础模型上构建应用,会越来越明显。

IEEE:为CV创建基础模型的契机在哪?

吴恩达:目前还是存在可扩展性难题。相比NLP,CV需要的计算能力更强大。如果能生产出比现在高10倍性能的处理器,就能够非常轻松建立包含10倍视频数据的基础视觉模型。目前,已经出现了在CV中开发基础模型的迹象。

说到这,我提一嘴:过去十年,深度学习的成功更多的发生在面向消费的公司,这些公司特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。

IEEE:您这么一说我想起来了,您早期是在一家面向消费者的公司,拥有数百万用户。

吴恩达:十年前,当我发起 Google Brain 项目,并使用 Google的计算基础设施构建“大”神经网络的时候,引起了很多争议。当时有位行业资深人士,“悄悄”告诉我:启动Google Brain 项目不利于我的职业生涯,我不应该只关注大规模,而应该专注于架构创新。

到现在我还记着,我和我的学生发表的第一篇NeurIPS workshop论文,提倡使用CUDA。但另一位行业资深人劝我:CUDA 编程太复杂了,将它作为一种编程范式,工作量太大了。我想办法说服他,但我失败了。

IEEE:我想现在他们都被说服了。

吴恩达:我想是的。

在过去一年,我一直在讨论以数据为中心的AI,我遇到了和10年前一样的评价:“没有新意”,“这是个错误的方向”。

IEEE:您如何定义“以数据为中心的AI”,为什么会称它为一场运动?

吴恩达:“以数据为中心的AI”是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统,用代码实现算法,然后在数据集上训练是非常必要的。过去十年,人们一直在遵循“下载数据集,改进代码”这一范式,多亏了这种范式,深度学习获得了巨大的成功。

但对许多应用程序来说,代码—神经网络架构,已经基本解决,不会成为大的难点。因此保持神经网络架构固定,寻找改进数据的方法,才会更有效率。

当我最开始提这件事的时候,也有许多人举手赞成:我们已经按照“套路”做了20年,一直在凭直觉做事情,是时候把它变成一门系统的工程学科了。

“以数据为中心的AI”远比一家公司或一群研究人员要大得多。当我和朋友在NeurIPS上组织了一个“以数据为中心的AI”研讨会时候,我对出席的作者和演讲者的数量感到非常高兴。

IEEE:大多数公司只要少量数据,那么“以数据为中心的AI”如何帮助他们?

吴恩达:我曾用3.5亿张图像构建了一个人脸识别系统,你或许也经常听到用数百万张图像构建视觉系统的故事。但这些规模产物下的架构,是无法只用50张图片构建系统的。事实证明。如果你只有50张高质量的图片,仍然可以产生非常有价值的东西,例如缺陷系统检测。在许多行业,大数据集并不存在,因此,我认为目前必须将重点“从大数据转移到高质量数据”。其实,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。

吴恩达:使用50张图片训练什么样的模型?是微调大模型,还是全新的模型?

吴恩达:让我讲一下Landing AI的工作。在为制造商做视觉检查时,我们经常使用训练模型,RetinaNet,而预训练只是其中的一小部分。其中更难的问题是提供工具,使制造商能够挑选并以相同的方式标记出正确的用于微调的图像集。这是一个非常实际的问题,无论是在视觉、NLP,还是语音领域,甚至连标记人员也不愿意手动标记。在使用大数据时,如果数据参差不齐,常见的处理方式是获取大量的数据,然后用算法进行平均处理。但是,如果能够开发出一些工具标记数据的不同之处,并提供非常具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。

例如,如果你有10,000张图片,其中每30张图片一组,这30张图片的标记是不一致的。我们所要做的事情之一就是建立工具,能够让你关注到这些不一致的地方。然后,你就可以非常迅速地重新标记这些图像,使其更加一致,这样就可以使性能得到提高。

IEEE:您认为如果能够在训练前更好地设计数据,那这种对高质量数据的关注是否能帮助解决数据集的偏差问题?

吴恩达:很有可能。有很多研究人员已经指出,有偏差的数据是导致系统出现偏差的众多因素之一。其实,在设计数据方面也已经有了很多努力。NeurIPS研讨会上,Olga Russakovsky就这个问题做了一个很棒的演讲。我也非常喜欢Mary Gray在会上的演讲,其中提到了“以数据为中心的AI”是解决方案的一部分,但并不是解决方案的全部。像Datasheets for Datasets这样的新工具似乎也是其中的重要部分。

“以数据为中心的AI”赋予我们的强大工具之一是:对数据的单个子集进行工程化的能力。想象一下,一个经过训练的机器学习系统在大部分数据集上的表现还不错,却只在数据的一个子集上产生了偏差。这时候,如果要为了提高该子集的性能,而改变整个神经网络架构,这是相当困难的。但是,如果能仅对数据的一个子集进行设计,那么就可以更有针对性的解决这个问题。

IEEE:您说的数据工程具体来讲是什么意思?

吴恩达:在人工智能领域,数据清洗很重要,但数据清洗的方式往往需要人工手动解决。在计算机视觉中,有人可能会通过Jupyter notebook将图像可视化,来发现并修复问题。

但我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下,这些工具也能快速有效地将你的注意力吸引到数据的单个子集上,或者快速将你的注意力引向100个分组中的一个组中,在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的,但如果所有工作都要收集大量数据,可能会非常昂贵。

例如,我有次发现,当背景中有汽车噪音时,有一个语音识别系统的表现会很差。了解了这一点,我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据,那样处理起来会非常昂贵且费时。

IEEE:那使用合成数据会是一个好的解决方案吗?

吴恩达:我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途,不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具,让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。

IEEE:您的意思是合成数据可以让你在更多的数据集上尝试模型吗?

吴恩达:并非如此。比方说,智能手机上有许多不同类型的缺陷,如果要检测智能手机外壳的缺陷,那可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。若你训练了模型,然后通过误差分析发现总体上它的表现很好,但在坑痕上表现得很差,那么合成数据的生成就可以让你以更有针对性地解决这个问题。你可以只为坑痕类别生成更多的数据。

IEEE:您可以举例具体说明吗?若一家公司找到Landing AI,并说他们在视觉检查方面有问题时,您将如何说服他们?您又将给出怎样的解决方案呢?

吴恩达:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如说用数据增强来改善标签的一致性,或者只是要求厂家收集更多的数据。

当客户找到我们时,我们通常会先就他们的检测问题进行交谈,并查看一些图像,以验证该问题在计算机视觉方面是否可行。假若可行,我们会要求他们将数据上传到LandingLens平台。我们通常根据“以数据为中心的AI”方法向他们提供建议,并帮助他们对数据进行标记。

Landing AI关注的重点之一是让制造企业自己做机器学习的工作。我们的很多工作都是为了软件的便捷使用。通过对机器学习的开发迭代,我们为客户提供了如何在平台上训练模型,以及如何改进数据标记问题来提高模型的性能等很多建议。我们的训练和软件在此过程中会一直发挥作用,直到将训练好的模型部署到工厂的边缘设备上。

IEEE:那您如何应对不断变化的需求?如果产品发生变化或是工厂的照明条件发生变化,在这样的情况下,模型能适应吗?

吴恩达:这要因制造商而异。在很多情况下都有数据偏移,但也有一些制造商已经在同一生产线上运行了20年,几乎没有什么变化,所以在未来5年内他们也不期望发生变化,环境稳定事情就变得更容易了。对于其他制造商,在出现很大的数据偏移问题时我们也会提供工具进行标记。我发现使制造业的客户能够自主纠正数据、重新训练和更新模型真的很重要。比如现在是美国的凌晨3点,一旦出现变化,我希望他们能够自行立即调整学习算法,以维持运营。

在消费类软件互联网中,我们可以训练少数机器学习模型来为10亿用户服务。而在制造业,你可能有10,000 制造商定制10,000 个人工智能模型。所面临的挑战是,Landing AI 在不雇用10,000名机器学习专家的情况下,如何做到这一点?

IEEE:所以为了提高质量,必须授权用户自己进行模型训练?

吴恩达:是的,完全正确!这是一个全行业的AI问题,不仅仅是在制造业。例如在医疗领域,每家医院电子病历的格式略有不同,如何训练定制自己的AI模型?期望每家医院的IT人员重新发明神经网络架构是不现实的。因此,必须构建工具,通过为用户提供工具来设计数据和表达他们的领域知识,从而使他们能够构建自己的模型。

IEEE:您还有什么需要读者了解的么?

吴恩达:过去十年,人工智能最大的转变是深度学习,而接下来的十年,我认为会转向以数据为中心。随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将会存在于“如何获取、开发所需要的数据”。以数据为中心的AI在社区拥有巨大的能量和潜力,我希望能有更多的研究人员加入!

以上内容出自雷锋网:吴恩达:告别,大数据

个人感觉,雷锋网的这篇转述的比机器之心更好

IEEE采访链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值