林伟:大数据AI一体化的解读

今年是AI大爆发的一年,大语言模型的诞生推动了席卷整个行业的大模型热潮,许多人认为“AI的iPhone时代”到来了。训练大模型其实不简单,因为模型参数量的增加意味着需要更好的算力、更多的数据去锤炼,并且需要合适的工具让开发者快速迭代模型,只有这样才能更快地提高模型精度。这几年来阿里云一直在宣传AI工程化和规模化,其实是这轮AI爆发的主要推手。

我们看一个典型的模型开发过程,包括数据预训练、模型训练到模型部署。我们往往会非常关注训练,而忽视了整个生产流程。但是要训练出好的模型,数据越来越重要。包括数据采集、数据清理、特征提取、数据管理,再到训练过程中,需要分发哪些数据参与训练、哪些数据用来评测模型质量。所有数据都需要有验证部分,用于验证质量,这一步非常关键。低质量数据对模型的伤害力是超出想象的。这也是为什么吴恩达一直宣传了一个观点,就是更好的机器学习是80%的数据处理+20%的模型。

“以模型为中心”和“以数据为中心”的模型开发方式演进

这也体现了模型开发方式的演进。过去我们常常说以模型为中心的模型开发,算法工程师花大量的时间调模型结构,希望通过模型结构来去提高模型泛化能力,解决各类噪声问题。如果大家看5年前的Paper,会发现大量的研究都是围绕模型结构展开的,当时的数据、算力都还不足够支撑今天这样的大模型时代。那时候的模型训练更多是“有监督的学习”,用的都是标注数据,这些数据是非常昂贵的,这也决定了在训练过程中,数据上没有太多腾挪的空间,我们更多在考虑模型结构的变化。

今天的大模型训练有非常多的无监督的学习。模型结构反而是没有那么多变化的,大家好像趋同的,都采用Transformer结构。这个时候我们就慢慢演进到了以数据为中心的模型开发范式里面。这个开发范式是什么?就是需要用大量数据去做无监督的训练,通过大的算力、大的数据引擎,结合相对固定的模型结构去萃取出一些有趣的智能的东西。

因此,训练使用到的数据量会暴涨,也需要用到各种方法清洗和评测数据。我们可以看到许多大模型研究的团队都会花费大量的精力去处理数据,在各种环境里面反复地、多角度地验证数据质量。通过各种各样的维度,甚至有时候还会把模型产生出来去评测,通过模型结果反馈数据的质量。在这个过程中,就需要积累非常多的数据处理工具,只有这样才能有效地支撑以数据为中心的模型开发工作对于数据质量的要求。这也是大家说到以数据为中心的模型开发的范式的核心的一个想法。

正是在这种趋势下面,我们一直认为大数据和AI是一体两面,需要实现大数据和AI的一体化,这样才能顺应当下模型开发范式的演进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值