漫画主动学习:人工智能居然被PUA了?

63 篇文章 5 订阅
30 篇文章 1 订阅

人工智能的江湖,有句笑(定)话(理):“想有多少智能,就得有多少人工。”

这里的“人工”不是高级工程师,而是纯手工,是数据标注所耗费的人力。

别看不上数据,算法也是在解释数据。

别看不上数据标注,你得把答案教给人工智能,它才能做题。

教猫,把猫框起来,写上“猫”。

换到自动驾驶汽车场景,以此类推。

工作不难,可是架不住量大。

人工智能是人类的学生,而且,这种教学已经花费了数万小时。

专业说法是,有监督的机器学习需要有标注的数据集。

原来,学习诚可贵,答案价更高。

一种,

让人工智能自己给自己用的数据做标注,“智能标注”。

另一种,边学边标,提升模型性能。

恭喜你理解了主动学习(Active Learning)。

本次科普结束。

 


科普结束了,但是实践不行。

大数据爆发,数据标不完,标不起,相当于,学不完,学费贵。

于是,主动学习登场了。

主动学习是机器学习的一个分支。

话说,人工智能要学习的知识点都在数据里。主动学习就好比那种江湖人称“考试型选手”。

为了考高分,普通人把所有的知识点都学一遍,而学霸是找到考试重点内容,使巧劲。

以前,全靠人类把数据标好了,扔进给模型。

现在,由算法给人类派活,它自己有标准(策略),知道怎么挑。

把高价值样本“挑”出来,虽不认识,但值得认识。

一边,算法在从人类标注的高价值图片(样本)中学习。

另一边,扩充已标注样本集。

人类亲自给标注的数据,相当于单独辅导,那成绩自然上升。

到这里,智能标注的活就干完了,目标就是让算法给数据打上标签。

智能标注的口号就是:边学边标。

专业的说法是,人机融合,迭代演化,“Human-in-the-Loop”。

没错这是一个单词。这里翻译出来是:你们人类也别闲着,欢迎干点活,在链路里。

别记这个单词,太长了。

来看看电商场景,每天新增商品图片20万。(对,是单日新增。)

全量标注得花不少钱,那些高价值图片得被分出来,由人类亲自来标注。

举个例子,纯手工时代,全部标注,时间和金钱成本都挺高。

毛衣毛帽这类保暖用品的图片各1000张,一共2000张。

好消息是人类教会人工智能认识了毛衣,毛帽。

结果,第二天,又新来了10000张图片,全部都是毛手套。

因为之前没教过,不认识毛手套,直接傻眼了。

主动学习一顿操作猛如虎,从新来的一万张图片里面挑出一些,比如,500张,转交给人类。

人类一看这不是毛手套嘛,把正确答案写上,一口气写了500张。

有主动学习的好处是,只用标500张,人工智能就学会了。

没有主动学习,所有图片都得写上答案。

毛手套,就是困难样本,也就是人工智能做不出的题。

于是,要么胡写答案。要么拿不准。

胡写答案时候,指着毛手套说:“这是毛裤。”

拿不准的时候,说:“我看50%概率是毛衣,50%是毛裤。”

看把人工智能给难的,险些变成人工智障。

赶紧让人类给困难样本写上答案。

下一步呢?

回流,而且是必须要回流,回流到机器学习训练系统中。

这是一个多次循序迭代的过程,直到模型性能指标达到目标性能为止。

智能标注是中级玩家,主动学习融入机器学习链路是高级玩家。

主动学习的“变身”一个迭代工作流。

人生是一个过程,主动学习也是一个过程。

专业一点的问法就是,主动学习能不能和模型训练打通?

必须打通。但是打通之后的目标就变了,变为提高模型效果。

本质是,人类写下困难样本的答案,答案可以用于教学(训练),学习了之后,人工智能就更聪明了。

技术亮点之一是如何从几万张图片找出几百张高价值的,只有这些是值得给人类去做手工标注。

追求的结果是把训练样本量降下来,还要提高机器学习模型的准确性,达到全量训练的预期性能指标。

火了这几年,人工智能终于感觉到自己被PUA了:

又想奶牛少吃草,还要奶牛多产奶。

主动学习用在计算机视觉中,还会用在文本理解、音视频等多种模态中。

坦白说,标注数据是一种劳动密集型工作,大公司通常都是外包出去。

成本按业务分,按部门分都可以,谁的标注,谁来出钱。

反正互联网大厂一年花几个亿也正常。

常见物品的图片,标注一个花几分钱。

然而,标出肺结节这种,得加钱,可能几十元到一百块人民币。

更糟糕的还是涉密数据,给外包标注根本不可能。

通常来说,人们花在训练过程中的注意力多,花在数据上的太少。

市场上,少有创业公司推出技术含量高的工具,以便查看和了解人工智能所用的数据的情况。

有的云厂商还处在主动学习的预研阶段。

AWS用上了主动学习技术的产品叫Amazon SageMaker Ground Truth Plus,AWS自称其为“端到端数据标注管理”。

对标美国,国内极少有技术含量的标注公司,大多是纯人力外包标注公司,看上去技术驱动的数据标注赛道还是一片蓝海。

(但这和我没有什么关系,我不搞一级市场投资,快乐都是你们的。)

主动学习已经用在很多方面了,没办法很多领域的数量非常大,亟待减轻标注工作量。

科学领域包括,天文,生物,化学;

工业领域包括,自动驾驶,药物发现,人脸识别,黑产风控,电力系统检测。

还有一个应用之处好玩极了,研究北极冰。

另外,推荐一本好书,《Human-in-the-Loop Machine Learning Active learning and annotation for human-centered AI》这本书的作者在苹果公司任职,可惜没有中文。

(此书封面请自行在推文内寻找。)

他的核心观点之一是,人工智能是人类的学生。

教好学好,教坏学坏。

教得好,科技向善,教得坏,毁灭世界。

所以,你说人和人工智能,磕不磕CP呢?

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

松鼠协会总动员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值