大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer

我一直有一个经验性的暴论,模型的性能只取决于数据的质量和大小,以及模型的规模

CNN系和transformer系其实没啥好争的,AI本质即压缩,特别是在现阶段的大模型时代,本质上就是谁规模大、压缩的信息更多,效果就更好,甚至都还没到比拼算法压缩效率的时候。由于信息处理方式不同而导致在不同场景下两类模型仅几个点的差异,在实际应用中影响聊胜于无,无法产生压制性的影响。

有人说transformer好,但这是因为trans大啊。在VIT刚出来的时候,trans系压了CNN系一小头,私以为这更多是因为multi-head attention用这种并行化的矩阵计算方式,扩大了信息的处理量,本质上还是扩大了模型规模。也正因如此,在2020那几年,trans系模型的gRam占用总是比CNN系大很多。

后来大参数的Resnet逐渐成熟,CNN系又扳回一城。此后两类模型一直都是在不同应用任务中,以几个点的差距打得有来有回。

当然,transformer很好地克服了梯度下降的问题,这是trans系的优越性。

但是,如果当模型规模一直膨胀,性能总归也会有一个上限,到了这个时候即便模型规模再提高,性能也不会有多大的提升。也就是达到了这个上限的时候,算法本身的压缩效率才会开始体现出来。

CNN系和trans系本质上都是对信息的压缩,只是前者是以卷积的形式处理信息,后者是以前后关联的形式处理信息。当模型规模达到上限后,也许CNN系的处理方式会更好,也许trans系的处理方式会更好,但对于现在的大模型时代而言,都还不是定论。亦或许未来早就出现了新的底层架构爆杀CNN和trans…

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值