如何让大模型更聪明?

想法基础:

首先,深度学习本质就是数据科学,学习的就是数据中的规律。尽管各种特征规律提取结构层出不穷,但是终究还是受到数据的影响。

其次,整个模型是一个优化器优化的结果,比如Adam等进行梯度下降更新参数,从这一点来说LLM就是学习一个概率分布函数。

方向一:数据层面

1、细化具体领域,不同领域的语料的字频、语句顺序都是不一样的,就导致这个领域数数据的分布明显不一致。比如微博评论的数据分布服从均值为10,方差为2的正态分布;而抖音的评论服从均值为5,方差为1的正态分布。因此,这种单一的数据分布更容易让模型收敛,而不用受到分布不同的特征的干扰,同时保持较小的参数量(数据分布过多就需要更多的参数)。

方向二:训练技巧方面

1、就是让模型收敛更好,泛化能力得到增强。

2、提供合理的先验约束,使模型一开始就处于一个较好的特征空间位置,加速模型收敛。

3、选择正确的特征空间维度,比如768维度的特征空间是否能够线性表示所有token的特征表示。

方向三:模型架构优化

1、这部分偏向于特征提取结构。以人类阅读的一般过程来说,字词是组成句子的基础,但是句子感觉才是一个完整的表示,是否可以将一整个句子变成token然后学习这个句子的表征。又或者是整个段落作为一个token。现阶段好像没有类似的特征提取结构。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值