如何让大模型更聪明？

最新推荐文章于 2024-05-23 13:34:30 发布

谦虚且进步

最新推荐文章于 2024-05-23 13:34:30 发布

阅读量142

点赞数 3

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44992737/article/details/139089708

版权

想法基础：

首先，深度学习本质就是数据科学，学习的就是数据中的规律。尽管各种特征规律提取结构层出不穷，但是终究还是受到数据的影响。

其次，整个模型是一个优化器优化的结果，比如Adam等进行梯度下降更新参数，从这一点来说LLM就是学习一个概率分布函数。

方向一：数据层面

1、细化具体领域，不同领域的语料的字频、语句顺序都是不一样的，就导致这个领域数数据的分布明显不一致。比如微博评论的数据分布服从均值为10，方差为2的正态分布；而抖音的评论服从均值为5，方差为1的正态分布。因此，这种单一的数据分布更容易让模型收敛，而不用受到分布不同的特征的干扰，同时保持较小的参数量（数据分布过多就需要更多的参数）。

方向二：训练技巧方面

1、就是让模型收敛更好，泛化能力得到增强。

2、提供合理的先验约束，使模型一开始就处于一个较好的特征空间位置，加速模型收敛。

3、选择正确的特征空间维度，比如768维度的特征空间是否能够线性表示所有token的特征表示。

方向三：模型架构优化

1、这部分偏向于特征提取结构。以人类阅读的一般过程来说，字词是组成句子的基础，但是句子感觉才是一个完整的表示，是否可以将一整个句子变成token然后学习这个句子的表征。又或者是整个段落作为一个token。现阶段好像没有类似的特征提取结构。

谦虚且进步

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何让大模型更聪明？

1、细化具体领域，不同领域的语料的字频、语句顺序都是不一样的，就导致这个领域数数据的分布明显不一致。因此，这种单一的数据分布更容易让模型收敛，而不用受到分布不同的特征的干扰，同时保持较小的参数量（数据分布过多就需要更多的参数）。以认类阅读的一般过程来说，字词是组成句子的基础，但是句子感觉才是一个完整的表示，是否可以将一整个句子变成token然后学习这个句子的表征。首先，深度学习本质就是数据科学，学习的就是数据中的规律。2、提供合理的先验约束，使模型一开始就处于一个较好的特征空间位置，加速模型收敛。
复制链接

扫一扫

谦虚且进步 CSDN认证博客专家 CSDN认证企业博客

码龄5年

158: 原创

3万+: 周排名

1万+: 总排名

38万+: 访问

: 等级

2231: 积分

429: 粉丝

594: 获赞

86: 评论

2894: 收藏

私信

关注

热门文章

分类专栏

java 2篇
人工智能学习 14篇
C++ 4篇
Vue 12篇
HTML 10篇
css3 15篇
Python数据分析 9篇
python 34篇
jQuery 1篇
JavaScript 31篇
go语言 8篇
python爬虫 6篇
Linux 2篇
排序算法 2篇
MySQL 5篇
MATLAB 2篇

最新评论

时间序列生成数据，TransformerGAN
2401_85626532: 生成数据和原始数据完全不一样欸，这个gan网络可以生成相同趋势的原始轨迹吗
python装饰器详解
m0_73233638: 这个要弄清函数对象和函数返回值的区别
python装饰器详解
bzyg1: import time class Decorator: def __init__(self, func): self.func = func # self.args = args def defer_time(self, time_sec): time.sleep(time_sec) print(f"{time_sec}s延时结束了") def __call__(self, *args): print('__call__', args) self.defer_time(args[0]) self.func(args[0]) print(args) @Decorator def f1(a): print(a) time.sleep(a) print(f'延时{a}秒之后我才开始执行') if __name__ == '__main__': f1(5, 4) #__call__ (5, 4) #5s延时结束了 #5 #延时5秒之后我才开始执行 #(5, 4)
lstm预测未来的多个值，多步预测
谦虚且进步: 可以的，私我
lstm预测未来的多个值，多步预测
wyl14786754608: 博主在嘛？我想请你帮我目前的LSTM 单变量预测代码做一个直接实现多步预测的代码有偿的您看可以吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。