神经网络的重要参数
大模型如Llama 3.1 8B、70B、405B(即80亿、700亿、4050亿参数)中的这些几十亿、几百亿、几千亿的参数主要是指模型中所有可训练的权重和偏置的总和,这些参数分布在模型的各个层、节点和组件中,用于学习数据的复杂表示并生成预测结果。
“大力出奇迹”,即“Scalling Law”:在保持模型架构和训练策略不变的情况下,通过简单地增加模型的参数数量、训练数据量或计算资源,可以在一定程度上提升模型的性能。这种趋势在多个大型语言模型的实验中都得到了验证,表明在当前的技术水平下,参数规模的增长仍然是推动模型性能提升的重要因素。
能够大力出奇迹,可能来源于大模型是由无数简单的神经元构成,就像蜂群由无数工蜂组成。越是简单的个体,不断叠加个体的数量,一定会量变到质变,产生智能涌现。
这一切的逻辑,背后的理论支撑是什么?******机器学习(Machine Learning)时代已经出现了,从数学的角度那是更早就有了。即神经网络中单个神经元:y = σ(wx + b),线性回归再叠加一个激活函数。
神经网络中单个神经元
大语言模型(LLM)动辄上千亿的参数如何“大力出奇迹”,如何遵守“Scalling Law”,如何产生“智能涌现(Emergent)”?
这些目前都无法证明、不好理解,但是单个神经元的工作原理我们还是能搞清楚的。想搞懂大模型,那就先从了解权重w、偏置b以及激活函数开始吧。
神经网络的重要参数
权重w和偏置b:在神经网络中,模型参数包括每一层的权重(weight)和偏置项(bias)。这些参数在训练过程中通过反向传播算法进行调整,以最小化损失函数。神经网络模型参数的数量和复杂性随着网络层数和每层的神经元数量的增加而增加。
-
权重(w):用于描述不同神经元之间的连接强度。在神经网络的前向传播过程中,输入数据会与权重进行加权求和,从而影响神经元的输出。
-
偏置(b):用于调整神经元的输出。偏置的作用类似于线性方程中的截距项,它使得神经元的输出可以偏离原点。
权重W和偏置b
激活函数:在神经网络中,输入通过加权求和(权重(w)和偏置(b)),然后被一个函数作用,这个函数就是激活函数。它决定了节点是否应该被激活(即,是否让信息通过该节点继续在网络中向后传播)。
神经网络中,如果只有线性变换,那么无论神经网络有多少层,输出都是输入的线性组合。引入非线性激活函数,使得神经网络逼近任何非线性函数。
激活函数的作用
常见的激活函数包括:Sigmoid、Tanh、Softmax、ReLU、Leaky ReLU
-
Sigmoid:将输入的连续实值压缩到0和1之间,特别大的负数映射为0,特别大的正数映射为1。但它存在梯度消失和输出不是以0为中心的问题。
-
Tanh:将输入的连续实值压缩到-1和1之间,输出以0为中心。但它同样存在梯度消失的问题。
-
Softmax:常用于多分类问题的输出层,将神经元的输出映射到概率分布上。
-
ReLU (Rectified Linear Unit):当输入大于0时,输出等于输入;当输入小于等于0时,输出为0。ReLU解决了梯度消失的问题,但可能会导致神经元“死亡”的问题。
-
Leaky ReLU:对ReLU进行了改进,当输入小于0时,给予一个很小的斜率,从而避免神经元“死亡”的问题。
常见的激活函数
秒懂AI-深度学习四种常用激活函数:Sigmoid、Tanh、ReLU和Softmax
传统激活函数 Sigmoid:Sigmoid 函数的**输出始终在 0 和 1 之间,这使得它经常被用于二分类问题中,其中输出可以解释为属于某一类的概率。
与一些现代激活函数(如 ReLU)相比,Sigmoid 函数需要计算指数函数和除法操作,会增加计算成本,导致梯度消失/梯度爆炸问题。
激活函数Sigmoid
主流激活函数ReLU:ReLU(Rectified Linear Unit)是当今深度学习领域中最主流的激活函数之一。
ReLU函数公式
ReLU与传统的Sigmoid和tanh激活函数相比,ReLU函数在输入为正数时导数为1,在输入为负数时导数为0,这有效地避免了梯度消失/梯度爆炸问题。由于ReLU函数的非线性特性和计算简单性,它可以帮助神经网络更快地收敛到最优解。
激活函数ReLU
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓