Day13—大语言模型

十三秋

已于 2024-06-19 16:14:49 修改

阅读量860

点赞数 20

文章标签： python 算法

于 2024-06-19 14:18:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61822557/article/details/139801816

版权

定义

大语言模型（Large Language Models）是一种基于深度学习的自然语言处理（NLP）模型，用于处理和生成人类语言文本。

一、认识NLP

在这里插入图片描述

什么是NLP

NLP（Natural Language Processing），即“自然语言处理”，主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法，属于人工智能的一个重要研究方向。

简单来说，NLP就是如何让计算机理解人类语言。

NLP的主要研究方向

NLP是一个庞大的技术体系，研究方向主要包括机器翻译、信息检索、文档分类、问答系统、自动摘要、文本挖掘、知识图谱、语音识别、语音合成等。

相较于CNN重点应用于计算机视觉领域，RNN则更多地应用于NLP方向。

word2vec

word2vec介绍

word2vec是一种基于神经网络的词嵌入技术，通过训练神经网络得到一个关于输入X和输出Y之间的语言模型，获取训练好的神经网络权重，这个权重是用来对输入词汇X进行向量化表示的。

word2vec的两种模型

CBOW模型

CBOW（Continuous Bag-of-Words Model），即“连续词袋模型”，其应用场景是根据上下文预测中间词，输入X是每个词汇的one-hot向量，输出Y为给定词汇表中每个词作为目标词的概率。
在这里插入图片描述

Skip-gram模型

也称为"跳字模型"，应用场景是根据中间词预测上下文词，所以输入X为任意单词，输出Y为给定词汇表中每个词作为上下文词的概率。
在这里插入图片描述

二、全连接神经网络

在这里插入图片描述

全连接神经网络

全连接神经网络是一种连接方式较为简单的人工神经网络结构，某一层的任意一个节点，都和上一层所有节点相连接。

在这里插入图片描述

神经网络的激活函数

在这里插入图片描述
在神经网络中可以引入非线性激活函数，这样就可以使得神经网络可以对数据进行非线性变换，解决线性模型的表达能力不足的问题。

常见的激活函数

Sigmoid激活函数

$\Large y=\frac{1}{1+e^{-x}}$

Relu激活函数

$\Large y=max(0,x)$

tanh激活函数

$\Large y=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{1-e^{-2x}}{1+e^{-2x}}$

Softmax激活函数

$\Large p_l=\frac{e^{z_l}}{\sum_{j=1}^ke^{z_j}}$

Softmax激活函数计算的结果是各个分类的预测概率值，常用于多分类问题

神经网络的过拟合问题

在这里插入图片描述

神经网络因为隐藏层的存在可以实现复杂的非线性拟合功能。但随着神经网络层数加深，神经网络很容易发生过拟合现象（在训练集上表现很好，在未知的测试集上表现很差，即“泛化能力差”）。

解决神经网络过拟合问题的方法

正则化

与很多机器学习算法一样，可以在待优化的目标函数上添加正则化项（例如L1、L2正则），可以在一定程度减少过拟合的程度。

Dropout（随机失活）

可以将Dropout理解为对神经网络中的每一个神经元加上一道概率流程，使得在神经网络训练时能够随机使某个神经元失效。

在这里插入图片描述

**注意： **

对于不同神经元个数的神经网络层，可以设置不同的失活或保留概率
如果担心某些层所含神经元较多或比其他层更容易发生过拟合，则可以将该层的失活概率设置得更高一些

感知器工作机制

感知器即单层神经网络，也即"人工神经元"，是组成神经网络的最小单

前向传播与反向传播

前向传播

计算输出值的过程称为“前向传播”：将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算到输出层为止。

反向传播（Back Propagation,BP）

反向传播（BP）说白了根据根据J的公式对W和b求偏导，也就是求梯度。因为我们需要用梯度下降法来对参数进行更新，而更新就需要梯度。

在这里插入图片描述

总结：

前向传播得到输出，反向传播调整参数，最后以得到损失函数最小时的参数为最优学习参数。

关注

20
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Day13—大语言模型

中医病案的各种症状是一个错综复杂的整体，但其中也有着密不可分的联系。通过对中医病症之间关系的分析，从而认识疾病的发生发展规律，掌握疾病的诊疗特点，并且获得治疗疾病的最适宜药方。而关联规则分析在寻找中医病因病机、病症之间的关系上发挥了巨大的作用，在挖掘病症之间的关联关系方面应用广泛且实用。不同金融产品之间可能存在着人眼难以发掘的关联关系。例如可能买了理财产品A的人，也会经常同时购买理财产品B；亦或者同时买了理财产品A和理财产品B的人，也会经常顺带着买理财产品C。
复制链接

扫一扫

十三秋 CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

116万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

581: 积分

429: 粉丝

427: 获赞

2: 评论

272: 收藏

私信

关注

热门文章

最新评论

Day4—电商日志数据分析
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Day1—手机流量统计项目
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。