自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 【李沐】动手学习ai思路softmax回归实现

进行num_epochs个迭代周期的训练,每个迭代周期结束利用test_iter访问到的测试数据集对模型进行评估。原始图像中每个样本都是28*28的,所以要展平每个图像成长度为784的向量。是更新模型参数的常用函数,它接受批量大小作为参数。-1 的地方为批次, W.shape[0]为输入的维度。"""训练模型一个迭代周期(定义见第3章)。2 """计算在指定数据集上模型的精度。2 """训练模型(定义见第3章)。2 """在`n`个变量上累加。"""预测标签(定义见第3章)。

2024-03-09 12:53:40 1027

原创 关于在大模型中遇到的6(colab)

这一块运行完了会在控制台弹出个链接,点进去按流程操作,就是让你选择一下用哪个google账号啥的,最后会给你一串代码,在这里输入回车就完事了。目录下有两个并列的文件,一个是文件夹‘Colab Notebooks’,另一个是我这次要用的文件mel_30k.py。接着分别运行这两波代码,将你google drive里面的数据导入进来用于深度学习或者其它操作。你可以在这里面开辟一块可以独立运行的代码块来打印一下你的机器信息。然后把要运行的代码复制到一个独立的代码块运行就完了。左上角新建,上传文件,完事了。

2024-02-05 11:02:30 404

原创 关于大模型学习中遇到的5

来源:网络。

2024-02-05 09:59:56 815

原创 Transformers Tutorial教程3-7

Transformers库的一个使用,用这个库就可以很轻松地去使用和训练自己的一个预训练语言模型。outline介绍什么是Transformers,为什么要用它介绍一些比较常用的接口最后会给出一个demo,帮助你们快速地入门。

2024-01-26 22:53:07 1019

原创 Transformer and Pretrain Language Models3-6

预训练语言模型的优势就是,我们在语言模型的预训练之后,学习到的知识可以非常容易地迁移到各种下游任务,去提升下游任务的性能,我们看到这个word2vec是第一个预训练语言模型,现在的话,其实绝大部分的语言模型都是基于transformer encoder模型,比如Bert。

2024-01-26 12:40:42 1054

原创 Transformer and Pretrain Language Models3-5

优点:1、Transformer是一个具有很强表示能力的模型,而且在很多这个任务中都得到了一个验证,目前也有将这些工作迁移到视觉,然后存储到网络等其他领域的一些工作。2、这个模型结构本身非常适合并行计算,因为它的attention的计算过程,包括后面前馈网络计算过程,其实都是可以进行,这个对目前GPU等加速设备非常友好。3、我们通过对attention的一个可视化也可以发现,这个注意力模块其实很好地建模了句子中token和token之间的关系。

2024-01-24 08:30:00 861

原创 Transformer and Pretrain Language Models3-4

首先回顾一下之前的RNN的一个端到端的模型,以下是一个典型的两层的LSTM模型,我们可以发现,这样一个RNN模型,一个非常重要的一个缺点就在于,它必须顺序地执行,对于文本这样一个序列,它必须先计算得到第一个位置的一个表示,然后才可以往后计算文本第二个的一个表示,然后接着才能去计算第三个。而这样的模式,其实对于目前并行能力非常强大的GPU等专业设备来说,非常不友好,会造成很多资源浪费。

2024-01-23 11:34:51 1937

原创 关于大模型学习中遇到的4

MLP是多层感知器(Multilayer Perceptron)的缩写,多层感知机(MLP)是一种人工神经网络(ANN)的一种,也称为多层前馈网络(MLFN)、深度前馈神经网络(DFNN)、回归神经网络(RNN),是机器学习中一种有监督学习算法。MLP由输入层、输出层和一个以上的隐藏层构成,每一层由一组神经元组成,隐藏层可有多个,当然也可以没有。

2024-01-23 11:33:30 952

原创 Transformer and Pretrain Language Models3-3

我们可以看到对于前面机器翻译的这样一个任务,注意力机制其实实现了一种短软对齐的策略,它翻译得到的英文单词会更加关注和表示相同含义的中文单词,比如这里的many更多和airport机场,这样的一个可视化,我们也可以发现模型在一定程度上,学习到这两个语言中一种语义的对齐关系,所以总体来看,注意力机制给RNN带来了很多有益的改变,而且极大地提高了RNN在不同的NLP任务上的表现。我们引入的attention机制到底给端到端的模型带来了什么变化?

2024-01-22 09:48:20 352

原创 Transformer and Pretrain Language Models3-2

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数。如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量。它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数。此外还有许多其他的变体,可执行查找了解。

2024-01-21 17:08:46 587

原创 Transformer and Pretrain Language Models3-1

attention mechanism注意力机制以下是一个运用RNN模型来解决机器翻译问题的一个具体例子,这个模型中存在一个非常重要的问题,即信息瓶颈的问题

2024-01-21 11:55:03 1172

原创 关于大模型学习中遇到的3

在机器学习和自然语言处理中,Embedding模型是指将高维度的数据(例如文字、图片、视频)映射到低维度空间的过程。简单来说,embedding向量就是一个N维的实值向量,它将输入的数据表示成一个连续的数值空间中的点。本文主要关注文本embedding。Embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的embedding可以表示单词的语义,主要是因为这些embedding向量是根据单词在语言上下文中的出现模式进行学习的。

2024-01-19 23:21:27 1069

原创 关于大模型学习中遇到的2

PyTorch 是一个开源的深度学习库,由 Facebook 的人工智能研究团队开发和维护。多维张量的操作:PyTorch 提供了一个类似于 NumPy 的库,用于对多维数组(也称为张量)进行操作。与 NumPy 不同,PyTorch 的张量可以在 GPU 上运行,这使得其可以进行更快的数学运算。深度学习:PyTorch 提供了一套全面的深度学习函数和类,支持各种类型的神经网络。

2024-01-19 15:24:55 1087

原创 关于大模型学习中遇到的1

很简单,Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。其实,list已经提供了类似于矩阵的表示形式,不过numpy为我们提供了更多的函数。如果接触过matlab、scilab,那么numpy很好入手。在以下的代码示例中,总是先导入了numpy:(通用做法import numpu as np 简单输入)

2024-01-19 13:54:23 809

原创 neural network basics2-4

CNN一般都是出现在图像领域,一开始出现是应用在计算机视觉领域里,但由于它结构特殊性,它也可以应用于NLP领域,例如在性态分类关系分类中有很好的应用,则归功于CNN比较擅长于提取局部和位置不变的模式,例如在计算机视觉里面的颜色边角等等,还有NLP里面的短语和一些局部的语法结构等CNN它提取局部模式的一个步骤。主要就是来计算一个句子中所有可能的N元组短语的一个表示。

2024-01-18 11:50:01 1014

原创 neural network basics2-3

我们传统的RNN在计算hi的时候,会由当前xi以及之前那个hi-1进行计算而成的,在这里,我们需要将门控机制引入到RNN中门控机制:就是对我们当前输入的信息进行筛选,类似于一个门一样,门打开就是会让你这些信息进来,门关闭的话,相当于你的信息停留在这,所以它决定了会由哪些信息进入到下一层。这里会有两个门控,分别是更新门和重置门,它的作用就在于权衡我们过去的信息,即hi或者是hi-1之类的,和当前我们输入信息他们之间的一个比重问题。

2024-01-18 10:45:42 763

原创 neural network basics2-2

两个比较常见的神经网络模型:循环神经网络RNN和卷积神经网络CNN。

2024-01-17 17:37:01 911

原创 neural network basics2-1

multilayer;non-linear;生物细胞处理信息后,从轴突中输出若干个信号受神经网络和生物神经元的启发,设计出由计算机能够计算的人工神经元:接受n个数作为输入,然后产生一个数的输出,它由参数w和b以及激活函数f来构成n inputs(w)各权重 +bias(b)偏置权重=output对于多个output:此时b成为一个向量,w为一个矩阵然后依次叠加每一层,进行前向计算,最终得outputQ:一个神经元在输出结果之前,会经过一个非线形的激活函数,那么这个激活函数时干什么用的呢?

2024-01-16 18:00:38 2081 1

原创 Big Model Basics1-2

13年word2vec、14年rnn、15年attention mechanism、17年transformer、18年elmo、bert不断增加他的参数,数据,显著提升各种任务的性能,参数每年10倍速增长,所需数据也变大,

2024-01-15 09:53:05 868 1

原创 NLP Basics1-1

nlp 即让计算机读懂人写好的这些文字,和人一样进行交互和对话,去生成自然语言意义:人类语言是人类智能的体现图灵测试:判断机器是否具备智能(人无法判断对方是人还是机器)nlp是人工智能能够通过图灵测试的一种重要基础工具图灵测试,最初为:imitation game模仿游戏,看起来像人具有人的智能水平2011 IBM Watson deepQA nlp又一个里程碑。

2024-01-13 21:19:25 885 1

原创 书生大模型全链路开源体系1

专用模型————>通用模型(针对特定任务,一个模型解决一个问题)————>(一个模型应对多种任务、多种模态)eg:2006年深度学习理论突破,2011大规模语音识别,2012ImageNet竞赛,2014人脸识别,2016围棋比赛,2019德州扑克,2021AlphaFold现:ChatGPT。

2024-01-10 13:59:36 414 1

原创 c- language- learning 14数组 一维数组、二维数组、数组作为函数参数

Thursday, March 3,2022//一维数组[ ]里需要是常量表达式,不能是变量,比如n//数组 初始化//整型数组填充0上面两个语句时等价的不填写时会根据实际元素确定是多少//即:可以省略写元素个数,但不能省略初始化//字符数组填充\0//字符串数组填充\0初始化时带来的差异:cha5字符串自带终止符\0cha6[]要打印到碰到\0才停止打印,所以...

2022-03-04 14:11:25 186

原创 c- language- learning 13函数 函数递归

Thursday, March 3,2022函数自己调自己此时死递归栈溢出//练习1执行到print(n/10)的时候此句代码未结束,还需要再次执行print(),将12传入所以它下面的printf("%d",n%10);不打印执行又下一层递归,此时n=1 ,if条件不满足,跳过直接打印printf("%d",n%10);打印完1返回上一层打印2,返回上一层打印3,返回上一层打印4。循环的 print(n/10...

2022-03-03 16:07:36 116

原创 c- language- learning 12函数 函数调用 链式访问 声明和定义

Wednesday, 2nd,Mar, 2022//函数的调用如果函数内部的数想操纵函数外部的数,那就需要用到传址如果仅仅是为了把值传过去用一下,那用传值就可以//1.写一个函数可以判断一个数是不是素数要打印100-200之间的素数函数返回1,是素数,返回0不是函数设计最好保持它单一功能的独立性,不要一堆都往上加优化:开平方即可sqrt()//写一个函数来判断是不是闰年注意:别忘记写返回类型如果一个...

2022-03-02 23:35:22 429

原创 c- language- learning 11函数 库函数、自定义函数、函数参数

wednesday,2nd, Mar,2022//库函数库里面提供的函数们(由程序员提前封装好的基础功能的代码)www.cplusplus.com各种引用的头文件,里面有封装好的函数,可以看如何使用各种函数//c语言常用的库函数有:通过阅读文档、查阅,使用学习函数//strcpyarr2中数组中字符共有10个:hello bit\n 这里的\n也会被拷贝过去能够放入容量为20个的数组arr1中strcpy(desti...

2022-03-02 15:30:20 423

原创 c- language- learning 10循环语句 do while

Wednesday,2nd,Mar, 2022//do……while()循环先执行(do),再判断(while)是否需要再循环(do)break-跳出循环(不是整个程序)continue-跳过后面的代码(在一个部分内的-大括号内的)-出现死循环//do……while的特点-循环至少要执行一次// 1.阶乘// 2. 1!+2!+……+10!这里代码错了是因为在最里面的那个循环,每次都需要重置ret从1开始才对...

2022-03-02 13:37:18 4690

原创 c- language- learning 09循环语句 while、for

Tuseday , 1st, Mar,2022whilefordo while//while循环是存在的循环是可终止的表达式若为非0,就是真,那么一定要执行循环语句。有可能为一个语句块break使用,会直接跳出循环continue执行后,跳过本次循环,又回到while,死循环1234_(死循环)//使用场景1getchar-获得字符正确时返回的是ascii码值,如果错误返回的是eof...

2022-03-01 22:51:05 86

原创 c- language- learning 08 分支语句(选择)if、switch

Tuseday , 29th, feb, 2022由分号;隔开的就是一条语句。//分之语句(选择结构)// if语句表达式为真(为非0时)执行语句表达式为假(为0时) 不执行语句是用大括号!!!{ }这么写是不对的,因为18<=age是真的,得出结果为1,然后因为1<26所以又为真,因此打印了青年。正确如下:分开写,用逻辑符号组合判断{ }代码块悬空elseelse和最近的if...

2022-03-01 11:58:16 196

原创 c- language- learning 07定义宏ADD和常量、指针*、结构体.->

Monday, 28th ,feb,2022//define-是一个预处理指令//1.define定义符号代表的常量#define max 1000int main(){printf("%d\n,max);//1000,define将max定义为了1000return 0;}//2.define定义宏(ADD)宏ADD相当于X+Y直接代入,没有括号,不是整体计算好再代入因此这里是4*X+Y,而不是4*(X+Y)要有先后计算顺序,需要加括号以保证每一

2022-02-28 20:20:32 248

原创 c- language- learning 06操作符2

monday, 28th, feb, 2022//常见关键字//c语言提供的不能自己创建关键字//变量名不能是关键字int main(){int char;//错误,变量名不能是关键字return 0;}int main(){int a = 10 ;//a这个局部变量是自动创建,自动销毁的-属于自动变量auto,完整表达为:autoint a = 10,但因为自带自动属性,所以一般省略auto,直接写成int a = 10//aut...

2022-02-28 13:04:16 124

原创 c- language- learning 05操作符1

Sunday,27th,feb,2022//操作符//算术操作符:+ - * / %//移位操作符:>>右移操作符,<<左移操作符int a =9/2;printf("%d\n",a); //4float a =9/2;//除号两边都是整数时,得到的为整数商,而不是4.5printf("%f\n",a); //4.000000float a =9/2.0;//除号一边是小数时,得到的为4.5printf("%f\n",a); //4.500

2022-02-28 09:57:48 130

原创 c- language- learning 04选择语句、循环语句、函数、数组

Sunday,27th,feb,2022//选择语句int main(){int input=0;//输入的值printf("加入:>");printf("那要好好学习吗?(1/0)?>:");scanf("%d",&input);if(input==1)printf("getoffer\n");elseprintf("nooffer\n");return 0;}//循环语句int main(){int line=0;w

2022-02-27 22:02:57 292

原创 c- language- learning 03转义字符、注释

转义字符,注释

2022-02-27 12:08:27 158

原创 c-language-learning 02字符串

字符串

2022-02-27 11:04:57 51

原创 c- language- learning 02

Sunday ,Feb.27th. 2022

2022-02-27 11:01:02 61

原创 c- language- learning 01主函数、数据类型、变量、常量

Saturday ,Feb.26th. 20221。创建一个项目2。创建一个源文件3。写代码4。编译代码+运行3.写代码:1。写主函数int Main (){printf("")return 0;}//从哪里开始执行:从主函数第一行开始执行-main为程序入口int 函数执行完返回的 整型main函数{}函数体//写个代码在屏幕上打印:printf-库函数-在屏幕上打印函数的printf是别人的东西,使用需要打招呼(引用头文件 ..

2022-02-27 09:53:12 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除