wonag-CSDN博客

原创 LHY2021-HW04

mel, speaker = zip(*batch)#将batch list解包，mel是batch中的tensor叠一起形成的tuple，speaker是id叠一起的tuple#mel: (tensor1,tensor2,tensor3....tensor_batchsize)dataset[0]:第0个演讲者的第1段音频，dataset[1]:第0个演讲者的第2段音频....dataset[]:所有演讲者的所有音频（音频，speaker id），并在较短的张量后面填充 0，使得所有张量在。

2024-08-25 11:38:46 105

原创 1.大语言模型如何从专才走向通才2.GPT4的核心是可以写并执行代码,还可以接受文件读取并应用于代码中（比如中文字资料包），完全是个工程师了

就相当于是init_weight初始化model参数,让模型有一组好的权重，而不是随机权重(self-supervised learning),这个时候的模型并不受控，给他输入一些文字，他就不受控的一直输出下去了，因为网上的文字资料也没有教他如何“回答”问题。比如gpt4会自己写程序并执行，上面的算数例子无法通过文字接龙给出答案，但是可以调用程序运行得到正确结果，所以大语言模型可以经常写程序，保证输出的正确性。第一阶段训练了好的参数作为基石，碰巧源于人类的梯度下降法会在附近找参数。

2024-08-02 22:45:17 377

原创计算机组成原理---机器中的数字表示

计算机保存的都是补码，所以减法改变减数为加上相反数的补码，只做两件事1.全部取反+1 或2.从右往左第一个1的左边全部取反（针对减数）2.都是取结果一部分（余数/整数部分），使用另一部分（商/小数部分）继续下一步迭代。2.从右往左找到第一个1，从这里的左边一个开始，都按位取反即可（正数的补码和负数的补码之间转）1.正数补码全部位取反， +1，得到相应负数的补码；定点小数也以补码形式储存，定点小数和整数的原码反码补码变换方式完全一样。计算补码快速方法：（正数原码=反码=补码，与负数补码之间）

2024-07-31 16:37:18 284

原创关于logging(这玩意封装的层次感很强，能解构破译出来)

logging分为5个level, 控制台默认的logging level是warning，即只会输出warning级别以上的logging,低级别的不会显示/输出。一个logger可以有多个handler,logger有自己的level，消息传给logger，然后继续平行传给多个handler处理。logging是为了记录程序动态过程，理解程序过程，降低调试难度。如果创建了handler没有设置level就默认是0，即接收一切。logging.DEBUG是10，level都是int。

2024-07-26 00:51:51 128

原创优化例子12

低秩矩阵恢复问题：只到矩阵中的一些元素值，不知道剩下的，想复原全体元素。：使用核范数代替rank(原问题不好求解)此问题NP难，于是求解。

2024-07-25 20:56:59 165

原创关于高斯分布

高斯分布的截面是椭圆/圆，决定于协方差矩阵∑的特征值，如果特征值都相等就是圆,不相等就是椭圆,各个轴长为根号λ,轴方向即∑的特征向量们。高斯分布的协方差矩阵如果是对角的，那么这个椭圆/圆就是摆正的，因为对角矩阵的特征向量们就是ei。各向同性的高斯分布：协方差矩阵为对角的，且对角元相同，即∑=λI。利用该定理，可以秒得边缘概率分布，也是高斯，只要找出A即可。利用该定理，也可以秒出条件概率分布，也是高斯。任何协方差矩阵都是半正定的，与高斯分布无关。当给出高斯分布pdf的时候要求∑正定，即。

2024-07-25 16:26:04 233

原创速通diffusion model

1.training过程中每张图会被随机分配一个t步，然后一次加入t步的噪声，再一次经过noise predicter得到基础噪声epsilon，得到还原图像。直接给出上述算法原理：(training图中的q(x0)表示图片库，每一次repeat取一个x0即clean image)3.扩散过程：一步到位，直接相当于加入t次噪声(因为直接加入t次噪声后和一次一次加入噪声后按照下面的变换公式是同分布的)2.生成图片过程：sample一个noise，然后经过T步，代sampling中的公式。

2024-07-25 12:39:21 144

原创 VAE,EMA完结

EMA就是个影子模型(直接看是线性叠加，按照事件展开就是exponential的了)，跟着模型梯度更新的权重一起变，防止模型参数受到噪声影响太大，但是不参与模型训练梯度下降过程。需要在model中记住那一层的激活值，所以添加到self.a1/a2/a3中(一般正常情况下一直是x=blabla(x))VAE就是稳定版鲁棒版的AE，让中间地带的图像符合我们的想象(叠加)EMA是一种通用技术，可以用于一切模型，简称“影子模型”VAE model是一种固定的架构，和CNN一样简单。

2024-07-23 17:22:14 247

原创关于BERT和embedding

hidden = hidden.detach()让hidden忘掉了他是从哪里计算得来的，于是再使用hidden进行运算，hidden就会被当作新的独立变量，它的祖先也就得不到梯度更新了。答：通过向很长时间以前的时刻传递梯度）困惑度的物理意义：困惑度表示“概率的倒数”（正确标签对应的概率倒数），也可以解释为分叉度，即有几个分叉选择。梯度消失/爆炸的原因：2.反向传播每个时间RNN层中的梯度都乘以相同的权重矩阵，于是爆炸/消失。负采样：对负例样本进行采样：比如一个+，100个-，代替一个+，999999个-

2024-06-15 14:29:10 490

原创概率论拾遗

Y))#直接应用此公式条件住一个随机变量，进行接下来的计算即可。Xi为采样的iid随机变量无偏估计：统计量的期望=欲估计的真值。条件期望仅限于形式化公式，用于解决多个随机变量存在时的期望问题求解，即。的解g(Y)=E(X|Y) 即最佳逼近函数即已知数据为条件下的条件期望。使用常数a逼近随机变量，EX为最佳逼近，最佳逼近的误差为Var(X)Y是已有数据，寻找一个函数g，来让g(Y)逼近X。该式为频率学派下的分解，θ为常数，估计Xi的方差，也是无偏估计。估计Xi的均值，是无偏估计。

2024-06-11 22:29:00 302

原创点集常识与测度常识

由于开集和闭集的对偶性之：R上的开集总可以写成可数不相交开区间的并，那么闭集也总可以写成可数不相交闭区间的交。勒贝格测度有了一些要求，于是淘汰了一些集合，幸运的是，外侧度为0的集合都没有被淘汰。外测度已经非常好了，对于常识中的任何区间，有理数集的外测度都是我们想要的结果。可测集的运算：余集，有限交并差仍为可测集(有限的情况怎么玩都是可测集)集合的下极限集合就是某项之后，每次都出现的点的集合。紧集的定义只用了开集的概念，使用的不是开区间。集合的上极限集合就是无穷次出现的点的集合。

2024-06-09 11:28:57 394

原创矩阵级数与函数

1.计算归纳A^k=?...)A即可只需要计算数项级数作为矩阵前的系数。3.利用最小多项式，求f(x)/m(x)的余多项式r(x)，求r(A)即可。jordan标准型时函数直接作用到jordan块上。2.只要矩阵可以对角化即可（jordan也可）（任意矩阵A, B不满足指数上的流动规则）定义1：各个cell的数项级数绝对收敛。收敛（任意范数均等价）满足基本的欧拉公式关系。函数直接作用到特征值上。

2024-06-06 16:05:02 188

原创 Latex入门

left和\right:是为了让括号大一点，足以把内部内容括起来，当只有一侧需要括号时，由于匹配需要同时使用\left和\right,在不使用的一侧后加上.即可。${xxxxx}$ 里的{}可以保证让公式内容在同一行。displayed math mode: $$开始，$$结束,公式独占一整行，且居中显示。\sqrt[3]{2}表示3次根号2。inline math mode：$开始mode，$结束mode。根号要带{}：\sqrt{2}分数：\frac{2}{3}

2024-06-05 12:11:58 220

原创矩阵常识与jordan标准型

1.换基过渡矩阵，坐标变换公式[y1, y2, y3] = [x1, x2, x3]C #y为新基，x为旧基，注意y1对应于C中的一列新坐标=旧坐标2.线性变换的矩阵表示，在不同基下的矩阵表示。

2024-06-05 11:39:17 1038

原创广义逆矩阵

集合是所有的解，但这仍是不完全的，还可以引入自由变量Y。利用上述方程可将最小二乘问题转化为普通的方程组求解问题。求解矩阵方程：矩阵方程完全由{1}逆决定。1.2.方程组解集均为所有最小二乘解集。注：没有表明任意，存在的均按照任意理解。AXB=D方程有解，通解如下，通解中。于是，最小范数的最小二乘解为。的解集=A{1,4}集合。的解集=A{1,3}集合。

2024-06-02 10:46:03 177 1

原创矩阵的特征值估计

max R(x) = max λ min R(x) = min λ (针对实对称阵成立，所有向量都可以向标准正交特征向量组投影，向量x的R(x)为各个特征向量分量对应的特征值的加权平均，以投影系数的平方为权重)特征值的隔离：利用相似矩阵具有相同特征值，求相似矩阵的盖尔圆，利用对角阵作P等效于调节盖尔圆半径，使不同盖尔圆不相交。更强的盖尔圆定理：矩阵的特征值λ在矩阵的第i行盖尔圆中，i为特征向量x中最大模元素index。：矩阵的盖尔圆以最大连通分量为单元，连通分量里有几个盖尔圆，就有几个特征值。

2024-05-31 11:14:15 1040

原创矩阵分解技术

形如，逆矩阵加负号也算：单位下三角，对角阵，单位上三角：单位下三角，上三角：下三角，单位上三角：下三角，上三角计算：Gauss消元打洞，先求出Doolittle分解，再化为其他L矩阵记录打洞系数：与主元之比U矩阵为打洞剩余物n-1阶顺序主子式!=0只用到倍加的Gauss消元唯一LDU分解唯一Doolittle/Crout分解可逆矩阵可LU分解n-1阶顺序主子式!=0(顺序主子式均不为0)上链可逆矩阵A，则必存在置换阵P使PA的n个顺序主子式非0，可进行PA=LU。

2024-05-29 12:13:44 1771 1

原创概率图模型

算法：枚举隐变量以计算argmax P(data, hidden)观察到的数据是外在的，完全受hidden variable决定。算法思想和MLE很像。

2024-05-28 23:45:55 102

原创【无标题】

贝叶斯派：data背后概率分布的参数Θ也是一个概率分布，给出Θ的先验分布，获得data后计算Θ的后验分布。张志华机器学习导论讲频率学派；统计机器学习讲贝叶斯数学。github上notes很全面。频率派：概率分布的参数Θ是一个常数，使用极大似然估计法求出。林轩田基石理论精彩，技法SVM精彩。GMM，HMM, CRF都是概率图模型。两派都认为数据背后有一个概率分布。频率学派最后都落到了优化问题上。频率派---统计机器学习。贝叶斯派---概率图模型。贝叶斯学派最后都在求积分。

2024-05-28 22:11:16 108

原创关于auto encoder

auto encoder 可以看作是一种自监督学习/pretrain通过对无标签数据的复原游戏，让网络尽可能学习到数据的本质分布。将高维向量的本质信息抽取出来，起到一种降维作用。在后续的下游任务中使用embedding后的feature即可低维feature的好处：1.更接近本质信息 2.模型训练只需要更少量数据核心思想是：压缩即智能，压缩即本质。

2024-05-27 23:49:43 197

原创关于研究生选题

4.80%文章只看标题，14看标题和摘要，5看标题摘要论文，1搞懂全部细节自己过滤/利用资源过滤/survey/report。2.研究者花费超过一半的时间阅读文献，哪怕到了博四也至少50%时间阅读文献，剩下50%科研。3.michael jordan阅读经典著作。只需要读20%的文章就可以得到80%的信息。1.导师最重要的就是选题。

2024-05-27 23:48:36 120

原创关于EM算法（Expectation Maximization）

EM算法想解决的问题：手里有一堆sample data，但是data的部分信息缺失，称这部分丢失的信息为隐变量（隐变量是真实存在的客观信息，只是因丢失而不被知道），同时产生这些data的distribution含有未知参数。助力理解的小例子：z后验取1/-1概率均为1/2 手头的data为(1,2) 则可以认为完整数据为0.5个((1,2), 1)和0.5个((1, 2), -1)，此时的似然函数也就分裂成了两个，需要对他们求期望。X表示data，Z表示隐变量, θ表示概率分布的参数。

2024-05-27 00:37:30 351

原创关于hopfield网络，boltzmann机

hopfield网络是一个动态系统，每一个时刻随机选择一个神经元，并更新该神经元，直至神经元系统达到稳态，即所有神经元不再更新为止，神经元的更新方法如下，神经元只取值0/1。hopfiled网络的权重参数需要经过训练，训练的过程就是将记忆模式嵌入网络的过程，找到一个合适的权重使网络记住该模式（如图像），即perturb后能够自动复原。hopfield网络的串扰问题：当记忆模式过多时，不同模式互相干扰，网络就会混淆，无法还原出记忆内容，如下图。为了解决这一问题，玻尔兹曼机应运而生。

2024-05-26 22:48:45 200

原创 ML HW2 总结

1.defaultdict(int)返回一个字典，称为默认字典，假如访问字典中不存在的key，此时的value默认为0，且将该key-0自动加入字典中。

2024-05-26 22:11:09 199

原创 python closure, first-class function, decorator

print_h1仍然保持着对tag变量的访问，这种现象叫闭包。把函数当成object，可以作为函数参数/返回值等。decorator就是改变函数的行为，附加一些功能。decorator的实现基于closure。html_tag函数已经结束调用，但是。

2024-05-26 22:10:05 253

原创关于BERT和self supervised learning

1.使用self supervised learning(pretrain) 进行填词游戏和判断两个句子是否连接游戏的训练。T5是google预训练出的一个encoder decoder model（BERT只是encoder model）通过进行填词游戏的训练，BERT可以学习到词义，因此BERT是优秀的word embedding 模型。2.之后在具体的下游任务上fine tune，进行有监督训练。google使用了各式各样的游戏进行预训练，包括删字还原，打乱顺序还原等。

2024-05-26 22:08:39 209

原创关于encoder decoder model(seq2seq)的演进

传统的机器翻译(seq2seq)任务使用encoder-decoder架构，演化成了现在基于attention的transformer架构encoder: 输入sequence，输出一个context vectorencoder decoder都使用RNN（LSTM）实现如果源语言输入序列比较长，这种结构会导致固定长度的context vector，可能无法存储全部的语义信息，而注意力机制的提出则解决了这个问题。

2024-05-26 13:31:28 420

原创 ML HW1 总结

每一个epoch训练结束后在验证集上进行测试，若验证集上loss低于之前的验证集loss，则保存当下模型参数，否则继续训练，直到early_stop_cnt轮后，模型在验证集上loss仍然没有更低的表现，则终止训练。4.generator的意义是方便的由函数逻辑产生iterator，核心在于“简便”的iterator，就是generator。3.DATASET逻辑：外部csv文件==》numpy处理==》转换为pytorch。模型训练==》模型测试==》预测结果==》转回numpy==》写入csv文件。

2024-05-21 08:49:32 138

原创计算机组成原理--概述

8.编译后的文件只是指令级文件，多周期流水线等stall操作由硬件电路实现，即处理器自行实现。存储程序 VS 程序和数据分开存储。硬件与软件的分界即指令,指令如何调动各个硬件是写verilog，数字电路。CPU读取：读取地址在MAR，读取数据在MDR（数据的概念包含程序指令）存储体: 一个地址存一个字节B，取出数据连续取4个地址/8个地址。3.存储程序的概念可以让计算机程序指令连续执行，一条接着一条执行。7.控制器相关:PC:存放下一条指令地址，自动+1。CPU写入：写入地址在MAR，写入数据在MDR。

2024-05-18 21:51:13 360

原创 python的file和csv操作

f_contents = f.readline() 返回str,第一行内容之后可以继续readline获得更多每一行。csv_writer.writerow(line)#line为list of str,用writer的writerow()f = open("test.txt", "r") f本身就是iterator，每个元素是一行str，使用如下。f_contents = f.read() 返回str，包含文本所有内容，一个大str。阅读到结尾后，f.read(100)返回empty str。

2024-05-17 15:02:27 383

原创 ML HW0 总结

3.labels = torch.Tensor([1,2,3,4,0])默认创建的tensor.dtype为float，但是label得改为long才能传入crossentropyloss。L = nn.CrossEntropyLoss()#该函数内部实现了softmax，只需要直接传入outvector和labels即可。

2024-05-17 11:10:18 139

weixin_45124463的博客