自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 RNA领域预训练语言模型-最全综述

直观地说,该工作流程以自回归方式简化了大组基因表达的生成,其中首先生成具有最高预测置信度的基因表达,并用于帮助后续轮次生成。所示,在训练过程中,我们随机选择基因的比例为未知,因此在输入中省略了它们的表达值。都会预测一组新基因的基因表达值,这些基因反过来又成为下一次迭代中的 “已知基因”,用于注意力计算。与句子中的单词不同,细胞内的基因顺序是可以互换的,并且没有等效的 “在训练过程中,模型逐渐学会了通过其他基因的表达情况,去建模需要预测的基因真实的表达值,从而优雅地处理了。可以处理最多1022个标记的序列。

2025-03-24 08:48:04 1135 3

原创 transformer goole2017提出

1、扩展了模型专注于不同位置的能力。2、有多个WQ、K、V矩阵集合,(Transformer使用八个注意力头)并且每一个都是随机初始化的。和上边一样,用矩阵input乘以WQ、WK、WV来产生查询、键、值矩阵。3、self-attention只是使用了一组WQ、WK、WV来进行变换得到查询、键、值矩阵,而Multi-Head Attention使用多组WQ,WK,WV得到多组查询、键、值矩阵,然后每组分别计算得到一个Z矩阵。得到拼接的Z后再经过一个mlp得到合并的Z就行了。

2025-03-22 10:54:26 908

原创 linux基础 超级笔记

useradd [-g -d] username:创建用户。-g指定用户的组,不指定-g,会创建同名组并自动加入,指定-g需要组已经存在,如已存在同名组,必须使用-g。-d指定用户H0ME路径,不指定,HOME目录默认在:/home/用户名。rm [-r -f] p1 p2 p3...:删文件,-r表示删除文件夹,支持多个参数。-r,删除用户的HOME目录,不使用-r,删除用户时,HOME目录保留。mv:移动文件/夹,改名字。tail [-f -num] path:查看文件尾部内容,默认查看10行。

2024-10-05 19:55:09 4306 1

原创 GAT知识总结

解决GNN聚合邻居节点的时候没有考虑到不同的邻居节点重要性不同的问题,GAT借鉴了Transformer的idea,引入masked self-attention机制,

2024-07-25 22:57:59 1428 1

原创 JavaWeb期末知识点复习

其他:在接受name参数页面-->stirng a = new string(request.getp("name").getBytes("ISO-8859-1"),"UTF-8")request:跳转后保存,地址栏不能变--服务器跳转-------------------------forward不变,redirect变。id="a" class=""> //创建一个class的对象a。DOM:文件对象----document---一个页面就是一个文件,每个标签是元素,

2024-06-10 15:19:53 1137 4

原创 Uniapp学习笔记

当点击 表单中 formType 为 submit 的 组件时,会将表单组件中的 value 值进行提交,需要在表单组件中加上 name 来作为 key。表单,将组件内的用户输入的 提交。box-sizing:定义如何计算一个元素的总宽度和总高度,主要设置是否需要加上内边距(padding)和边框等。1.子组件中与data同级,props数组中写标签中要绑定的值。

2024-05-12 11:05:00 2740

原创 Vue学习笔记

1.将复杂的 {{ }}中的表达式写到 computed对象中,作为计算属性,computed对象和data,methods平齐。遍历对象:v-for="(value, name,index) in obj". value对应值,name对应键。//这样可以改变ui。如:<div v-bind:id = "" v-bind:class = ""></div>5.json变量:"name" : values(数组,对象,字符串,数字)。简写为:<div :id = "" :class = "">,加冒号。

2024-05-12 11:02:29 1356 1

原创 Zero-shot、One-shot 和 Few-shot

随着大语言模型(如 GPT-4、PaLM)的发展,Zero-shot、One-shot 和 Few-shot 学习已经成为衡量模型泛化能力的重要标准。One-shot 学习是在任务描述的基础上,提供一个输入输出示例,模型通过示例掌握任务模式,但不对模型权重进行更新。Few-shot 学习是在任务描述的基础上,提供多个输入输出示例,通过示例展示任务的模式和多样性,模型依此进行推理。增强 Few-shot 效果:通过更智能的示例选择提升模型性能。任务描述 + 多示例:示例越多,模型对任务的理解越全面。

2025-05-09 10:55:28 426

原创 transformer的并行性 !!

假设输入序列长度为 N,模型维度为 D,Q、K、V 的生成复杂度为 O(N×D^2),注意力得分计算复杂度为 O(N^2×D),均通过矩阵并行加速。• 注意力得分的并行计算**:Q 与 K^T 的矩阵乘法可并行执行,生成所有位置对的注意力权重,避免了逐个位置计算的串行瓶颈。• **独立头的并行处理**:每个注意力头独立计算 Q、K、V,并在不同设备或计算单元上并行执行,最后拼接结果。• **位置独立的计算**:每个位置的输入经过相同的全连接层独立处理,所有位置的运算可同时执行。

2025-05-09 10:54:26 762

原创 梯度下降详细,adam和sgd

设置一个step间隔,调整学习率大小,0.1倍线性缩小,呈阶梯式下降。但是对于复杂情况(神经网络拟合的函数),肯定是未知函数的表达式。# 针对梯度太小的时候,可能是到了一个局部最优的陷阱。# extra move走的太多,停下来。说白了,一个已知的函数F,都可以由多个导数表示。离得越远的值,权重是小数的指数幂,会很小。# 优化一下,找见好的就再仔细找找。设置step间隔,指数衰减调整学习率。# 定义问题,去找这个函数的最小值。# 移步函数,就是每个点的一步求解。数据之和,对这个给予较小的权重。

2025-05-09 09:46:57 793

原创 xTrimoPGLM,GLM,LORA微调

对于生成任务,采用large span/long text的掩码,使用基于自回归预测空白的方法,即noncausal decoder方法,能看到encoder的输出,增强生成能力。它不能处理多个连续的 mask token,因为它需要根据答案的长度来调整 mask token 的数量,而答案的长度往往是未知的。:BERT 是一种基于自编码的模型,它通过 mask 输入文本中的一些单词,然后训练模型去预测 mask 的单词,这种目标叫做掩码语言模型(MLM)。限制遮盖的区域必须是完整的句子。

2025-05-09 09:45:44 880

原创 batch和epoch

大的batch_size容易使模型收敛在局部最优点,而使用mini-batch,甚至单个数据训练时,相当于人为给训练加入了噪声,使模型走出局部最优(鞍点),从而在更大的范围内寻找收敛点。* 示例:训练集有1000个样本,若Batch Size=100,则一个Epoch包含10个Batch(1000/100=10)。* 示例:1000个样本的训练集,Batch Size=100 → 共有10个Batch(每个Batch含100个样本)。* 作用:模型在每个训练步骤(Step)中处理一个Batch的数据。

2025-05-09 09:41:29 188

原创 scaling law详细了解

3. 对于计算量C,模型参数量N和数据大小D,当不受其他两个因素制约时,模型性能与每个因素都呈现幂律关系。(只有一个为自变量,loss为因变量)如图所示,根据左图可以看到计算量与模型性能呈现幂律关系(可以认为数据和模型都不受限制),根据中图和右图,可以发现Nopt∝Ca,Dopt∝Cb,2.模型的最终性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。4. 为了提升模型性能,模型参数量N和数据大小D需要同步放大,但模型和数据分别放大的比例还存在争议。

2025-05-09 09:38:14 655

原创 Pytorch Transformer-核心代码+注释详解!

【代码】Pytorch Transformer-核心代码+注释详解!

2025-05-09 09:37:04 139

原创 BLT - Meta新作!无token的分词方法,全网最权威解析

FLOPS:注意全大写,是floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。· FLOPs:注意s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。· 之前的大语言模型(如Llama、GPT等)主要基于token-level的处理方式,依赖于固定的词汇表。

2025-03-27 21:43:00 627

原创 语言模型理论基础-持续更新-思路清晰

理解:“Query,Key,Value的概念取自于信息检索系统,举个简单的搜索的例子来说。最开始Wq,Wk,Wv 是随机生成的, 后面通过训练 Wq,Wk,Wv 会不断调整,通过loss 函数进行。理解:每个token都会发出一个Q去询问其他token,点乘他们的K,得到相对的重要性,为了消除较大的K对softmax的影响除以根号dk,再做softmax得到概率后,点乘V,得到具体需要注意多少。我们利用-特征提取模型的-“浅层参数通用”的特性,使用模型A的浅层参数,其他参数再通过任务B去训练(微调)。

2025-03-24 08:49:21 546

原创 过拟合欠拟合

欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。

2025-03-22 10:59:43 455

原创 贝叶斯优化超参数

贝叶斯优化的工作原理是:首先对目标函数的全局行为建立先验知识(通常用高斯过程来表示),然后通过不断地添加样本点观察目标函数在不同输入点的输出,更新这个先验知识,形成后验分布。这个选择的策略通常由所谓的采集函数(Acquisition Function)来定义,比如最常用的期望提升(Expected Improvement),这样,贝叶斯优化不仅可以有效地搜索超参数空间,还能根据已有的知识来引导搜索,避免了大量的无用尝试。采集函数基于代理模型的预测,量化每个候选点的采样价值,指导下一步的试验。

2025-03-22 10:55:55 821

原创 GPT与Bert,预训练语言模型

作者在论文中提到这样做的好处是,编码器不知道哪些词需要预测的,哪些词是错误的,因此被迫需要学习每一个 token 的表示向量,另外作者也表示双向编码器比单项编码器训练要慢,进而导致BERT 的训练效率低了很多,但是实验也证明 MLM 训练方法可以让 BERT 获得超出同期所有预训练语言模型的语义理解能力,牺牲训练效率是值得的。BERT 输入的语句将由两个句子构成,[SEP]分隔符隔开,其中,50% 的概率将语义连贯的两个连续句子作为训练文本,另外 50% 的概率将完全随机抽取两个句子作为训练文本。

2025-03-22 10:51:17 753

原创 MLP 多层感知机+权重衰减+L1L2范数+激活函数

通过L1可以实现特征的稀疏,去掉一些没有信息的特征,例如在对用户的电影爱好做分类的时候,用户有100个特征,可能只有十几个特征是对分类有用的,大部分特征如身高体重等可能都是无用的,利用L1范数就可以过滤掉。然后执行K次模型训练和验证,每次在K-1个子集上进行训练,并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。1.在监督学习中(有监督学习指的是 我们知道每个样本的结果 如回归,无监督学习指的是 不知道/没有样本的结果 如聚类降维),我们假设train set和test set是独立同分布的。

2025-03-21 09:03:05 1113

原创 反向传播,清晰理解

反向传播通过链式法则将误差信号从输出层回传至输入层,并结合优化算法调整参数。:从输出层开始,计算损失对输出的梯度。例如,在Softmax+交叉熵损失中,梯度为预测概率与真实标签的差值(:根据预测值与真实值的差异,计算损失(如交叉熵损失或均方误差)。:深层网络中梯度可能指数级衰减(如Sigmoid激活)或膨胀(权重初始化过大)。:如PyTorch和TensorFlow,自动构建计算图并高效求导。)和非线性激活(如ReLU、Sigmoid),最终得到预测输出。:将数据分批次计算梯度,减少内存占用并加速收敛。

2025-03-21 08:56:40 828

原创 self Attention为何除以根号dk?(全新角度)

self Attention为何除以根号dk?

2025-03-21 08:48:43 761

原创 我的创作纪念日

三年前的一个深夜,我在调试一个分布式锁的并发问题时,发现中文技术社区缺乏完整的解决方案。创作已融入我的生物钟:早晨通勤时用手机梳理技术点,午休时间画架构草图,周末的咖啡馆变成第二办公室。• **7.2万同行者**:从孤军奋战到拥有72893位粉丝,最珍贵的是一条私信:"您的文章让我少走了三个月弯路"这段代码实现了每秒百万级并发的实时风控检测,内存消耗降低70%,后来成为部门的标准实现范式。

2025-03-14 17:49:36 454

原创 unity期末考试最全笔记

中北大学软件学院unity期末考试最全笔记

2024-12-18 14:39:07 318

原创 中北大学软件学院信息安全概论期末考试,全网唯一高分笔记,最全考点

中北大学软件学院信息安全概论,期末全网唯一高分笔记,最全考点。

2024-12-18 14:37:25 1087

原创 六级高分总结

A feature sth to do,business association,are capabale of,enthusiasts爱好者,a multitude of大量的,against the backdrop of以谁为背景,complementary相互补充,长对话 conversation(男女互相对话,选项中的主语是谁就去找谁在说话的内容)+听力篇章 passage(一个人讲一堆)+讲座/报道 lecture or talk(非常长易走神,)。· 长对话的第一题,必须听首句!

2024-12-14 14:20:51 403

原创 信息安全概论期末必考题

信息安全概论》期末考试试卷一、简答题(每题 10 分,共 50 分)简述信息安全的基本任务以及密码学在其中的作用。(参考《第 2 章密码学概论 1.pptx》相关内容,结合第一章和第九章)答案:信息安全的基本任务包括保护信息财产,防止偶然或故意的未授权者对信息进行恶意修改、破坏和泄漏,确保信息处理的可靠性、完整性和保密性,保障信息和信息系统随时为授权者提供服务,同时保证信息管理者能对信息及内容实施必要控制。密码学在信息安全中起着基础性和核心的作用,它是防范各种安全威胁的重要手段。

2024-12-05 21:54:51 1478 1

原创 JavaEE-期末必考知识点

(第41页、第42页)Spring 中,@Scope 注解用于改变 bean 的作用范围,其属性 value 的取值和 bean.XML 中 scope 的取值一样,包括(singleton(单例)、prototype(多例)、request(每次 HTTP 请求都会创建一个新的 Bean)、session(同一个 HTTP Session 共享一个 Bean)、globalsession(多服务器间的 session))(参考《第二章.pptx》中用于改变作用范围(Scope)部分)。

2024-12-05 21:54:12 568

原创 SpringBoot期末知识点大全

中北大学软件学院 JavaEE框架,期末考试最全笔记

2024-12-05 21:53:33 662

原创 集成学习之-stacking

对于单模型来说,模型的抗干扰能力低,且难以拟合复杂的数据。所以可以集成多个模型的优缺点,提高泛化能力。集成学习一般有三种:boosting是利用多个弱学习器串行,逐个纠错,构造强学习器。bagging是构造多个独立的模型,然后增强泛化能力。而stacking结合了以上两种方式,将xy先进行n-fold,然后分给n个基学习器学习,再将n个输出的预测值进行堆叠,形成新的样本数据作为x。新的x和旧的y交给第二层模型进行拟合。

2024-12-05 14:36:14 1030

原创 集成学习综合教程

集成模型可以指数级地提升模型的性能,有时可以成为第一名和第二名之间的决定因素!在本文中,我们介绍了各种集成学习技术,并了解了这些技术如何应用于机器学习算法。此外,我们在贷款预测数据集上运用了算法。

2024-12-05 14:35:23 1058

原创 sklearn机器学习实战

数据降维是指采取某种映射方法,把高维空间中可能包含冗余信息和噪声的数据点映射到低维空间,在低维空间重新表示高维空间中的数据,挖掘数据内部本质结构特征,提高识别精度、减少计算量和空间复杂度。PCA主成分分析,通过对矩阵进行奇异值分解,并期望在投影后的维度上方差最大,使得投影后的维度尽可能少,同时保留尽可能多的原数据特征。即使有用,对问题的重要程度也不一样。· transform(X):使用最佳参数调用模型的transform()方法。· predict(X):使用最佳参数调用模型的predict()方法。

2024-10-29 10:16:04 463 1

原创 matplotlib数据可视化实战!

ax.plot_surface(x, y, z, *args, **kwargs) #绘制三维曲面。ax.bar3d(x, y, z, dx, dy, dz, color....) #绘制三维柱状图。· format指定保存文件的扩展名,如.png, .pdf, .jpg, .tif等。plot(x,y,'r*')红色*号标记端点,不画线。· x:数组形式的数据,自动计算其中每个数据的占比并确定对应的扇形的面积。默认为1,表示不透明。· 标记为:'./o/v/^/>/*/+/_/x/D等。

2024-10-29 10:15:21 932

原创 图神经网络黑书笔记--术语

节点、边、整个图都可以与丰富的信息相关联,这些信息被表征为节点/边/图的特征。· 网络嵌入/图嵌入/节点表征学习:旨在将节点表征视为一个低维向量,在嵌入向量中保存有用的信息,比如图结构和图的属性。· 消息传递/图滤波器:是图神经网络的框架之一,根据每个网络层的图结构在不同节点之间传递消息。· 图对抗攻击:旨在通过操纵图结构或节点表征产生最坏情况的扰动,使得模型的性能下降。· 超图:是对图的扩展,一条边可以连接任意数量的节点。· 随机图:旨在对所观察图生成的图的概率分布进行建模。

2024-10-16 20:18:22 360

原创 pandas 数据分析实战

sort_index(axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True):沿某个方向。· keep=first表示将重读数据的第一次出现标记为false,keep=last表示重复数据最后一次出现标记为false,keep=false表示所有重复数据都是true。df[df[列名].isin([, , , ,])][列名].sum():找出满足条件的行。

2024-10-16 20:14:49 1163

原创 Uniapp API

显示模态弹窗,可以只有一个确定按钮,也可以同时有确定和取消按钮。类似于一个API整合了 html 中:alert、confirm。显示 loading 提示框, 需主动调用 uni.hideLoading 才能关闭提示框。url: `...../$参数/.....`, 其他不变。unishowToast({ obj参数 })7.数据缓存:storage。在任何界面都能调用缓存的数据。动态设置tabbar。一般用sync同步的。

2024-10-05 19:55:50 480 2

原创 六级翻译 高分笔记

航站楼设计紧凑,可以允许最大数量的飞机直按停靠在最靠近航楼中心的位置,这给乘客提供了极大的方便。海南岛风景秀丽,气候宜人,阳光充足,生物多样,温泉密布,海水清澈,大部分海 滩几乎全年都是游泳和日光浴的理想场所,因而被誉为中国的四季花园和度 假胜地,每年都吸引了大批中外游容。而英文中,一句话里,只能存在一个真正的谓语动词,剩下的动词要么时在从句里,要么以非谓语的形式出现。青藏铁路是世界上最高最长的高原铁路,全长1956公里,其中有960公里在海拔4000多米之上,是连接西藏和中国其他地区的第一条铁路。

2024-09-28 19:06:24 1172 1

原创 numpy数组与矩阵运算

重点在于对数组和矩阵的处理。

2024-09-28 17:50:36 1003 1

原创 python 数据类型、运算符、内置函数

list() tuple() dict() set():都是把其他类型数据转换为自己类型的。· map(func, *iterables):把func函数依次作用到序列的每个元素,不修改原序列,返回新的map对象 性质同上述range对象。· int():把浮点数转为整数,或,将整数字符串转为指定进制整数。· 元组:tuple,(,,,,)。· 集合运算符:交集、并集、对称差集、差集-----&、|、^、-。,可转换为列表、元组、集合,支持for遍历,支持索引、切片。· 集合:set,{,,,,,}。

2024-09-25 15:20:01 430

原创 深度学习参数管理

我们从已有模型中访问参数。当通过`Sequential`类定义模型时,我们可以通过索引来访问模型的任意层。net[0].weight.data[0], net[0].bias.data[0] #输出。# 我们需要给共享层一个名称,以便可以引用它的参数。# 确保它们实际上是同一个对象,而不只是有相同的值。· 检查第二个全连接层的参数。· 不同的层采用不同的初始化。# 检查参数是否相同。

2024-09-17 09:39:28 673

nuc软件工程导论期末

nuc软件工程导论期末

2024-06-20

nuc算法期末复习资料

nuc算法期末复习资料

2024-06-20

计网复习资料word版

计网复习资料word版

2024-06-05

大型语言模型在医疗领域的应用

大型语言模型在医疗领域的应用

2024-05-11

Pandas数据分析代码

Pandas数据分析代码

2024-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除