- 博客(94)
- 收藏
- 关注
原创 神经网络中学习率调整的不同方法
在模型训练开始时,选择一个适当的初始学习率非常重要。学习率衰减(Learning Rate Decay):在训练过程中逐步减小学习率,可以帮助模型更好地收敛到全局最优解。在训练初期,逐步增加学习率至设定的初始学习率,然后再开始正常的学习率调度。使用一些自适应优化算法(如Adam、RMSprop等)也可以动态调整学习率,从而提高训练效果。ExponentialLR:每个epoch后,按一个固定的衰减率乘以当前学习率。StepLR:每过一定数量的epochs后,将学习率按一个固定的衰减因子降低。
2024-08-05 10:03:07 509
原创 深度学习中的早停法
当验证集损失值低于当前最佳损失时,更新最佳损失并重置耐心计数器。如果验证集损失连续不降,耐心计数器超过设定的耐心值时,早停就会被触发,训练过程停止。当验证集损失连续几个epoch没有下降或者停止减少时,表示模型可能已经过拟合或者陷入局部最优点,这时候早停就会被触发。早停法(Early Stopping)是一种用于防止模型过拟合的技术,在训练过程中监视验证集(或者测试集)上的损失值。总结来说,早停的设立限制是基于耐心参数和最佳损失值,用来判断模型是否应该停止训练以避免过拟合。每次验证后,如果当前的。
2024-08-04 22:04:35 353
原创 如何提高深度学习中数据运行的稳定性
在深度学习中,模型的训练通常会受到随机性因素的影响,如参数初始化、数据加载顺序等。这会导致每次训练得到的结果有所不同。通过增加训练轮数(epochs),可以让模型在数据上更充分地训练,从而减少不稳定性。通过设置随机种子,可以使得每次训练过程中的随机性操作(如参数初始化、数据加载顺序等)保持一致,从而提高结果的稳定性。通过 K 折交叉验证,可以更全面地评估模型的性能,从而减少由于训练数据集划分带来的不稳定性。此时要进行修改的是batch_size的大小,指的是一次性选取的样本数量为多少。
2024-08-04 17:34:10 312
原创 深度学习中提升准确率常见的优化方式
增加模型复杂度:增加 CNN 层数或 Transformer 层数,增加通道数或隐藏层大小等,虽然这会增加计算量,但可能提高模型的表达能力。在深度学习中为了提升模型的性能,常见的优化方法有很多,本文以提升皮尔逊相关系数(PCC)为例举出常见的一些方法,希望能帮到大家。学习率调度:使用学习率调度器(如 ReduceLROnPlateau)在训练过程中动态调整学习率。数据增强:在训练过程中对数据进行增强,如添加噪声、随机裁剪等。尝试不同的学习率:例如,使用学习率调度器来自动调整学习率。
2024-08-04 11:52:52 395
原创 使用plink和git进行数据处理
在基因型数据处理过程中,看到vcf文件后首要做的就是将vcf文件转成二进制文件,输入命令 plink --vcf genotype.vcf --allow-extra-chr --recode --out test 之后,转化为了如下图所示四种类型的文件,其中有map和ped文件。通过执行命令 plink --file test --allow-extra-chr --missing 检查基因型和样本缺失值情况,命令显示缺失值情况文件已被写入plink.lmiss文件。对个体执行缺失控制,执行命令。
2024-08-01 20:37:16 349
原创 Git和plink
安装plink时也是根据自己电脑的版本号选择进行安装,我的是windows的64位,由此选择以上版本进行安装,这一个下载完成之后不会出现所谓的APP标识,只会在文件夹中显示出来,完成之后就是确认是否安装成功。在工作路径下执行 mkdir ~/bin 创建bin文件夹 ,若已经存在的话会显示文件夹已存在。找到安装plink所在文件夹的右键选择Git Bash Here即可进入到Git界面,执行cp plink.exe ~/bin/ 将plink复制到bin文件夹下。,点击便会自动进行下载。
2024-05-22 16:05:08 658 1
原创 Deep-gami部分代码解读
这个函数的目的是计算分类任务的性能指标,可以根据任务类型选择计算二分类或多分类问题的 AUC,并返回准确率和平衡准确率。如果任务类型为二分类(task=='binary'),则使用 skm.roc_auc_score() 函数计算二分类问题的 AUC,并将结果保存在 auc 变量中。然后,使用阈值 0.5 对预测分数进行二值化,即将大于等于 0.5 的预测分数标记为 1,小于 0.5 的预测分数标记为 0,将结果保存在 y_pred 变量中。首先,使用 np.argmax() 函数找到每个样本的预测类别。
2024-05-14 16:52:19 913
原创 解读简单的一段深度学习代码(已跑通)
最近一直想要学习深度学习的内容,想要复现大佬的代码,试了好多有的是不给数据,有的总是跑不通,这一个是已经跑通的一个代码,以上为证,学习最快的方式就是直接实战,大部分的内容都是比较偏向于理论,个人还是偏向于直接跑通代码,这部分代码相对比较容易理解,从头到尾逐行剖析它的每一行代码。这样可以保存训练过程中损失最小的最优模型,在模型训练过程中我们会选择让模型迭代多少次,后一次循环结束之后的损失值小于前一次时便会自动进行保存最好的模型。通过预训练权重的载入,可以在保留学习信息的基础上优化模型,而不是从零开始训练。
2024-05-05 20:03:48 909
原创 Pytorch中的张量
几何代数中定义的张量是基于向量和矩阵的推广,比如我们可以将标量视为零阶张量,矢量可以视为一阶张量,矩阵就是二阶张量。张量维度代表含义0维张量代表的是标量(数字)1维张量代表的是向量2维张量代表的是矩阵3维张量时间序列数据 股价 文本数据 单张彩色图片(RGB张量是现代机器学习的基础。它的核心是一个数据容器,多数情况下,它包含数字,有时候它也包含字符串,但这种情况比较少。因此可以把它想象成一个数字的水桶。3维 = 时间序列4维 = 图像5维 = 视频。
2024-05-01 10:58:08 687
原创 文件读取方式中是否加 “./“ 的变化
所以总体来说,添加"./"更稳妥,因为明确指定从脚本目录开始查找文件,不依赖于脚本运行时的其他环境变量。如果csv文件不在脚本同目录,而是在脚本上一级目录或其他目录,则必须添加"./"指定路径,否则pd.read_csv无法找到文件而报错。"./":更明确指定是从脚本目录开始查找,不需要考虑脚本运行时的当前工作目录是否和脚本同目录。如果脚本和csv文件在同一个目录下,添加与不添加"./"效果是一样的,都可以正确读取文件。不添加,依赖于脚本运行时当前工作目录,如果工作目录变了,可能导致无法找到文件。
2024-04-29 07:22:24 191
原创 出现报错 Keras 3 only supports V3 .keras and .weights.h5 files
使用保存该模型文件的Keras版本来加载权重文件。比如如果用Keras 2.x保存的,就使用Keras 2.x版本加载。以上分别是我修改之前和修改之后的代码,在保存修改之后,一定要记得从开始重新进行加载运行,不要只运行这一部分代码。这通常意味着你正在使用Keras 3.0尝试加载一个早期版本Keras(如2.x版本)保存的模型权重文件。由于文件格式在不同Keras版本之间有变化,所以Keras 3.0不能识别早期版本保存的文件。经过多方修改后,是因为新安装的keras版本较新,与之前文件的保存格式不同。
2024-04-28 21:29:34 1205
原创 Datawhale-相似度匹配-调用智谱AI api
这中间当然经历了比较多的探索,一直到如今的大模型时代,对模型输入任意一句话,它都能给我们返回一个非常不错的表示,而且依然是固定长度的向量。当然,在实际使用时,往往不会这么简单的用1/0来表示,因为每个字在句子中的作用是不一样的,所以一般会给不同的Token赋予不同的权重。其实在实际应用中我们知道每个字出现的频率是不同的,有的字是常用,有的不经常用。如果每句话都和以上的表达一样的话,那每一个字在表示时只有一个序号不为0,维度就会很高,所以此时为了解决以上的问题,就有了我们所说的Embedding方法。
2024-04-27 16:30:00 970
原创 Datawhale ChatGPT基础科普
根据课程摘写自己不懂得一些地方,具体可以再到以上项目地址LM:这是ChatGPT的基石的基石。Transformer:这是ChatGPT的基石,准确来说它的一部分是基石。GPT:本体,从GPT-1,一直到现在的GPT-4,按OpenAI自己的说法,模型还是那个模型,只是它长大了,变胖了,不过更好看了。关于这点,大家基本都没想到。现在好了,攀不上了。RLHF:ChatGPT神兵利器,有此利刃,ChatGPT才是那个ChatGPT,不然就只能是GPT-3。
2024-04-23 22:42:41 1004
原创 简单应用题
题目如上图所示,给的初始代码是这样的,输入课程名称及考分信息后注意这里是使用空格进行分割,所以这里我们要根据输入的空格进行分割,使用字典来完成这个题的解答。6.计算平均值的话,对所有的键值进行相加求和再除以总的科目数,经过split函数划分之后为字符串形式,计算总的分数进行相加的时候要转化为整数再进行相加。5.排序完后此时的排序是按照从高到低的顺序进行排列,根据文章需要的最高分和最低分开始进行选择。1.首先定义一个空的字典来进行存储键值和键名,然后输入的数据开始进行循环。
2024-03-24 12:42:07 400
原创 2024第二套Python操作题
首先两个库都要进行引用,使用 r.seed 设定一个种子,t.pencolor 设定雪花的颜色,此时看清题目中要求的是绘制4个雪花,确定range的取值范围。penup是起笔,goto 是起到画笔的位置,pendown是停笔,fd是往前走,backward是回来。
2024-03-24 00:03:00 343
原创 2024Python计算机二级13
区分二叉树与完全二叉树,前序序列是先访问根节点再访问左子树和右子树,中序序列是访问左子树,根节点,右子树,后序序列是访问左子树、右子树,最后访问根节点。join()方法需要组合数据内部的元素是字符串类型,而程序中列表是数字类型。此时是前边的循环条件不满足的便不执行后边的输出,符合条件的此时只有两个。join进行连接的形式一定是字符串形式的,split切分后会形成列表形式。一维数据采用线性方式组织,集合不属于线性结构。快速排序每经过一次元素的交换会产生新的逆序。这个最小值和最大值不太明白是怎么操作出来的。
2024-03-23 16:49:53 314
原创 2024计算机二级Python 11和12
对于在函数外部定义的全局变量,若该变量为简单类型变量,在函数内部使用时需要提前使用保留字global声明其为全局变量。对于all()只要组合变量中存在值为0的元素,结果变为False,对于any()如果所有元素有一个值非0,那么结果就为True。单向列表不能再回头,只有从头指针开始才可以,双向列表会出现重复访问,二叉树节点从根开始可以达到目的。是数据库系统的核心,位于用户与操作之间,从软件分类的角度来说属于系统软件。列表对象的赋值就是简单的对象引用,一个被清空以后,另一个也被清空。
2024-03-21 17:21:12 584
原创 2024Python计算机二级7
如果front>rear,则队列中的元素个数为rear-front+m,不论它们大小关系如何都是它们进行相减,出现负数之后就再进行相加。带符号的定点数之中,正数的原码、补码和反码均相同,负数的反码是对该数的原码除符号位外各位取反,补码是在该数的反码的最后(即最右边)一位上加1;整数运算的结果可能是浮点数,除了除法之外数字类型再进行运算都会是两者之间最高等级的数据类型,比如复数高于浮点数高于整数。Django是用于web开发方向的第三方库,moviepy是用于视频剪辑,pefile用来专门解析PE文件。
2024-03-21 11:31:09 245
原创 2024Python计算机二级9和10
正数的原码、补码和反码均相同,负数的反码是对该数的原码除符号位外各位取反,补码是在该数的反码的最后一位上加1,正数或者负数的符号位取反即是漂移码。所有的器件中存储器的速度很慢,CPU访问一次内存所花的时间较长,通常用内存中读取一个指令字的最短时间来规定CPU周期,也成为机器周期。每次打印出最大值之后就会把一个最大值再删掉,此时保证了每一个值都是不相同的,不会导致每次都是相同值。但是此时又不太明白这个字典的键是如何比较的,根据索引序号吗。参数是字典时,返回的是字典的键的最大值。
2024-03-21 11:30:21 402
原创 2024计算机二级Python6
根据这个第一问来看的话还是不难的,这里文件的打开方式没有使用read.txt等打开方式,计算机二级的选择题也是一直在考察使用open来打开文件的用法,此时考生文件夹中不存在studs.txt,使用写的方式打开会进行创建。此时在判断输入的整数n是奇数还是偶数时,我觉得这两种做法都是可以的,或许是因为0的缘故。整体来看的话还是不难的,首先将输入的数据进行类型转换,设立一个空的s,然后开始对ls中的元素进行遍历,如果数据类型相同的话,都是字符串类型,便进行拼接。存储多信息的数据最适合的是列表数据类型。
2024-03-20 15:57:38 424
原创 2024计算机二级Python8
二叉树属于非线性结构 ,完全二叉树也是属于二叉树的。队列属于线性结构,循环队列也属于线性结构。在数据库的数据模型中,面向数据库管理系统且着重于数据在数据库系统一级实现的是逻辑模型。此时的结果为何只能是浮点数或者复数呢,为何不能是整数,整数属于浮点数吗,带着小数位。doit是任务管理和自动化的第三方库,NLTK是自然语言处理的第三方库。长期存储在计算机内、有组织的、可共享的大量数据集合是数据库。参数是表达式的时候会先计算出结果,再进行转换。对列表进行切片后获取到的元素依然是列表。字符串根据索引位置比较大小。
2024-03-18 21:26:40 309
原创 2024计算机二级6
9.关于Python组合数据,组合数据根据数据的关系分为序列类型、集合类型和映射类型,其中序列类型又包括字符串、元组和列表。8.在函数内部引用数字类型全局变量时,必须使用global保留字声明,在函数内部引用组合类型全局变量时,可以不通过global保留字声明。10.列表可以表示多维数据,二维数据可以看成是多个一维数据的组合,CSV格式文件既能保存一维数据,也能保存二维数据。7.在Python语言中,函数中形参的定义顺序一般为,位置参数、默认参数及可变参数,带*的为可变参数。
2024-03-15 19:58:34 337
原创 2024计算机二级5
允许多个联机用户同时使用一台计算机系统进行计算的操作系统属于分时操作系统。通过总线与内存、外设等进行连接,根据逻辑判断的话假如A对的话B、C也会对。按照字符串类型输入后,去掉引号之后会将其解释为变量。关系数据库中的键是指能唯一识别元组的最小属性集。区分是在函数内部还是外部,内部变量与外部变量。脚本语言将源代码逐条转换成目标代码并进行运行。返回值是对象的内存地址,属于数字类型。去掉字符最左侧和最右侧出现的字符。没有return则没有返回值。边界值分析属于黑盒测试。
2024-03-15 12:18:54 173
原创 2024计算机二级4
不将元素入队时循环队列可能为空也可能为满,可以将元素入队证明不为满,一共将两个元素成功入队。属性班级学生还可以细分为学生学号和学生姓名,第一属性是指其中的每个属性都不能再分为简单项。虽然一个团长可以担任多个社团的团长,但是对于一个团长来说是一对多的关系。此时是说的取值范围,不是指具体的range函数。有可能是最后一个元素或者查找的元素不在表中。采用二进制方式打开文件时,文件被解析为字节流。将文件名转化为文件存储地址的结构是文件目录。虽然可以相互转化,区分遍历循环和无限循环。
2024-03-14 23:20:40 153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人