自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 CTGAN数据增强警告

在使用CTGAN进行数据增强时遇到了一些警告信息,这些警告与数据的特性和CTGAN的处理方式有关。: 建议保存元数据以确保未来SDV版本的可重复性。: 这是关于API变更的警告,提示使用新的。

2025-05-27 20:05:07 248

原创 在 Python 的字典配置中,区分 Excel 的 sheet 名称 和 sheet 索引

在 Python 的字典配置中,区分 Excel 的 sheet。如果你想用 sheet 的位置(例如第一个 sheet 是索引。如果你想用 sheet 的名字来指定,你需要提供一个。值用单引号括起来的,这意味着它们都被当作。等)来指定,你需要提供一个。(表示第一个 sheet),(表示第二个 sheet)。

2025-05-22 12:19:49 114

原创 grep 的全称与由来

(类似 “格雷普”)。在编程和命令行中,它已成为全球通用的术语,用于指代“基于正则表达式的文本搜索工具”。”(Jargon),其命名方式反映了 Unix 系统“简洁、组合”的设计哲学。(Acronym),其来源与 Unix 系统的历史和文本处理工具有关。(Ex Line Editor)中的一条命令:g/re/p。虽然 grep 不是标准单词,但通常按字母发音读作。“grep” 并不是一个独立的英文单词,而是一个。后来,人们将这三个部分组合成一个工具的名称,即。grep 来源于 Unix 早期文本编辑器。

2025-05-19 12:10:16 221

原创 Python 缩进知识点整理(新手友好版)

Python 使用缩进来表示代码块的层级结构,不同于 C/C++、Java 用 来标明代码块。缩进错误是初学者最常见的语法问题之一。

2025-05-17 20:17:08 151

原创 【无标题】return_sequences=False/True

参数设置输出形状(假设128个单元)应用场景(128,)序列整体分类/回归等全局任务(时间步数, 128)需要保留每一时间步特征的任务(注意力、编码器)如果接了后续的注意力机制(MultiHeadAttention),它需要访问所有时间步的表示,所以必须用。类比医生快速扫一眼看整体,只下一个结论仔细看每一帧,关注细节模型输出一个向量(整体总结)一串向量(每时刻都有)用途整体分类、回归时间定位、注意力、序列输出。

2025-05-10 15:55:08 431

原创 【pyhton】处理类别不平衡问题的权重字典

这段代码的作用是:计算并返回用于处理类别不平衡问题的权重字典,常用于训练模型时调整不同类别的影响力(比如在分类问题中让少数类更“被重视”)。定义一个方法 ,接收参数 (训练集的标签),属于某个类的方法(因为有 )。是文档字符串,说明这个函数的用途是:处理样本不均衡问题,通过为每个类别计算合适的权重。调用 函数进行类别权重计算:这个函数会返回一个权重数组,比如 ,表示第一个类别的权重是 0.5,第二个类别是 2.0(即第二类样本更稀少,所以权重大)。把上一步的数组转换成字典形式,例如:这个格式通常

2025-05-10 15:05:34 943

原创 【python】 defaultdict的解释

是一个“聪明”的字典,可以为不存在的键自动创建默认值,避免手动判断或初始化。

2025-05-10 14:47:23 348

原创 【python】设置 matplotlib 与 seaborn 图表的中文字体支持与美观样式

✅ 防止 matplotlib 画图时中文乱码。✅ 确保负号正常显示。✅ 设置图表字体大小与风格,让图表更美观、专业。✅ 便于调试和切换字体。matplotlib。

2025-05-10 14:04:03 581

原创 【python】类(class)、对象(instance)、方法(method)、属性(attribute)分别是什么?

这是调用一个类(),创建了一个实例对象(model),这个叫“实例化”。这不是创建类或对象,而是调用已有模型的一个方法,返回一些数值结果。

2025-05-08 16:09:37 321

原创 【python】model.evaluate() 和 compile() 之间的关系,.predict() vs .evaluate() 的区别

任务类型常见损失函数作用二分类衡量预测概率和真实标签之间的差异(比简单差值更合理)回归'mse'(均方误差)用平方差来衡量预测值和真实值之间的差异多分类衡量一个概率分布(预测)和目标分布之间的距离所以当你在.compile()Keras 在时就会按照交叉熵函数来计算每个y_pred和y_test之间的损失值,而不是简单地或平方差。损失函数定义了“什么叫预测得不好”,不同任务有不同标准,这就是它的价值。.predict().predict()是预测;

2025-05-08 15:44:53 896

原创 【python】built-in method(内建方法)

是 Keras 自带的内建方法,用于模型评估,不需要你手动实现。,而不是你自己写的。

2025-05-08 11:52:06 111

原创 【python】self.history = self.model.fit(...)

这里的是你类中的一个实例变量。它是你人为起的名字,你可以叫也都没问题。它用来接收返回的结果这个结果是一个Keras 内置的History对象。表达式含义是你自己定义的变量,用来接收的返回值是Keras自动生成的训练记录字典是训练过程中记录的每一轮损失值列表你从这个字典中取出了验证集上每轮的 AUC 指标值,它是一个列表(list)你可以用它来画曲线,看模型在验证集上的表现是否逐步提升。就是在画出验证集 AUC 的折线图。self.history → 是模型训练过程返回的对象(History)

2025-05-08 10:57:23 518

原创 「代码词典 · 一词一义」(六)ndarray,dict(字典)和key

场景关键词(Key)含义值(Value)含义Python 字典查的“词条”对应的“解释”注意力机制(QKV)被“问题”Query去查找/匹配的单位真正提取的有用信息(内容)数据库(key-value)主键/字段具体存储的数据。

2025-05-08 10:29:45 544

原创 【深度学习】在 Keras 中,模型的输出的查看和验证

通过以上方法,你可以清晰看到模型的多个输出,并确保它们在训练和预测时被正确处理。在 Keras 中,模型的。列会显示每个输出的形状。

2025-05-07 23:21:54 364

原创 【python】解包(unpacking)

解包”就是把多个输出值分别提取output[0]output[1],而不是直接写。

2025-05-07 23:15:55 316

原创 【模型训练】返回注意力权重,支持注意力可视化

写法是否灵活是否硬编码❌ 固定为 0.1✅ 是✅ 更灵活❌ 否特性返回注意力权重✅ 是❌ 否支持 Dropout 参数调整❌ 否,写死为 0.1✅ 是命名注意力层✅ 有❌ 无命名是否适合可视化✅ 非常适合❌ 不支持是否影响训练结果❌ 不影响(若不用于 loss)❌ 不影响。

2025-05-07 23:09:05 569

原创 【深度学习】compile() ,fit(),`binary_crossentropy`

编译(compile)就是配置模型的“训练规则”。使用什么优化器(如 Adam、SGD)来更新权重用哪个损失函数来计算“学得好不好”训练/验证过程要监控哪些指标就像准备工作,把模型架好、规则定好,才能开训。是用来衡量“你对1类预测得有多准”的标准,预测准 → 损失小,预测错 → 损失大,是神经网络学习的核心“指导信号”。

2025-05-07 22:58:45 916

原创 「代码词典 · 一词一义」(五)compile

项目编程语言(如 C++)深度学习(如 Keras)compile()做什么编译源码 → 机器码准备模型 → 可训练输入源代码(.cpp)神经网络结构输出可执行文件(.exe)已准备好的模型对象编译后能干啥?运行程序调用.fit()开始训练在 Keras 中的compile(),意思是“把你定义好的神经网络模型组织起来、准备好参数更新的规则、损失函数与指标评估方法,从而可以进入训练阶段”。虽然它不做“翻译成机器码”的那种编译,但本质上也是“整理+准备+变成可执行单元”的行为。

2025-05-07 22:56:30 585

原创 【python】model.summary()和model.outputs的介绍

加括号是“叫它做事”,像“让模型训练、预测”不加括号是“问它的状态”,像“看模型输出是啥”这是为了让代码逻辑更清晰、安全、可维护,是 Python 语言追求“简洁优雅”的体现。

2025-05-07 22:25:04 617

原创 【python】:SyntaxError: invalid syntax

这个错误是由于在 AttentionVisualizer.compare_attention_patterns() 方法中缺少右括号导致的语法错误。,但这行代码本身看起来语法上没问题。:用你编辑器的“转换为空格缩进”功能,统一缩进格式。这说明 Python 检查代码时发现某个地方的。是否缺冒号、括号、引号。

2025-05-07 20:32:47 439

原创 【python】什么是静态方法、动态方法,以及它们的使用场景和背后的设计思想

class就像是“人类”的设计图,定义了“人类”应该有啥功能(比如会说话、有名字等)__init__是创建对象时自动调用的“初始化函数”,用来给这个新对象贴上身份、设置初始状态。就像身份证出生时就打印好名字一样,是你注册对象的第一步。“实例属性”就是某个对象(实例)自己拥有的变量,不是大家共有的,是它自己独有的。class Dog:self.name = name # name 就是实例属性print(d.name) # 输出:Cocoself.name就是d这个狗狗对象自己的名字。

2025-05-07 10:55:38 547

原创 Scaled Dot-Product Attention

其实就是:在一个序列内部,每个位置(Token)去关注其它位置(Token)对它的重要程度。举个例子,你输入一个长度为 5 的序列:那么 Token C 就会去问:“A 对我有没有帮助?B 对我有没有帮助?……E 呢?每个位置都在“看自己这个序列中的其它位置”,这就是“自”注意。它的成立依赖于:相互独立;两者都服从标准正态分布(或任意均值为 0,方差为 1 的分布);方差公式的基本性质。这说明点积结果的波动(方差)会随着维度增长而增长。点积的方差与维度成正比。

2025-04-25 11:43:50 1009

原创 “编码-解码-注意力机制”到底是怎么回事

在深度学习中,特别是在处理序列数据(文本、时间序列、医学信号等)时,“编码器”是一种将原始输入(通常是符号、序列、图像等)转换为某种“内部表示”的结构。概念说明编码更精确地说是“提取特征/压缩语义”,不是只是输入数字解码更准确说:根据c或 attention 加权输入,生成目标输出注意力机制是“选择性关注输入的不同部分”而不是只用一个c向量。

2025-04-24 18:09:01 847

原创 在注意力机制里,为什么是 Q · K(Query 和 Key 的点积)

向量减法得到的是差距方向和大小,但不反映方向相似度,结果是一个向量,不能直接被 softmax 接收;而点积直接得到一个标量的相似度分数,正好适合 softmax 做概率分配。

2025-04-24 17:54:09 632

原创 点积(Dot Product)和叉乘(Cross Product)

名称点积 Dot Product叉乘 Cross Product适用维度任意维仅限 3维结果类型标量(数)向量用途相似度、投影、注意力机制垂直方向、物理量是否对齐越对齐点积越大越垂直叉乘越大%20a_nb_n。

2025-04-24 17:44:31 204

原创 深度碎念(二):Sigmoid 和Softmax

一个数值(比如从神经元输出的某个分数)。常用于中,把输出映射为一个“属于某个类的概率”。

2025-04-24 17:36:27 167

原创 深度碎念(一):Embedding 层

简单解释:什么是 Embedding 层?

2025-04-24 15:28:59 698

原创 「代码词典 · 一词一义」(四)epochs和batch_size

参数名单词本意机器学习里的含义epoch时代、纪元完整看一遍数据集epochs=50训练 50 遍batch一批、一炉、一组一次送入模型的样本数量一次看 32 个样本。

2025-04-23 22:15:59 329

原创 timestamp = datetime.now().strftime(“%Y%m%d_%H%M%S“)

内置格式化代码就是把时间变成形如的字符串,方便用于命名文件或记录时间,里面的是一套标准时间格式代码,大小写代表不同时间单位。这样写的优点:没有斜杠、冒号这些在文件名中不合法的符号。方便排序(从上到下就是年、月、日、小时、分钟、秒)一眼看出文件是什么时候生成的。

2025-04-23 21:57:27 591

原创 「代码词典 · 一词一义」(三) timestamp和verbose

verbose=1就是“让我看看你在干啥,但别太啰嗦”,是介于“完全静音”和“疯狂输出”之间的中间状态。

2025-04-23 21:47:57 319

原创 train_and_evaluate 代码详解

def: Python关键字,定义函数train_and_evaluate: 函数名称,表示"训练和评估"model: 参数,接收要训练的Keras模型对象model_name: 参数,字符串类型,用于标识模型名称loss_fn: 参数,损失函数(如交叉熵或focal loss)X_train_normalized: 参数,标准化后的训练集特征数据y_train: 参数,训练集标签X_test_normalized: 参数,标准化后的测试集特征数据y_test: 参数,测试集标签epoch

2025-04-23 21:33:24 956

原创 「代码词典 · 一词一义」(二) metric

metric。

2025-04-23 18:03:14 160

原创 val 和 test的区分

集合类型比例主要用途是否参与训练是否调节模型是否用于最终评估train60%模型学习✅❌❌val20%调参、EarlyStopping判断❌✅❌test20%最终性能评估❌❌✅。

2025-04-23 11:40:59 559

原创 范数(L1、L2、L∞范数)

补充一下范数的内容,当时上矩阵论课时学的,现在复习一下,之前LSTM文献中(1997),关于梯度消失的推导中有涉及到。

2025-04-21 21:36:17 583

原创 「代码词典 · 一词一义」(一)astype() 转换类型 + bincount() 统计频次

✅astype全称可以理解为astype是 NumPy 中的函数,用于。intfloatboolstr,等等。

2025-04-21 21:17:32 443

原创 python实现LSTM(一):加载数据

将原始数据拉平成一维数组(比如(1000,1) 变成 (1000,):将原始数据拉平成一维数组(比如(1000,1) 变成 (1000,)注意这里读取的维数会发生变化,我的原数据是(time,ch,n):函数的输入参数,分别表示标签为 1 和标签为 0 的文件路径。好像差不多,都是“1000 个数”,但实际上它们的结构是。所以维度变化的根源是:“读取时的内存解释方式不同”,:上下文管理器(自动打开并关闭文件,防止资源泄漏):变量名,代表打开的文件对象(里面可以。(也就是第1维))再第2,再第3。

2025-04-21 21:08:00 968

原创 构建和训练LSTM时常用模块的导入

导入对象类型作用描述回调函数早停策略,防止过拟合回调函数自动保存最优模型LSTM层(Layer)循环神经网络处理时序数据Dense层全连接层,常用于输出层Dropout层随机丢弃神经元,防止过拟合Sequential模型容器顺序堆叠的神经网络结构Adam优化器稳定高效的训练优化器。

2025-04-21 16:11:01 360

原创 LSTM 论文(Hochreiter & Schmidhuber, 1997)精读(五)

👉 使用一个与向量范数兼容的矩阵范数。:是某一时刻的导数矩阵,来自反向传播中激活函数的导数(例如 sigmoid 的导数)。它是一个对角矩阵,形如:然后我们对这些矩阵求范数(即),再在所有。

2025-04-20 19:37:34 784

原创 LSTM 论文(Hochreiter & Schmidhuber, 1997)精读(四)

当前时刻某个非输出神经元的误差由下一时刻的误差反传回来,然后再用这个误差乘以上一时刻输入,乘以学习率,去更新连接到它的权重。sigmoid 的导数最大是 0.25(出现在输入是0的时候)输入一旦偏大或偏小,导数很快就趋近于 0(函数进入“饱和区”)所以在反向传播时,链式法则中一堆导数连乘:每个,乘多了就会接近 0 ⟶梯度消失即使你:把权重初始化很大(但这样会让 sigmoid 饱和,反而导数变得更小)学习率设置很大(只会加快训练,但不会解决梯度传不回来的问题)

2025-04-18 21:01:51 1201

原创 LSTM 论文(Hochreiter & Schmidhuber, 1997)精读(三)

仍难以学习长期依赖。继续回顾了。

2025-04-18 11:56:46 1125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除