- 博客(50)
- 收藏
- 关注
原创 pythonstudy Day47
我们之前在训练中发现,准确率最开始随着epoch的增加而增加。随着循环的更新,参数在不断发生更新。如果别人在某些和我们目标数据类似的大规模数据集上做过训练,我们可以用他的训练参数来初始化我们的模型,这样我们的模型就比较容易收敛。为了帮助你们理解,这里提出几个自问自答的问题。因为任务差不多,他提取特征的能力才有用,如果任务相差太大,他的特征提取能力就没那么好。所以本质预训练就是拿别人已经具备的通用特征提取能力来接着强化能力使之更加适应我们的数据集和任务。
2026-01-01 13:54:36
700
原创 pythonstudy Day38
当总 epoch=20000,而你记录次数只有 10/20/100/200 这种量级时,单次记录的开销如果是毫秒级~几十毫秒级,摊到每 step 上可能非常小,最后 ETA 的差异就会被平滑/抹掉,呈现出“差不多都 10 秒”。记录很不频繁(间隔大):GPU 可以异步跑很久,你以为“没同步所以更快”,但到你下一次 .item() 时,CPU 可能要一次性等更久(把之前积压的队列都跑完)。而你记录的“剩余时长”往往是平滑后的平均值,它看到的是:尖峰被摊薄后差不多,自然就“不线性”。
2025-12-17 16:44:24
851
原创 pythonstudy Day37
定义一个简单的全连接神经网络模型,包含一个输入层、一个隐藏层和一个输出层。定义层数+定义前向传播顺序class MLP(nn.Module): # 定义一个多层感知机(MLP)模型,继承父类nn.Moduledef __init__(self): # 初始化函数super(MLP, self).__init__() # 调用父类的初始化函数# 前三行是八股文,后面的是自定义的self.fc1 = nn.Linear(4, 10) # 输入层到隐藏层。
2025-12-16 16:06:36
463
原创 pythonstudy Day35
昨天我们已经介绍了如何在不同的文件中,导入其他目录的文件,核心在于了解导入方式和python解释器检索目录的方式。搞清楚了这些,那我们就可以来看看,如何把一个文件,拆分成多个具有着独立功能的文件,然后通过import的方式,来调用这些文件。
2025-12-14 21:47:09
714
原创 pythonstudy Day34
模块(Module)本质:以.py结尾的单个文件,包含Python代码(函数、类、变量等)。作用:将代码拆分到不同文件中,避免代码冗余,方便复用和维护。包(Package)在python里,包就是库本质有层次的文件目录结构(即文件夹),用于组织多个模块和子包。核心特征:包的根目录下必须包含一个文件(可以为空),用于标识该目录是一个包。
2025-12-13 14:52:22
677
原创 pythonstudy Day33
在过去的 29 天 Python 学习中,我系统地学习了函数与类这两个非常重要的知识点,也逐渐对 Python 这门工具型语言有了更深入的认识。希望在后续学习中,能够将函数和类真正应用到更复杂的项目中,进一步理解它们在实际开发中的价值,为之后更高阶的学习打下扎实基础。在这 29 天的学习中,我逐渐认识到 Python 不仅是一门编程语言,更是一种高效的工具。相比函数,类的学习难度更高一些,但同时也让我对程序的结构有了全新的认识。回顾这 29 天的学习过程,我最大的感受是:编程是一个循序渐进的过程。
2025-12-12 15:52:10
381
原创 pythonstudy Day29
SHAP 通过计算每个特征对单个预测(相对于平均预测)的边际贡献(Shapley 值),提供了一种将模型预测分解到每个特征上的方法。这种分解对于每个样本和每个特征(以及分类问题中的每个类别)都需要进行,因此生成了我们看到的。SHAP (SHapley Additive exPlanations) 的核心基于博弈论中的。理解复杂机器学习模型(尤其是“黑箱”模型,如随机森林、梯度提升树、神经网络等)SHAP 提供了一种统一的方法来解释模型的输出。根据上述原理,SHAP 需要为。SHAP 的一个重要特性是。
2025-12-07 15:48:13
827
原创 pythonstudy Day28
Python的异常处理机制为程序提供了强大的容错能力 (fault tolerance)。当程序在运行时遇到意外情况(即异常),它不会直接崩溃,而是可以被设计成优雅地处理这些错误,并可能继续执行后续逻辑(如果设计允许)或以可控的方式结束。当异常发生时,Python会创建一个异常对象 (exception object)(通常是 Exception 类的子类实例)。如果这段可能出错的代码位于 try 语句块中,程序流程会寻找并跳转到匹配的 except 语句块(如果存在)来处理这个异常。
2025-12-06 18:11:38
950
原创 pythonstudy Day25
机器不懂“时间越短越好,准确率越高越好”,我们需要手动告诉它哪些是效益型(越大越好),哪些是成本型(越小越好)。同时,为了避免后续计算ln0\ln(0)ln0出错,我们需要做一个极小值处理。# --- 模块一:准备工作(回归版) ---# 1. 区分指标类型(回归指标)# 效益型指标 (越大越好):R2# 成本型指标 (越小越好):RMSE、MAE、训练时间# 2. 复制一份数据用于计算,保留原始数据用于展示# 3. 数据类型转换(确保是浮点数,方便计算)
2025-12-01 10:47:02
1005
原创 pythonstudy Day22
我们正式进入回归问题 (Regression) 的篇章。和分类问题(猜它是谁)不同,回归问题的核心是。(预测一个连续的数值,比如房价、气温、销量)。
2025-11-28 16:31:20
172
原创 pythonstudy Day20
皮尔逊相关系数筛选是一种基于特征与目标变量之间相关性的特征选择方法。它的核心逻辑是:计算每个特征与目标变量之间的相关系数(范围在-1到1之间,值越大表示正相关越强,值越小表示负相关越强,接近0表示几乎无关),然后根据相关系数的绝对值大小,选择与目标变量相关性较高的特征,剔除相关性较低的特征。它的核心逻辑是:特征的方差反映了数据的变化程度,方差很小的特征几乎没有变化,对模型的预测帮助不大。因此,方差筛选会设定一个方差阈值,剔除方差低于这个阈值的特征,保留那些变化较大的特征,从而减少特征数量,提高模型效率。
2025-11-26 14:56:09
744
1
原创 pythonstudy Day17
@疏锦行今天的主题是无监督算法中的聚类,常利用聚类来发现数据中的模式,并对每一个聚类后的类别特征进行可视化,以此得到新的特征—赋予实际含义。上述内容分成2天的内容来说,今天说聚类算法,明天说基于聚类进一步推断类型。聚类评估指标介绍以下是三种常用的聚类效果评估指标,分别用于衡量聚类的质量和簇的分离与紧凑程度:KMeans 是一种基于距离的聚类算法,需要预先指定聚类个数,即 。其核心步骤如下:我和大家说下上面这几个图怎么看,综上,选择6比较合适。
2025-11-23 20:11:57
900
原创 pythonstudy Day16
本文基于信贷数据,比较了不同机器学习模型的评估指标,并绘制了ROC曲线和PR曲线。首先对数据进行预处理,包括标签编码、独热编码和缺失值填充。然后使用LightGBM分类器进行建模,输出分类报告和混淆矩阵。特别对混淆矩阵进行可视化展示,解释其四个关键指标(TP、FP、TN、FN)的含义,通过热力图直观呈现模型预测结果。结果表明,ROC和PR曲线能有效评估模型在不同阈值下的性能表现,为信贷风险评估提供重要参考。
2025-11-21 17:42:07
933
1
原创 pythonstudy Day15
在机器学习任务中(不包含深度学习),数据不平衡指的是分类问题中,不同类别数目不同导致模型会侧重于学习多数类的信息,而忽略少数类信息的学习。标准算法的优化目标(如最小化整体误差)会使其优先拟合多数类,因为这样做能更快地降低总误差。对少数类样本的识别能力不足(低召回率),即使整体准确率看起来很高。处理不平衡数据的方法主要分为三大类:数据层面、算法层面和评估指标层面。1.数据层面:通过调整训练集的类别分布来缓解不平衡问题。●过采样:增加少数类的样本数目—smote插值、随机过采样。
2025-11-19 18:20:56
847
1
原创 pythonstudy Day14
在很多现实问题中,我们往往需要同时优化多个目标,而这些目标常常是相互冲突的。在投资中,我们希望收益率最高,同时风险最低。在制造业中,我们希望产品质量最好,同时生产成本最低。在机器学习中,我们希望模型的精确率(Precision)和召回率(Recall)都尽可能高。这种需要同时平衡多个冲突目标的问题,就是多目标优化(Multi-Objective Optimization)。
2025-11-17 15:48:30
867
1
原创 pythonstudy Day12
知识点总结:1.字典的items方法,注意和enumerate(iterable)的区别2.简单的解包思想:通过items方法解包字典,将集合元素分散到变量中3.随机森林的基础思想和关键参数4.贪婪思想5.贝叶斯可视化作业:对其他模型尝试贝叶斯可视化,并且选择一个模型试着去理解它背后的思想。
2025-11-13 19:56:48
311
原创 pythonstudy Day11
方法原理优点缺点适用场景网格搜索穷举所有参数组合能找到最优解计算量大,维度灾难参数空间小,计算资源充足随机搜索随机采样参数组合效率高于网格搜索可能错过最优解参数空间大,中等计算资源贝叶斯优化基于概率模型智能搜索高效,收敛快实现复杂参数空间大,计算资源有限。
2025-11-11 19:59:18
957
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅