Freya冉冉-CSDN博客

原创【PYTHON学习】SVD奇异值分解DAY20

知识点回顾：知识点回顾：线性代数概念回顾奇异值推导奇异值的应用特征降维：对高维数据减小计算量、可视化数据重构：比如重构信号、重构图像（可以实现有损压缩，k 越小压缩率越高，但图像质量损失越大）降噪：通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵，可以达到一定程度的降噪效果。推荐系统：在协同过滤算法中，用户-物品评分矩阵通常是稀疏且高维的。SVD (或其变种如 FunkSVD, SVD++) 可以用来分解这个矩阵，发现潜在因子 (latent factors)，从而预测未评分的项。

2025-10-14 04:21:40 727

原创【PYTHON学习】常见的特征筛选算法DAY19

分类：方差筛选皮尔逊相关系数筛选lasso筛选树模型重要性shap重要性递归特征消除REF过去电脑性能比较差，特征数目太多计算起来很慢。同时特征中可能存在很多冗余特征干扰解释性、存在噪声特征干扰精度。所以在面对高维特征的时候常常需要引入特征降维，我们之前课程中的项目的特征也就小几十个，不太需要做降维，对于某些特征较多的数据，如基因数据、微生物数据、传感器数据等，特征较多，所以会考虑特征降维。

2025-10-13 04:07:56 693

原创【PYTHON学习】推断聚类后簇的类型DAY18

聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值。

2025-10-12 20:13:07 671

原创【PYTHON学习】常见聚类算法DAY17

知识点聚类的指标聚类常见算法：kmeans聚类、dbscan聚类、层次聚类三种算法对应的流程实际在论文中聚类的策略不一定是针对所有特征，可以针对其中几个可以解释的特征进行聚类，得到聚类后的类别，这样后续进行解释也更加符合逻辑。聚类的流程1.标准化数据2.选择合适的算法，根据评估指标调参（）KMeans 和层次聚类的参数是K值，选完k指标就确定DBSCAN 的参数是 eps 和min_samples，选完他们出现k和评估指标以及层次聚类的 linkage准则等都需要仔细调优。

2025-10-11 00:10:08 1004

原创【PYTHON学习】Numpy数组的常见操作和形状DAY16

方法作用范围 / 分布记忆口诀典型应用场景示例生成[a, b)区间的整数“int”结尾 → 整数生成随机索引、分类标签→7[0, 1)区间的浮点数纯“random” → 最基础简单概率模拟、掷硬币→0.548[0, 1)的均匀分布蒙特卡洛模拟、概率试验→标准正态分布（μ=0, σ=1）多一个“n” = normal数据标准化、深度学习参数初始化→一般正态分布可自定义均值(loc)与标准差(scale)模拟噪声、统计建模→例子。

2025-10-10 04:24:58 667

原创【PYTHON学习】复习日：自行寻找数据Day15

电价预测与局部可解释性分析项目 Electricity Price Forecasting with Local Interpretability (LIME)

2025-10-04 16:59:42 881

原创【PYTHON学习】SHAP图的绘制Day14

参考帖子：SHAP 可视化解释机器学习模型简介_shap图-CSDN博客官方：Welcome to the SHAP documentation — SHAP latest documentationhttps://shap.readthedocs.io/en/latest/example_notebooks/tabular_examples/tree_based_models/Census%20income%20classification%20with%20XGBoost.html参考：https://

2025-10-01 22:49:56 756

原创【PYTHON学习】不平衡数据的处理Day13

在交叉验证cross_validate里，默认只会返回一个分数（通常是 accuracy）,但是光看accuracy会误导。所以我们要告诉交叉验证：除了accuracy，还要算少数类的precision/recall/f1。scoring可以是。

2025-09-30 22:55:03 1091

原创【PYTHON学习】超参数调整专题2-启发式算法Day12

超参数调整专题2三种启发式算法的示例代码：遗传算法、粒子群算法、退火算法学习优化算法的思路（避免浪费无效时间）

2025-09-29 22:11:13 1038

原创【PYTHON学习】常见的调参方式-Day11

超参数调整专题1知识点回顾网格搜索随机搜索（简单介绍，非重点实战中很少用到，可以不了解）贝叶斯优化（2种实现逻辑，以及如何避开必须用交叉验证的问题）time库的计时模块，方便后人查看代码运行时长。

2025-09-25 15:46:07 995

原创【PYTHON学习】机器学习建模与评估-Day10

知识点：数据集的划分机器学习模型建模的三行代码机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。

2025-09-23 18:10:20 782

原创【PYTHON学习】热力图和子图的绘制-Day9

知识点：热力图和子图的绘制介绍了热力图的绘制方法介绍了enumerate（）函数介绍了子图的绘制方法。

2025-09-17 03:08:27 725

原创【PYTHON学习】标签编码与连续变量处理DAY8

字典的简单介绍标签编码连续特征的处理：归一化和标准化至此，常见的预处理方式都说完了复盘1. 读入 & 基本检查：行列数、列名、类型、缺失值。2. 处理缺失3. 划分训练/测试：保证评估干净。5. 可选：查看类别不平衡、相关性、特征名展开等。

2025-09-15 22:16:08 1087

原创【PYTHON学习】复习日-Day7

针对之前学到的所有知识，针对心脏病项目的数据集来完成数据的预处理。（我们暂时还没说到标签编码、连续变量处理，所以可以忽略）数值(连续/离散)、类别、时间、空间。：散点图(+回归线)、相关热力图。单变量 / 双变量 / 多变量。：分组柱状图/箱线图/小提琴图。，不应该算作“连续特征”。，还需要结合“取值个数”。：直方图/KDE/箱线图。：条形图（排序后更清晰）查看数据，发现无缺失值。

2025-09-13 18:39:19 769

原创【PYTHON学习】Matplotlib库：数据初步可视化-Day6

Python最基础的绘图库，功能强大但语法稍微复杂。pyplot（简化接口，常和plt一起用）先看单特征分布：偏态？集中在哪？有没有异常值？再看特征 vs 标签：中位数差别？分布是否重叠？违约率是否有趋势？分箱处理：数值太散或长尾时，先分组再比较。定量验证：不仅看图，也要算均值、中位数、违约率、检验 p-value。

2025-09-13 09:00:00 569

原创【PYTHON学习】离散特征的处理：独热编码-Day5

→ 读取 CSV 文件为 DataFrame→ 返回所有列名（Index 对象）→ 查看每列的数据类型→ 查看前 5 行数据。

2025-09-12 09:00:00 992

原创【PYTHON学习】pandas库：数据的读取和连续变量缺失值的补全-Day4

1）

2025-09-11 12:00:00 688

原创【PYTHON学习】列表、循环和判断语句-Day3

最终列表内容: [‘Python’, ‘Ruby’, ‘JavaScript’]- 高于35度：打印"红色预警：高温天气！- 28-35度：打印"黄色预警：天气炎热"- 20-27度：打印"绿色提示：适宜温度"- 低于20度：打印"蓝色预警：注意保暖"3. 使用if-elif-else结构实现。→ 从 a 到 b-1，间隔 step。计算1+100的和用for循环来写。4. 测试用例：用38你的代码。第一个技术是: Python。：Python 列表操作速查。平均分数: 83.833。

2025-09-10 12:00:00 369

原创【PYTHON学习】字符串与比较运算-Day2

定义两个整数变量，score_a 赋值为 75，score_b 赋值为 90。比较 score_a 是否大于 score_b，将比较结果（布尔值）存储在变量 is_a_higher 中；比较 score_a 是否小于等于 score_b，将结果存储在变量 is_a_lower_or_equal 中；比较 score_a 是否不等于 score_b，将结果存储在变量 is_different 中。获取 greeting 字符串的第一个字符，存储在变量 first_char 中。就能直接输出布尔运算结果。

2025-09-09 12:00:00 559

原创【PYTHON学习】变量与格式化字符串-Day1

1. 变量的认识1. 变量的认识题目定义三个变量abc，并分别将整数123赋值给它们。然后，使用print()函数将每个变量的值单独打印出来，每个值占一行。进阶思考:如何只用一个print()函数调用就实现上面分三行的输出效果？（提示：换行符\n知识点总结：换行输出print()print()print()\nprint()print()2. 格式化字符串题目创建两个变量：name存储你的名字（字符串，例如"小明"），city。

2025-09-08 17:12:00 668

weixin_44537225的博客