M-Day-CSDN博客

原创 application配置文件没有提示

2024-07-30 17:16:40 185

原创错误: 不支持发行版本 5 Language level is invalid or missing in pom.xml. Current project JDK is 17

更新maven，运行仍报错"Unsupported class file major version 61"，表明正在使用Java 17（版本号61）的字节码，而Spring或其依赖的库不支持该版本。更新Spring框架和依赖库到支持Java 17的最新版本。方法一和三试了不行，供个人参考。在pom.xml文件中配置。

2024-07-22 15:48:12 462

原创根据页面原型完成员工管理页面开发，并通过Axios完成数据异步加载。

②需要使用axios时，导入axios：import axios from 'axios';①在项目目录下安装axios：npm install axios;

2024-04-10 16:00:29 221 1

原创 REaLTabFormer中检测和防止过拟合的方法，以及如何在模型训练期间度量生成数据与原始训练数据之间的相似度

实现上述过程涉及很多步骤和细节。为了简化讲解，让我们通过一个简化的示例来展示这个过程如何工作。在这个示例中，我们将使用一个简单的数据集和简化的方法来模拟上述过程的一些关键部分。

2023-10-26 10:03:12 281

原创 “教师强制“（Teacher Forcing）和“计划采样“（Scheduled Sampling）

然而，这种方法也有一个缺点：在真实的应用中，模型在预测时不会有访问到真实的历史数据。这是因为模型在训练时一直看到了真实的数据，但在预测时只能依赖于它自己的预测。在这种训练方法中，模型不是使用它自己在上一个时间步的预测作为下一个时间步的输入，而是使用真实的上一个时间步的输出。在给定的代码中，通过复制目标列并将其放在数据框的前面，我们为模型提供了真实的历史数据，使其可以在训练时使用教师强制技巧。：使用真实的历史数据而不是模型的预测可以使模型更快地收敛，因为它不会因为早期预测的错误而被误导。

2023-10-17 14:30:11 2400 1

原创 val_sensitivities.append计算敏感性度量，full_sensitivity的两种情况

这段代码的目的是为了计算“敏感性度量”来评估生成数据的质量。为了做这个计算，我们需要原始数据、生成的数据和一个测试数据集。为True时，它使用相同的测试数据；当为False时，它为每组生成数据使用不同的测试数据。为False时，它为每一轮生成的数据和每次的原始数据迭代都使用不同的数据子集。总结：两者的主要区别在于如何选择数据子集进行敏感性度量。简而言之，这段代码就是在测试生成数据的质量。为True时，对于每一轮生成的数据，它使用同一个。

2023-10-12 20:36:34 147

原创 ctgan的条件向量

那我可以这么理解吗，sample_original_condvec是根据原始数据的分布频率生成条件，如果种类多的话那么出现的频率就高，从而生成的行数也就越多，反之，种类少的话，那么出现的频率也就会低，生成的行数也会偏低；因此，如果某个类别在原始数据中出现得更频繁，那么生成的条件向量中该类别出现的概率也会更高。反之，如果某个类别在原始数据中较少出现，那么生成的条件向量中该类别出现的概率也会较低。这样，当我们使用这个条件向量生成数据时，生成的数据将满足性别为“男”的条件。是的，您的理解是正确的。

2023-10-09 14:46:54 498 1

原创 cut函数对连续值离散化

库中的一个函数，用于将连续的数值数据分割成几个离散的区间或“桶”。这个函数的主要作用是将连续变量转化为分类变量。函数的工作原理都是相同的，只是区间边界和标签可能会有所不同。参数，这意味着区间是左闭合的，即。注意：在这个示例中，我们使用了。无论是整数还是浮点数，

2023-10-09 09:40:41 516 1

原创对每个模式采用特定的归一化方法

在这种情况下，可以选择将该模式的数据进行特定的归一化，以避免梯度饱和，比如将范围限制在[-0.9, 0.9]。通过对每个模式采用特定的归一化方法，可以更好地保留数据集中不同模式的特征信息，提高模型对数据模式的建模能力，并避免梯度饱和等问题。在多模态数据集中，不同的模式可能具有不同的特征范围、分布形状和峰值位置。因此，通过采用模式特定的归一化方法，可以根据每个模式的特征和分布情况选择合适的归一化策略。对每个模式采用特定的归一化方法意味着根据数据集中不同模式的特征和分布情况，选择适合每个模式的归一化策略。

2023-09-26 11:16:48 416

原创互信息的意思

具体来说，如果在原始数据集中变量i和变量j之间存在强相关性、依赖性或信息传递，那么在合成数据集中，变量i和变量j之间也会具有类似的相关性、依赖性或信息传递。因此，合成的数据集在某些方面与原始数据集具有相似的特性或统计属性。在这种情况下，原始数据集T和合成数据集Tsynth中任意一对变量i和j之间的互信息是相似的，意味着这两个数据集中对于变量之间的关系的描述相似或相近。需要注意的是，具体的合成方法和数据集的特性可能会对这种相似性产生影响，因此在实际应用中需要仔细评估合成数据集和原始数据集之间的相似性程度。

2023-09-26 10:52:15 244

原创 Anaconda创建新环境和删除环境

创建成功后，输入命令： conda env list 查看 TGAN环境已经创建，星号为当前所在环境。使用 conda remove -n xxx(环境名） --all 删除环境。

2023-09-25 16:48:57 2405 1

原创 min-max scaler数据归一化的方法

例如，假设您有一个单个高斯变量 X，其取值范围为 [X_min, X_max]，您可以使用 min-max scaler 将其缩放到新的范围 [a, b]。通过使用 min-max scaler，您可以将单个高斯变量的取值范围标准化到所需的范围，以便与其他变量进行比较或满足特定的需求。对于单个高斯变量，也称为单个高斯分布的变量，"min-max scaler" 可以用来缩放变量的取值范围，使其符合指定的最小值和最大值。其中，X' 是缩放后的变量，a 和 b 是指定的最小值和最大值。

2023-09-18 17:03:54 1999 1

原创概率密度函数与核密度函数的区别

KDF 的结果是一个近似于真实概率密度函数的平滑曲线，用于描述数据的分布情况。在简单的术语中，概率密度函数（PDF）是一个已知概率分布的函数，用于描述随机变量的概率分布。而核密度函数（KDF）是一种基于数据样本的估计方法，用于估计数据的概率密度，并生成一个平滑的密度曲线。因此，PDF 是一种理论上的概念，而 KDF 是一种实际上用于估计概率密度的方法。对于一个连续随机变量，PDF 指定了在某个特定取值附近的概率密度，也可以理解为在该取值附近的概率密度的导数。

2023-09-18 16:49:37 1870 2

原创图片以网页形式打开，保存到文件夹中是空白的问题

是使用 Plotly 创建的图形对象，因此使用 Matplotlib 的保存方法会导致保存的图片为空白。保存为 PNG 图片。这样可以确保正确地保存 Plotly 图形对象而不产生空白图片。是用于 Matplotlib 的保存方法，并不适用于 Plotly 图形对象。运行修改后的代码后，生成的图像将保存在指定的文件夹中，并且不再为空白。使用了错误的保存方法：在代码的最后部分，您使用了。将图形保存为 PNG 图片。在修改后的代码中，我们使用了。

2023-09-13 21:57:09 588 2

原创 ERROR: Could not install packages due to an OSError: [WinError 5] 拒绝访问的问题

ERROR: Could not install packages due to an OSError: [WinError 5] 拒绝访问。

2023-09-13 10:03:15 1730 1

原创各种警告的消除记录

4.上述警告改完后，运行代码报错，TypeError: object of type 'NoneType' has no len()2.上述警告修改后，初始化 1 未收敛警告增多，还未修改。用户警告：X 有功能名称，但 SVC 安装时没有功能名称。5.上述两个尝试注释掉warnings，等待查看结果。尝试把warnings注释掉。要解决这个错误，可以在使用。前先检查这两个变量是否为。尝试把warnings注释掉。没注释前一直有下述两个警告。这段代码中的错误是由于。1. KMeans警告。

2023-08-30 12:28:11 892 1

原创 pycharm警告SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

整理一下警告的地方以及修改过后的结果。

2023-08-25 12:44:31 166 1

原创平衡数据ADASYN和BorderlineSMOTE两种算法

虽然这些参数在不同的算法中有不同的名称和用途，但它们的目的都是在过采样过程中控制邻居点的数量或参考样本的数量，以确保生成的合成样本能够更好地反映原始数据的分布特征。具体的取值需要根据数据集的特点和算法的要求进行调整。（用于找到边界样本的近邻点的数量）：一般建议选择一个较小的值，通常在2到10之间。较小的值可以更关注边界样本周围的局部结构，而不会受到过多的噪声或离群值的干扰。这些值的选择对于算法的性能和生成的合成样本的质量至关重要。是在不同的过采样算法中使用的参数，用于指定邻居数量或参考样本的数量。

2023-08-14 15:44:58 994

weixin_44130900的博客