机器学习:fit,transform,fit_transform区别(附代码)

导论

在机器学习中,我们需要对数据集的数据进行处理,进而使用sklearn库中的一些函数对数据进行数据特征提取,训练模型,其中fit,transform,fit_transform是进行数据的预处理。

函数解释:

fit(): Method calculates the parameters μ and σ and saves them as internal objects.
解释:简单来说,就是求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。(相当于训练模型)

transform(): Method using these calculated parameters apply the transformation to a particular dataset.
解释:在fit的基础上,进行标准化,降维,归一化等操作(看具体用的是哪个工具,如PCA,StandardScaler等)。

 

fit_transform(): joins the fit() and transform() method for transformation of dataset.
解释:fit_transform是fit和transform的组合,既包括了训练又包含了转换。
transform()和fit_transform()二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等

 

注意事项:

必须先用fit_transform(trainData),之后再transform(testData)。如果直接transform(testData),程序会报错。如果fit_transfrom(trainData)后,使用fit_transform(testData)而不使用transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。(一定要避免这种情况)

五. 为何训练集使用fit_transform(),而测试集使用tranform(),不再使用fit_transform();

因为在trainData的时候,已经使用fit()或者fit_transform得到了整体的指标(均值,方差等),所以在测试集上直接transform(),使用之前的指标,如果在测试集上再进行fit(),由于两次的数据不一样,导致得到不同的指标,会使预测发生偏差,因为模型是针对之前的数据fit()出来的标准来训练的,而现在的数据是新的标准,会导致预测的不准确。

fit_transform()干了两件事:fit找到数据转换规则,并将数据标准化。transform:是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。
可以直接把转换规则拿来用,所以并不需要fit_transform(),否则,两次标准化后的数据格式(或者说数据参数)就不一样了

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 答:我们首先使用feature_scaler对训练数据集中除最后一列之外的所有列进行标准化处理,然后使用target_scaler对最后一列进行标准化处理,以得到norm_features和norm_targets。 ### 回答2: 上述代码是用于特征和目标变量的标准化处理。 首先,代码中的train_df是一个DataFrame类型的数据集,其中包含了训练数据的特征和目标变量。特征在代码中被表示为train_df.iloc[:, 0:-1],而目标变量在代码中被表示为train_df.iloc[:, -1:]。 然后,通过调用feature_scaler.fit_transform()函数,对特征进行标准化处理。标准化是一种常见的数据预处理技术,它可以将不同特征之间的值范围放缩到相同的尺度上。标准化过程中,特征的均值被减去,然后除以特征的标准差。标准化之后,特征的取值范围将变为均值为0,标准差为1。 同样地,通过调用target_scaler.fit_transform()函数,对目标变量进行标准化处理。标准化的目的是为了消除目标变量之间的单位差异,以便更好地对其进行比较和分析。 最后,经过标准化处理后的特征和目标变量,分别保存在norm_features和norm_targets中,可以用于后续的特征选择、模型训练和性能评估等任务。 需要注意的是,这里的标准化处理使用了两个不同的标量器(Scaler),即feature_scaler和target_scaler。这是因为特征和目标变量通常具有不同的值范围和分布情况,因此需要分别进行标准化处理。 ### 回答3: 这段代码的作用是对训练数据集进行特征和目标的归一化处理。 首先,train_df是一个数据框,包含了训练数据的特征和目标。train_df.iloc[:, 0:-1]表示取train_df中的所有行,但是只取前面的列作为特征,不包括最后一列。train_df.iloc[:, -1:]表示取train_df中的所有行,只取最后一列作为目标。所以,norm_features = feature_scaler.fit_transform(train_df.iloc[:, 0:-1])的作用是对训练数据的特征进行归一化处理,并将结果存储在norm_features中。 feature_scaler是一个特征缩放器的实例,可能使用的是一种缩放器类(例如Min-Max缩放器或标准化缩放器),用于对训练数据的特征进行归一化处理。fit_transform()函数则是对特征进行拟合和转换的操作,拟合操作是为了计算特征缩放器需要的统计量,转换操作是将特征数据进行缩放。 同理,target_scaler是一个目标缩放器的实例,用于对训练数据的目标进行归一化处理。target_scaler.fit_transform(train_df.iloc[:, -1:])的作用是对训练数据的目标进行归一化处理,并将结果存储在norm_targets中。 最终的结果是将训练数据集的特征归一化后得到的norm_features作为输入数据,norm_targets作为目标数据用于机器学习模型的训练。通过归一化处理,可以消除不同特征之间的尺度差异,提高模型的训练效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值