- 博客(3)
- 收藏
- 关注
转载 python split.()的用法详解
注意:[ ]内的数值必须小于等于split("")内分隔符的个数,否则会报错。str.split(“o”)[3]得到的是第三个o后和第四个o前之间的内容。str.split(“o”)[1]得到的是第一个o和第二个o之间的内容。str.split("[")[0]得到的是第一个 [ 之前的内容。str:分隔符,默认为所有的空字符,包括空格,换行(\n)等等。str.split(“o”)[0]得到的是第一个o之前的内容。num:分割次数,默认为-1,即分隔所有。
2023-02-28 15:27:40 389
转载 模型特征优化方法总结
对连续特征来说,我们最常见的特征变换就是特征缩放(feature scaling),也就是改变特征的分布或者压缩特征的区间。在上面的代码中,你要特别注意,在创建标准化缩放器之后,我们对于训练集使用了 fit_transform 这个 API,这是 fit 和 transform 两个 API 的整合,它的意思是先根据训练集拟合数据,找到合适的标准化参数,然后再把参数应用在训练集上,给数据做缩放。对于那些没作用和作用小的数据,我们就可以删掉,来降低数据的维度,节省模型拟合时的计算空间。(3)变量组合特征……
2023-02-27 16:46:23 534
转载 python 虚拟变量(Dummy)/热编码(one-hot encoding)
对于分类,pandas 编码有一种非常简单的方法,就是 get_dummies 函数。get_dummies 函数会自动变换所有具有对象类型(比如字符串)的列或所有分类的列,而分类特征的每个可能取值都会被扩展为一个新特征,并且每一个新特征只有 0、1 两种取值。这个过程就是虚拟变量的生成过程。
2023-02-27 10:28:12 1671
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人