机器学习相关知识总结-不积跬步无以至千里

最新推荐文章于 2024-04-26 11:25:26 发布

zero_one_Machel

最新推荐文章于 2024-04-26 11:25:26 发布

阅读量117

点赞数

本文链接：https://blog.csdn.net/weixin_44554979/article/details/111247267

版权

机器学习数据挖掘专栏收录该内容

6 篇文章 0 订阅

订阅专栏

astype

astype：转换数组的数据类型。

int32 --> float64 完全ojbk

float64 --> int32 会将小数部分截断

string_ --> float64 如果字符串数组表示的全是数字，也可以用astype转化为数值类型

注意其中的float，它是python内置的类型，但是Numpy可以使用。Numpy会将Python类型映射到等价的dtype上。

category

Categoricals 是 pandas 的一种数据类型，对应着被统计的变量。Categoricals 是由固定的且有限数量的变量组成的。比如：性别、社会阶层、血型、国籍、观察时段、赞美程度等等。
与其它被统计的变量相比，categorical 类型的数据可以具有特定的顺序——比如：按程度来设定，“强烈同意”与“同意”，“首次观察”与“二次观察”，但是不能做按数值来进行排序操作（比如：sort_by 之类的，换句话说，categorical 的顺序是创建时手工设定的，是静态的）。

类型数据的每一个元素的值要么是预设好的类型中的某一个，要么是空值（np.nan）。顺序是由预设好的类型集合来决定的，而不是按照类型集合中各个元素的字母顺序排序的。categorical 实例的内部是由类型名字集合和一个整数组成的数组构成的，后者标明了类型集合真正的值

感谢博主文章

StratifiedKfold和KFold的区别

StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同。

感谢博主

enumerate()使用

如果对一个列表，既要遍历索引又要遍历元素时，首先可以这样写：

list1 = ["这", "是", "一个", "测试"]
for i in range (len(list1)):
   print(i ,list1[i])

更简便

list1 = ["这", "是", "一个", "测试"]
for index, item in enumerate(list1, 1):
    print(index, item)

在这里插入图片描述

AUC

AUC的全称是Area under the Curve of ROC，也就是ROC曲线下方的面积

感谢博主

xls处理

感谢博主，写的十分清晰

loc

import pandas as pd  
df = pd.DataFrame([  
            ['green', 'M', 10.1, 'class1'],   
            ['red', 'L', 13.5, 'class2'],   
            ['blue', 'XL', 15.3, 'class1']])  
print (df)