sklearn笔记14 str类型的数据转换与训练预测

最新推荐文章于 2021-11-01 22:09:17 发布

可可茜里的传说

最新推荐文章于 2021-11-01 22:09:17 发布

阅读量229

点赞数

分类专栏： python scikit-learn模块文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/weixin_44632711/article/details/121080581

版权

python scikit-learn模块专栏收录该内容

58 篇文章 4 订阅

订阅专栏

完整代码 sklearn代码9 7-KNN-salay

获取数据

data = pd.read_csv('./salary.txt')

data.head()

在这里插入图片描述

data.columns   #获取数据的列名

在这里插入图片描述

data.drop(labels=['final_weight','education','capital_gain','capital_loss'],
         axis=1,
         inplace = True)   #取消一些不必要的数据

data.shape

data.head()

在这里插入图片描述

X = data.iloc[:,0:-1]

y = data['salary']   ##将salary单独划分

# 方法将数据中str转换成int float从而方便计算
# map方法，apply transfrom

u = X['workclass'].unique()  ##所有职业属性都被取出
u

在这里插入图片描述

np.argwhere(u == 'Local-gov')[0,0]   #取出索引

def convert(x):
    return np.argwhere(u == x)[0,0]
X['workclass'] = X['workclass'].map(convert)
X.head()

在这里插入图片描述

cols = ['marital_status', 'occupation', 'relationship', 'race', 'sex', 'native_country']

for col in cols:
    u = X[col].unique()
    
    def convert(x):
        return np.argwhere(u == x)[0,0]
    X[col] = X[col].map(convert)
X.head()

在这里插入图片描述

knn = KNeighborsClassifier()

kFold = KFold(10)

for train,test in kFold.split(X,y):
    print(train.shape,test.shape)

knn.fit()

在这里插入图片描述

准确率较低影响因素较多

knn = KNeighborsClassifier()

kFold = KFold(10)

knn = KNeighborsClassifier()

accuracy = 0

for train,test in kFold.split(X,y):
    knn.fit(X.loc[train],y[train])
    acc = knn.score(X.loc[test],y[test])
    accuracy  += acc/10
print(accuracy)

在这里插入图片描述
作业：
#从preprocessing 数据预处理中找一找有没有其他方法将str—int,float类型

可可茜里的传说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn笔记14 str类型的数据转换与训练预测

完整代码 sklearn代码9 7-KNN-salay获取数据data = pd.read_csv('./salary.txt')data.head()data.columns #获取数据的列名data.drop(labels=['final_weight','education','capital_gain','capital_loss'], axis=1, inplace = True) #取消一些不必要的数据data.shaped
复制链接

扫一扫

专栏目录