sklearn笔记15 str类型的数据量化操作

可可茜里的传说

于 2021-11-01 22:09:17 发布

阅读量255

点赞数

分类专栏： python scikit-learn模块文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/weixin_44632711/article/details/121089210

版权

python scikit-learn模块专栏收录该内容

58 篇文章 4 订阅

订阅专栏

完整代码 sklearn代码10 8-encoding

导包

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

from sklearn.preprocessing import OneHotEncoder,LabelEncoder

from sklearn.neighbors import KNeighborsClassifier

salary = pd.read_csv('./salary.txt')
salary.head()

在这里插入图片描述

salary.drop(labels=['final_weight','education_num','capital_gain','capital_loss'],
          axis = 1,inplace=True)

salary.head()

在这里插入图片描述

OridinalEncoder使用

返回的数据就是一个numpy
在这里插入图片描述
查看列

对数据进行转换

得到unique并将其付给u

对其进行排序

LabelEncoder的使用

在传输数据时需要一列一列进行传输，也可以进行数据转换，使用for循环可以实现与上述方法相同的效果，在最后可以看到对数据都进行了量化

le = LabelEncoder()

salary_label = le.fit_transform(salary['salary'])

salary_label

le.fit_transform(salary['education'])

在这里插入图片描述

for col in salary.columns:
    salary[col] = le.fit_transform(salary[col])

salary.head()

在这里插入图片描述
label就是标签的意思，给数据加上一个数量标签，就是对数据进行量化

OneHotEncoder方法

edu.drop_duplicates().count()

在这里插入图片描述

edu = salary[['education']]  #转换没有问题
edu

oh = OneHotEncoder()

oh.fit_transform(edu)

在这里插入图片描述

onehot.toarray()[:10]  #查看前是个就不会有省略问题 #如果是标记为1，不是标记为0

在这里插入图片描述

可可茜里的传说

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
sklearn笔记15 str类型的数据量化操作

完整代码 sklearn代码10 8-encoding导包import numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom sklearn.preprocessing import OneHotEncoder,LabelEncoderfrom sklearn.neighbors import KNeighborsClassifiersalary = pd.read_csv('./salary.tx
复制链接

扫一扫

专栏目录