《特征工程入门与实践》--特征理解

最新推荐文章于 2024-07-15 10:06:36 发布

「已注销」

最新推荐文章于 2024-07-15 10:06:36 发布

阅读量444

点赞数

分类专栏：特征工程文章标签：数据分析机器学习 python 大数据

本文链接：https://blog.csdn.net/xu_ampl/article/details/113824364

版权

特征理解

《特征工程入门与实践》–特征理解

结构化（有组织）数据：可以分成观察值和特征的数据，一般以表格的形式组织（行是观察值，列是特征）。
非结构化（无组织）数据：作为自由流动的实体，不遵循标准组织结构（例如表格）的数据。通常，非结构化数据在我们看来是一团数据，或只有一个特征（列）。

定量数据本质上是数值，应该是衡量某样东西的数量。
定性数据本质上是类别，应该是描述某样东西的性质。

# 导入探索性数据分析所需的包
# 存储表格数据
import pandas as pd
# 数学计算包
import numpy as np
# 流行的数据可视化包
import matplotlib.pyplot as plt
# 另一个流行的数据可视化包
import seaborn as sns
# 允许行内渲染图形
%matplotlib inline
# 流行的数据可视化主题
plt.style.use('fivethirtyeight')

然后导入第一个数据集，探索在旧金山做不同工作的工资。这个数据集可以公开获得，随意使用：

# 导入数据集
# https://data.sfgov.org/City-Management-and-Ethics/Salary-Ranges-
#by-Job-Classification/7h4w-reyq
salary_ranges = pd.read_csv('../data/Salary_Ranges_by_Job_Classification.csv')

# 另一种计算缺失值数量的方法
salary_ranges.isnull().sum()

# 显示描述性统计
salary_ranges.describe()

感兴趣的特征, 最值得注意的特征是一个定量列 Biweekly High Rate（双周最高工资）和一个定性列 Grade（工作种类）。

salary_ranges = salary_ranges[['Biweekly High Rate', 'Grade']]
salary_ranges.head()

# 为了可视化，需要删除美元符号
salary_ranges['Biweekly High Rate'] = salary_ranges['Biweekly High 
Rate'].map(lambda value: value.replace('$',''))

# 检查是否已删除干净

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
《特征工程入门与实践》--特征理解

特征理解《特征工程入门与实践》–特征理解结构化（有组织）数据：可以分成观察值和特征的数据，一般以表格的形式组织（行是观察值，列是特征）。非结构化（无组织）数据：作为自由流动的实体，不遵循标准组织结构（例如表格）的数据。通常，非结构化数据在我们看来是一团数据，或只有一个特征（列）。定量数据本质上是数值，应该是衡量某样东西的数量。定性数据本质上是类别，应该是描述某样东西的性质。# 导入探索性数据分析所需的包# 存储表格数据import pandas as pd# 数学计算包import nu
复制链接

扫一扫