特征理解
《特征工程入门与实践》–特征理解
结构化(有组织)数据:可以分成观察值和特征的数据,一般以表格的形式组织(行是观察值,列是特征)。
非结构化(无组织)数据:作为自由流动的实体,不遵循标准组织结构(例如表格)的数据。通常,非结构化数据在我们看来是一团数据,或只有一个特征(列)。
定量数据本质上是数值,应该是衡量某样东西的数量。
定性数据本质上是类别,应该是描述某样东西的性质。
# 导入探索性数据分析所需的包
# 存储表格数据
import pandas as pd
# 数学计算包
import numpy as np
# 流行的数据可视化包
import matplotlib.pyplot as plt
# 另一个流行的数据可视化包
import seaborn as sns
# 允许行内渲染图形
%matplotlib inline
# 流行的数据可视化主题
plt.style.use('fivethirtyeight')
然后导入第一个数据集,探索在旧金山做不同工作的工资。这个数据集可以公开获得,随意使用:
# 导入数据集
# https://data.sfgov.org/City-Management-and-Ethics/Salary-Ranges-
#by-Job-Classification/7h4w-reyq
salary_ranges = pd.read_csv('../data/Salary_Ranges_by_Job_Classification.csv')
# 另一种计算缺失值数量的方法
salary_ranges.isnull().sum()
# 显示描述性统计
salary_ranges.describe()
感兴趣的特征, 最值得注意的特征是一个定量列 Biweekly High Rate(双周最高工资)和一个定性列 Grade(工作种类)。
salary_ranges = salary_ranges[['Biweekly High Rate', 'Grade']]
salary_ranges.head()
# 为了可视化,需要删除美元符号
salary_ranges['Biweekly High Rate'] = salary_ranges['Biweekly High
Rate'].map(lambda value: value.replace('$',''))
# 检查是否已删除干净