前言
蓝色字体是附加链接,看完不会的可以点进去学习一下哦@^_^@一、获取数据
从人工智能学习小组的组长中嫖过来的三个文件
二、数据集建模
1.引入库
代码如下:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
import model as abbreviate
使模块名字更好记忆
train_test_split()用于数据集划分,具体看视频,14:45开始介绍
DictVectorizer()用于提取字典中的特征值,具体看视频
2.读入数据
代码如下:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
然后看两个文件里面的内容
训练集的内容:
代码如下:
train.head()
测试集的内容:
代码如下:
test.head()
test.head(n)用来显示数据头部的几行数据,默认是五行,可以指定n参数显示多少行
可以发现测试集和训练集相比没有survived的属性,需要用训练集训练处模型来预测存活情况。
最后看看第三个文件:
代码如下:
g_sub = pd.read_csv('gender_submission.csv')
g_sub.info()
g_sub.head()
内容如下:
info函数返回有哪些列、有多少非缺少值、每列的类型
可以看到就两行,一行是与测试集一样的Passengerld,另一行就是缺失的Survived
3、特征工程
把测试集和训练集合并起来,便于处理特征值。
代码如下:
union = train.append(test