上回的话,我做第一次的时候因为后来没时间了,就放弃了,这回的话我就算是过了提交时间我也要把它复现出来。
开始:
数据处理
先是导库:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
然后先把数据集读取一下:
data_x = pd.read_csv("work/data/X_train")
print(data_x)
data_y = pd.read_csv("work/data/Y_train")
print(data_y)
然后下面的操作先看操作效果:
.values的话就是以array形式返回指定column的所有取值,然后接下来我们可以用numpy进行操作,然后我们再获得行数,然后将y也转一下
X_data = df_dataset_X.iloc[:, 1:].values
m_dataset = X_data.shape[0]
y_data = df_dataset_y.iloc[:, 1].values.reshape(m_dataset, 1)
dataset = np.concatenate((x_data, y_data), axis=1)
然后计算一下,但是为啥要这么做呢?这么做的目的是什么呢?我知道就是转numpy可能会好操作。首先我们看一下就是y的数据是0和1,这个是第二列的,第一行是序号,然后x呢,哦哦,他这种写法感觉就是套用呢,写的也不灵活啊,其实很多代码都可以不用写的啊,但是他为什么这么写呢,是的,这里在设置x的data时没有考虑到id的那列,直接在age那行开始的,这样确实得到的是我们想要的信息,因为id并不是我们要的,然后就是y那行也是,只要第二行,就是我们要的数据,一句话:就是过滤到不用的数据:如id啥的。<