用飞桨实现年收入预测

上回的话,我做第一次的时候因为后来没时间了,就放弃了,这回的话我就算是过了提交时间我也要把它复现出来。

开始:

数据处理

先是导库:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

然后先把数据集读取一下:

data_x = pd.read_csv("work/data/X_train")
print(data_x)

data_y = pd.read_csv("work/data/Y_train")
print(data_y)

然后下面的操作先看操作效果:

.values的话就是以array形式返回指定column的所有取值,然后接下来我们可以用numpy进行操作,然后我们再获得行数,然后将y也转一下

X_data = df_dataset_X.iloc[:, 1:].values
m_dataset = X_data.shape[0]
y_data = df_dataset_y.iloc[:, 1].values.reshape(m_dataset, 1)
dataset = np.concatenate((x_data, y_data), axis=1)

然后计算一下,但是为啥要这么做呢?这么做的目的是什么呢?我知道就是转numpy可能会好操作。首先我们看一下就是y的数据是0和1,这个是第二列的,第一行是序号,然后x呢,哦哦,他这种写法感觉就是套用呢,写的也不灵活啊,其实很多代码都可以不用写的啊,但是他为什么这么写呢,是的,这里在设置x的data时没有考虑到id的那列,直接在age那行开始的,这样确实得到的是我们想要的信息,因为id并不是我们要的,然后就是y那行也是,只要第二行,就是我们要的数据,一句话:就是过滤到不用的数据:如id啥的。<

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值