波士顿房价预测(三)
在(二)的基础上,进行特征选择:
导库:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
读取文件:
train_data=pd.read_csv('train_dataset.csv')
test_data=pd.read_csv('test_dataset.csv')
train_price=train_data['PRICE']
del train_data['PRICE']
test_id=test_data['ID']
del test_data['ID']
L=[]
for x in test_id:
s='id_'+str(x)
L.append(s)
异常值处理核心代码:
def box_plot_outliers(data_ser, box_scale):
"""
利用箱线图去除异常值
:param data_ser: 接收 pandas.Series 数据格式
:param box_scale: 箱线图尺度,默认用 box_plot(scale=3)进行清洗
:return:
"""
new_up=data_ser.quantile(0.75)
new_low=data_ser.quantile(0.25)
print(new_up,new_low)
iqr &#

在前两部分基础上,该博客继续波士顿房价预测,涉及特征选择。通过异常值处理,计算特征与价格的皮尔逊相关系数,选择相关性强的特征,并建立机器学习模型进行预测,最终得出在线测试的MSE。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=113730393&d=1&t=3&u=d97322ef2417494cb34d4c5f4685e0ad)
433

被折叠的 条评论
为什么被折叠?



