[B4]链家二手房价格预测

“这篇博客主要分享一个数据分析初级项目,基本概括了一个完整项目的各个分析阶段,但是数据获取是直接在链家官网爬取的,这部分先不分享了。过程中还有很多不足的地方,希望各位大佬多多指点。”

1.数据预处理
首先导入科学计算包

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

from IPython.display import display
plt.style.use('fivethirtyeight')
sns.set_style({
   'font.sans-serif':['simhei','Arial']})
%matplotlib inline

读取数据,对数据进行初步观察,查看缺失值和异常值,并进行描述性统计

#导入数据,查看前三行
lianjia_df = pd.read_csv("C:\Jupyter_working_path\Projects\lianjia.csv")
display(lianjia_df.head(3))

在这里插入图片描述
初步观察到有11个特征变量,Price为目标变量

#检查缺失值情况

#检查缺失值情况
lianjia_df.info()

在这里插入图片描述
很明显Elevator特征有缺失值

#描述性统计

lianjia_df.describe()

在这里插入图片描述
可见,size特征最大值1019平米,最小值2平米

#添加房屋特征均价

df = lianjia_df.copy()
df['PerPrice'] = lianjia_df['Price']/lianjia_df['Size']
#重新摆放列位置
columns = ['Region','District','Garden','Layout','Floor','Year','Size','Elevator','Direction','Renovation','PerPrice','Price']
df = pd.DataFrame(df, columns = columns)
#重新审视数据集
display(df.head(3))

在这里插入图片描述
2.特征分析
接下来对特征变量进行逐一分析
(1)Region特征分析

#对二手房区域分组对比二手房数量和每平方米房价
df_house_count = df.groupby('Region')['Price'].count().sort_values(ascending
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值