本文约1500字,阅读需要5分钟。讲述了如何使用python进行房价信息获取,如何利用R构建回归模型以达到预测上海某个地区房价的目的。
关键词:买房 Python 选房 R 定价
本文讲述了借助Python,Gis和R语言制作房源定价系统的方法,对原理、过程都有详细的讲述
p.s.文末有源代码分享
为了能在当今竞争激烈的社会活下去,我一直在孜孜不倦地开发自己的潜能,寻找更多的副职业增加收入,从而在双十一后的双十二可以继续剁手。
这不,成为业余房地产咨询师的第一天,客户戳我了:我要在上海16个区买16套房子,资金到位,您给估个价吧。
对于这类在在如此严峻的房地产政策之下,还想拥有两位数以上房产的“忽悠”高手,我一向给予至尊VIP的待遇。
决定一套房子价格的因素主要是三个方面,房屋本身的属性,房屋的空间位置和周边的其他因素。这篇文章会讲述考虑这些因素的分析——建模——检验的过程。
1、 数据集的准备
这里分为两步:
##第一步,抓取所有URL:
if__name__=='__main__':
url_list = create_url(220,2)#填写区间最大面积和公差,保证按大于最大面积搜索,房源数小于等于3000
data_list = []
#data_list = craw_second_url(url_list)
craw_second_url(url_list)
data = pd.DataFrame(pd.Series(data_list),columns=['url'])
data.to_csv('./urls.csv',encoding='gbk',index=0)
print('finish')
##第二步,爬取房源信息:
defread_url(path):
path = path
data = pd.read_csv(path,engine='python')
try:
data_received = pd.read_csv('./house_inf_lianjia.csv',engine='python')
print('导入爬取数据')
data_received_list = data_received['url'].tolist()
print('转换表格')
url_list = data[~data['url'].isin(data_received_list)]['url'].unique().tolist()
print('剔除已爬取数据')
print(len(url_list))
except:
url_list = data['url'].unique().tolist()
data = pd.DataFrame(
columns=['house_id','name','price','area_price','area','room','livingroom','kitchenroom',
'bathroom','lng','lat','url'])
data.to_csv('./house_inf_lianjia.csv', encoding='gbk', index=0)
print('无历史数据')
returnurl_list
我还顺手做了一个断点续传功能&#x