#加州房价预测实例#
任务:
基于加州房价数据集建立一个预测模型,使之可以在给定的条件下,预测加州任何地点的房价的中位数。
一、定义问题
1.公司要如何利用我的模型?
模型的输出将作为另一个机器学习算法的输入,该算法在综合考虑其他因素之后,决定是否值得在该区域投资。
2. 目前是否有可行的解决方案?
目前该区域的房价信息由一个专家团队完成,他们建立了非常复杂的模型。不仅费时费力,而且他们的评估泵不够准确,差错率达到15%。
二、将工程问题归纳为机器学习的问题
有监督学习任务,因为数据样本包含标签。
回归任务,因为你要预测一个价格。这是一个多变量回归任务,你要基于多个特征变量预测价格。
批量学习任务,因为并没有连续数据流输入系统。
三、选择评价指标
回归任务通常采用平方根均方误差(RMSE)作为评价指标,他衡量了系统预测差错的标准差。
???(?,ℎ)=√(1/? ∑_(?=1)?▒〖(ℎ(?((?) ))−?^((?) ) )^2 〗 )
如果有很多街区数据有异常,肯恒需要使用平均绝对误差(MAE)
???(?,ℎ)=1/? ∑_(?=1)?▒〖|ℎ(?((?) ))−?^((?) ) )|〗
四、windows环境配置和软件安装