注:本文为Machine Learning 的个人学习笔记, 学习站点:Kaggle.com
搭建一个最简单的机器学习模型仅需3步:
- 收集数据,数据清洗 ;
- 特征工程;
- 模型选择、整合,参数调优;
收集数据
墨尔本市房产信息数据都存放在这个csv文件里。
读取数据
import pandas as pd
melbourne_file_path = 'melb_data1.csv'
将csv文件读取到_path变量中方便之后准确调用。
melb_data = pd.read_csv(melbourne_file_path)
melbourne_data.describe()
读取文件之后,可以概览一下数据。
melbourne_data.columns
.columns 会输出dataframe中所有列的名字:
Index([‘Suburb’, ‘Address’, ‘Rooms’, ‘Type’, ‘Price’, ‘Method’, ‘SellerG’, ‘Date’, ‘Distance’, ‘Postcode’, ‘Bedroom2’, ‘Bathroom’, ‘Car’,‘Landsize’, ‘BuildingArea’, ‘YearBuilt’, ‘CouncilArea’, ‘Lattitude’, ‘Longtitude’, ‘Regionname’, ‘Propertycount’], dtype=