一、获取现成的数据集
现成的数据集大概有两种:比赛数据集和行业数据集。
比赛数据集
目前数据分析大赛认可度比较高的比赛一个是国际上的 kaggle,一个是国内的天池。
kaggle 可以说是所有数据分析大赛的鼻祖,也是目前世界范围内规模最大的数据分析比赛,但存在两个问题:一是全英文网站,二是国内访问速度较慢。整体来说对新手并不是很友好。
天池是国内目前影响力最大的比赛,整体平台的配置、数据集的丰富度都有保障,并且还有一系列新手赛帮助入门。
这里以天池平台为例,示范如何获得比赛的数据集。
(1)访问天池官网:https://tianchi.aliyun.com/,并使用淘宝账户注册、登录。
(2)选择天池大赛 - 学习赛,进入学习赛列表。
(3)下滑列表,选择二手车交易价格预测比赛,标题为:“零基础入门金融风险 - 贷款违约预测”。
(4)进入比赛详情页后,点击报名参赛。
(5)点击左侧的赛题与数据,进入数据集的页面,这个页面的上方是数据集的下载链接,下面则是数据集的描述。