数据分析1 -- 数据集的获取

搭搭里满是糖

已于 2022-09-21 19:06:01 修改

阅读量4.3k

点赞数 2

分类专栏：玩转Python数据分析文章标签：数据分析数据挖掘

于 2022-09-21 18:59:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49848200/article/details/126978202

版权

本文介绍了如何获取现成的数据集，包括参加数据分析比赛如kaggle和天池，以及通过行业数据集来源如清博智能、房天下和移动观象台。此外，还阐述了使用爬虫构建数据集的基本流程，涉及Python爬虫的请求、网页分析和数据保存三个关键模块。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、获取现成的数据集

现成的数据集大概有两种：比赛数据集和行业数据集。

比赛数据集

目前数据分析大赛认可度比较高的比赛一个是国际上的 kaggle，一个是国内的天池。

kaggle 可以说是所有数据分析大赛的鼻祖，也是目前世界范围内规模最大的数据分析比赛，但存在两个问题：一是全英文网站，二是国内访问速度较慢。整体来说对新手并不是很友好。

天池是国内目前影响力最大的比赛，整体平台的配置、数据集的丰富度都有保障，并且还有一系列新手赛帮助入门。

这里以天池平台为例，示范如何获得比赛的数据集。

（1）访问天池官网：https://tianchi.aliyun.com/，并使用淘宝账户注册、登录。

（2）选择天池大赛 - 学习赛，进入学习赛列表。

（3）下滑列表，选择二手车交易价格预测比赛，标题为：“零基础入门金融风险 - 贷款违约预测”。

（4）进入比赛详情页后，点击报名参赛。

（5）点击左侧的赛题与数据，进入数据集的页面，这个页面的上方是数据集的下载链接，下面则是数据集的描述。

行业数据集</

最低0.47元/天解锁文章

搭搭里满是糖

博客等级

码龄5年

20
原创

18
点赞

120
收藏

5
粉丝

关注

私信

热门文章

分类专栏

Protobuf 2篇
MongoDB 2篇
玩转Python数据分析 9篇
Selenium 2篇
Python 4篇
Linux 1篇

展开全部收起

最新评论

数据分析4 -- 将爬取的数据保存成CSV格式
xiangrikui21: 好东西，赞一个
Python中logging模块的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。相比 loguru 有10胜。 pip install nb_log 。
Python实现Mac下自动更新Chrome WebDriver
qq464917671: 建议把 result = os.popen('chromedriver --version').read() 改为 cmmond = str(self.python_root) + '/chromedriver --version' result = os.popen(cmmond).read() 因为检查的位置和下载的位置不一致。
Mac下sed命令报错：sed: 1: command a expects \ followed by text
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。