有很多数据分析新人,积累了一定统计理论知识储备和数据分析软件运用能力(SQL、EXCEL),也制定了学习框架。但是不知道如何来找一些数据分析的项目来做,并能写出一份数据分析报告呢?新人没有项目经验,很难找到相关工作。从哪里可以学习如何做数据分析项目?如何找到项目做?如何出报告?
今天小编从Kaggle和阿里天池上挑选了7个非常适合新人的项目,大家可以根据自己的实际情况,选择适合自己的来练手。
01酒店预订需求
kaggle数据集链接:Hotel booking demand 酒店预定需求数据集
数据内容:该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。适用场景:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。
数据量:32列共12W数据量
可以定义的问题:
1)基本情况:城市酒店和假日酒店9预订需求和入住率比较;
2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
3)一年中最佳预订酒店时间;
4)利用Logistic预测酒店预订
02电子游戏销售分析
kaggle数据集链接:Video Game Sales电子游戏销售分析
数据内容:包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。适用场景:电商、游戏销售,常规销售数据。
数据量:11列共1.66W数据量。可以定义的问题:
-
电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
-
预测每年电子游戏销售额。
3)可视化应用:如何完整清晰地展示这个销售故事。
03
Aribnb短租数据分析
阿里天池数据集链接:天池-Aribnb短租数据集分析
数据内容:数据分为汇总版和明细版两类。数据包括:短租房源基础信息,包括房源、房东、位置、类型、价格、评论数量和可租时间等等。另外还有短租房源时间表信息,包括房源、时间、是否可租、租金和可租天数等等。可以定义的问题:(1)计算房东的质量分数,实现房东的精细化运营管理(2)通过对房源信息进行量化,挖掘最受用户欢迎的房源(3)向客户推荐各个地区“最便宜”、“最精致”、“最小资”、“最有性价比”……的房源。
04 IBM员工离职因素分析
kaggle数据集链接:IBM员工离职原因数据集
数据包括:IBM员工离职原因数据及包括员工编号、年龄、受教育程度、离家距离、生活和工作的平衡、工作参与情况等信息。
可以定义的问题:
(1)通过分析该数据集找出员工流失的因素,
(2)工作角色和流失率的相关性;离家距离与流失率的相关性;
(3)平均月收入和受教育程度对流失率的影响。
05 世界大学排名
kaggle数据集链接:统计世界大学排名
数据包括: 世界大学排名数据集提供了五个类型的数据集,分别是泰晤士高等教育世界大学排名,世界大学的学术排名、世界大学排名研究中心排名、世界各地教育程度的数据、国家间公共和私人直接教育支出的信息。
对大学进行排名是一个困难,世界上有数百种不同的国家和国际大学排名系统。
可以定义的问题:
(1)比较这些排名,这些排名是否合理?
(2)提出你认为合理的大学排名计算方式?
06新冠病毒数据可视化
kaggle数据集链接:新冠病毒数据集
数据包括:数据集提供了自2020年1月22日起每天感染病例数,死亡和恢复情况的水平信息,这是一个时间序列数据,因此任何给定日期的案件数均为累计数。
可以定义的问题:
(1)运用该数据集可以完成病例增长趋势
(2)死亡趋势、治愈趋势等数据的可视化。
07 美国数据科学家的职业市场
kaggle数据集链接:美国数据科学家的职业市场
数据包括:全美7,000个数据科学家职位的信息,包括公司名称,职位名称,位置,职位描述和公司评论数等数据。
可以定义的问题:
(1)通过该数据集可视化数据科学家需要有什么样的特质?
(2)哪个位置机会最多?
(3)数据科学家需要拥有哪些技能,工具,学位或专业?