这几个数据分析项目,让我看到了什么才叫专业!!

大家好,我是小一

新的一周又来了,从今天开始,会出一个新的系列《数分实验室》

实验室会介绍一些有内核、有科技的数据分析实战项目。

项目数据集、源代码都是公开的,非常适合想练手但是又没数据、没参考案例的同学

今天先热热身,分享几个之前看到的 数据分析入门项目

1、Airbnb

Airbnb出租数据分析,是一个入门级数分析项目

如果你还没有完整的做过一个数分项目,不妨试试这个

首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索

后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。

项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。

也不难,基本学过数学的都会

房间类型的频率分布

请添加图片描述

价格和最小夜数的中心趋势

请添加图片描述

平均价格最高的10个小区分布

请添加图片描述

因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略

图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等

基于经纬度的地理分布

请添加图片描述

请添加图片描述

项目地址:

https://www.kaggle.com/code/upadorprofzs/understand-your-data-airbnb-reservations

2、Craigslist-EDA

Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。

数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。

在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择

特征变量的分布用到了散点图、密度图、箱型图等等

这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间

请添加图片描述
请添加图片描述

项目地址:

https://www.kaggle.com/code/nareshbhat/data-visualization-in-just-one-line-of-code/notebook

3、Craigslist-SWEETVIZ

如果说,上面对二手车销售数据分析你不满意,觉得比较复杂

那自动化数据探索工具就很有必要了解一下了

项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了

安装起来也比较简单

!pip install sweetviz

调用的时候直接两行代码完事:

report = sweetviz.analyze([train,'train'],target_feat='Survived')
report.show_html('report.html')

运行的结果是这样的:

请添加图片描述

请添加图片描述
请添加图片描述

在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。

项目地址:

https://www.kaggle.com/code/nareshbhat/eda-within-snap-of-fingers?scriptVersionId=68900634

4、收尾

虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透

但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天

今天就聊这么多吧,我是小一,我们下期见~

原文链接:这几个数据分析项目,让我看到了什么才叫专业!!
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值