携程上海酒店数据采集及可视化

酒店的数量、价格、评分和人流量是衡量一个城市消费水平的指标,也间接反映出城市的经济发展水平和居民的生活水平。

我抓取了整个上海的携程酒店数据,一共 6000 余个酒店,包含几十个字段,主要的字段信息如下:并进行了简要的分析。

第一步,先来看看这个 dataframe 的整体分析 df.describle():

       discounted_price  entity_score         star          lng          lat
count       5712.000000   6013.000000  6203.000000  6203.000000  6203.000000
mean         460.375875      4.216498     2.035467   121.418132    31.220763
std          900.588455      0.664155     1.213317     0.163744     0.191488
min           19.000000      1.000000     0.000000   120.914303    30.707439
25%          152.000000      4.000000     2.000000   121.323827    31.128369
50%          253.000000      4.400000     2.000000   121.432059    31.218784
75%          429.000000      4.700000     3.000000   121.491432    31.292182
max        25017.000000      5.000000     5.000000   121.918401    31.827032

酒店价格最贵 25000 一晚,最低 19 块一晚(可能是青旅),

不愧是魔都,让月薪 1k 的不至于流落街头,年入千万的天天七星级,挺好的。

从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。

剔除价格的极端值后,再看可视化看看上海酒店价格的主要分布区间。

在这里插入图片描述

可以这么说,至少绝大部分的酒店价格都在 750 以下。

再来看看上海分区的价格情况。

在这里插入图片描述

最贵的是黄埔区、徐汇区、杨浦区,最便宜的是嘉定区、奉贤区。

然后看看各字段的相关性分析。

在这里插入图片描述

这张图信息量说大也大,毕竟有 16 个图。

说小也小,拆成一个个小图,每一个图都是一个变量关于其他变量的散点图(对角线上的除外)看 x、y 坐标,同时注意 label 是酒店星级。

其中经纬度和其他变量相关性太小,可以忽略,所以只看左上角四个小图构成的方块即可。

这样一来,可以很快得出一些无用的结论。

  • 价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。

  • 图例表示酒店星级,颜色越深,等级越高,在图中的位置越靠右、越靠上,也就是价格越高、评分越高。

  • 价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?

最后,把酒店价格可视化地展示在上海地图上。

柱子颜色深浅代表酒店人气,柱子高度代表酒店价格。

在这里插入图片描述

最后一个无用的结论,即大部分高价酒店人气低,大部分低价酒店人气高。

评论提供了有关酒店的大量信息。这个数据可用于许多nlp项目:推荐系统,情绪分析,同类酒店的图网,基于评论的酒店细分。该数据集包含25个城市的酒店列表和评论。 file/opensearch/documents/92885/hotelReviewsInAustin__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBali__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBangkok__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBarcelona__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInBombay__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInChicago__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInDubai__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInHong Kong__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInIstanbul__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInLondon__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInMiami__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInMilan__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInNew York__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInOsaka__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInParis__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInPhuket__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInPrague__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInRome__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInSan Francisco__en2019100120191005.csv file/opensearch/documents/92885/hotelReviewsInSantorini__en2019100120191005.csv file/opense
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月小水长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值