元旦去哪玩?用Python告诉你哪些景点爆满!

阅读本文大约需要 7 分钟


作者:zone7

首发于微信公众号:zone7

概述

? 前言

? 思考

? 统计结果

? 爬虫技术分析

? 爬虫代码实现

? 爬虫分析实现

? 后记

? 阿广说

前言

年过二十,我渐渐的发现我喜欢上了一个人做事,与其说这是孤单,不如说独处。我认为独处不应该和孤独相混淆,孤独是一个人的狂欢,而狂欢是一群人的孤独!

昨天的每日一问题问读者朋友们元旦如何度过,看到有的朋友说出去旅游,那么如何选择旅游才能趋独处避孤单呢?下面使用Python帮大家分析一下!

640?wx_fmt=png

弘扬一下社会主义核心价值观

思考

(此段可跳过)要抓取出行方面的数据还不简单,直接去看看携程旅游、马蜂窝这类网站看看有没有数据抓取。但是实际上这些网站并没有比较好的格式化的数据供我们抓取,或许是我没找到吧。我在想,有没有什么折中的办法。然而,就这样半天过去了,突然想到,要出行肯定会查找相关的出行攻略吧,那么关键词就是一个突破口,可以查询百度指数来看看哪些景点被查询的次数最多,那么就可以大概知道哪些景点会爆满了。

统计结果

此次的统计结果只是从侧面反映景点爆满的问题,未必是完全准确的,仅供参考。此次统计的景点共有 100 个:

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

桂林、三亚、泰山的搜索量都是杠杠的,这第一梯队的地方能不去就别去了,去了也是人山人海的,爆满是无疑的了。

640?wx_fmt=jpeg

捂脸.jpg

640?wx_fmt=png
top0-10

第二梯队的搜索量也不差,日均搜索量还是上万的,谨慎行动。

640?wx_fmt=png
top10-20

第三梯队下来就可以考虑考虑,为了避免不必要的塞车与等待,建议大家还是呆在家里吧!!!

640?wx_fmt=png
top20-30

第四梯队应该没太大的问题,建议出去溜达溜达。

640?wx_fmt=png
top30-40

都到第五梯队了,就可以放心地玩耍了。经历了那么多的烦心事,是该好好放飞一下自己了。

640?wx_fmt=png
top40-50

爬虫技术分析

  • 请求库:selenium

  • HTML 解析:使用正则匹配

  • 数据可视化:pyecharts

  • 数据库:MongoDB

  • 数据库连接:pymongo

爬虫分析实现

此次文章能够实现参考效果,完全是因为抖机灵。首先是选取爬虫来源,携程与马蜂窝没有结构化的数据,我们就换一种思路。首先是想到百度指数,如图:

640?wx_fmt=png
百度指数

关于数据清洗方面,这里筛选了数据量过小,和数据量异常大的景点,详情在源码中查看。

640?wx_fmt=png

搜狗指数

 
  

爬虫代码实现

由于篇幅原因,这就只展示主要代码,详情请查看源码,点击阅读原文获取源码。

后记

整篇爬虫文章分析到这里就结束,不过还是对百度指数很有执念,想找个时间写一篇相关的文章才行,不搞定它感觉心里有块疙瘩,或许这就是程序员最后的倔强,最后祝大家元旦假期愉快,不用写代码。

阿广说

一年下来,经历了许多的事情,我们永远要保持“清零”的理念去学习。何为“清零”的理念?就是当本阶段的任务结束了之后,尽管事情做的很成功,也要放平心态,不骄不躁,不气不馁的稳步前行,初心不忘,保持着那股最初的干劲,砥砺前行。


考研,考公务员,考教师,找工作...每个人都有每个人的理想,元旦来临,我们可以将元旦当作我们的加油站,短暂休息过后继续前行!我相信我们不会因为一个人孤独而使“竞争对手”狂欢,也不会因为那么一群人的狂欢而使你孤独!

640?wx_fmt=jpeg

640?

推荐阅读

640?wx_fmt=jpeg

640?

今日问题  

640?

你去过哪些知名的景点?

有什么深刻的印象?

打卡格式:打卡第n天,答:...

为什么打卡?戳下面就知道了!

21/天/养/一/个/好/习/惯

640?wx_fmt=png 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值