采集校园卡消费信息可视化(安徽工商职业学院)

闲的没事干,分析下我自己的一卡通消费信息。

使用了以下技术进行数据分析并且环境已经搭建好。

Hadoop hive mysql sqoop centos7 python zeppelin

思路:

python爬自己的消费记录,存入到mysql sqoop把数据转移到hive,基于zeppelin可视化。

爬虫部分

一卡通网站

 

爬取前F12看下抓包数据 ,要爬取的URL​​​​​​​

 

cookie登录用

表单携带的数据sdate开始日期 edate结束日期 account为学号对应的卡号

执行爬虫代码,并保存到数据库。​​​​​​​

 

mysql查看

数据导入

sqoop把mysql数据导入到hive(hive要提前好库) 

完成

hive数据

zeppelin简单分析可视化

查看数据

查看表结构

原表数据字段类型需要重新转换,建个新表加载进去

加载数据,顺便把消费里面的-去掉方便统计

insert into table sh select date,place,cmoney,split(cmoney,'-')[1] as new_xiaofei,chongzhi,surplus from ahbvc_sh;

需要把日期分割出来,方便分组

加载到新表

 新表数据

看一看充值记录(2020-10-10 到 2022-10-13)

 总共充值金额(不知不觉充了一万多了)

每日消费金额(可以看出每天10-30块钱很密集,怎么有条记录一天消费76?一年后才知道,心痛)

看一下(难不成被盗用了 实在想不起来咋花的了。)

每月吃七块套餐次数

每月吃八块套餐次数

对比挺有意思,2022年之前大部分吃饭都是八块的套餐,2022年之后七块(懂得都懂

每月消费金额,基本上用来吃饭

 每年消费金额(2020 1816元占了17% ,2021 5779元占了54%,2022 3066元占了29%)

 各个区域消费(一楼食堂吃的最多花了9164)

 刷卡次数

 随便练习,apache开源组件 禁止用于非法用途

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值