![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
项目
文章平均质量分 93
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
使用SparkSQL的电影分析
项目介绍数据集介绍使用MovieLens的名称为ml-25m.zip的数据集,使用的文件时movies.csv和ratings.csv,上述文件的下载地址为:http://files.grouplens.org/datasets/movielens/ml-25m.zip movies.csv 该文件是电影数据,对应的为维表数据,大小为2.89MB,包括6万多部电影,其数据格式为[movieId,title,genres],分别对应[电影id,电影名称,电影所属分类],样例数据如下所原创 2021-05-15 16:42:20 · 2136 阅读 · 0 评论 -
推广渠道如何分析?
【面试题】有两个Excel表是A、B两个渠道推广导出的玩家用户明细数据,自选分析角度,产出数据分析报告。(某游戏公司面试题)渠道A的玩家渠道B的玩家【参考答案】1.分析思路研究推广渠道A与B的的推广效果,以及渠道用户特征。分析的问题包括:(1)渠道A和B的在安装和注册方面的数据表现如何?(2)渠道A和B的用户分布具有什么特征?(3)如何评价渠道A和B,并进行渠道选择?使用多维度拆解分析方法和对比分析方法,从多个维度来分析和比较,分析思路如下:..原创 2020-10-21 22:47:15 · 909 阅读 · 0 评论 -
电商数仓脚本
我的脚本存放目录 /user/local/bin/注意:有些脚本涉及到用户和密码记得要改成自己的!路径有的也需要留意。-------------------------------------------------------------------目录1.xsync集群分发脚本2.zookeeper集群起动关闭脚本3.日志启动脚本4.时间同步脚本(用于造假数据)5.集群各个节点查看状态脚本6.日志采集 Flume 启动停止脚本7.Kafka 集群启动停止脚本8.日原创 2020-06-17 10:09:54 · 486 阅读 · 0 评论 -
实战:淘宝app SQL分析 + Excel可视化
分析框架:数据集下载:天池竞赛中有。数据集网址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1将下载到的csv文件导入到mysql数据库,请读者自行百度。正文:拿到数据,先看一眼数据长啥样,是否有null值,什么样的数据类型;select * from tianchi_m...转载 2020-03-13 22:42:54 · 565 阅读 · 0 评论 -
Hive案例之微博
数据下载链接:https://pan.baidu.com/s/1OGyO2jFj393-Dcq3eosbjA&shfl=sharepset提取码:jtdi数据案例(取其中两个文件即可):[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387157643","commentCount":"682","...原创 2019-11-10 19:33:56 · 642 阅读 · 0 评论 -
Hive案例之影评
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji...原创 2019-11-10 19:24:11 · 724 阅读 · 0 评论 -
通话运营项目
一、数据情况每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量二、指标KPI1、浏览PV(1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。(2)分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是...原创 2019-11-01 15:07:52 · 181 阅读 · 0 评论