项目
文章平均质量分 93
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
使用SparkSQL的电影分析
项目介绍 数据集介绍 使用MovieLens的名称为ml-25m.zip的数据集,使用的文件时movies.csv和ratings.csv,上述文件的下载地址为: http://files.grouplens.org/datasets/movielens/ml-25m.zip movies.csv 该文件是电影数据,对应的为维表数据,大小为2.89MB,包括6万多部电影,其数据格式为[movieId,title,genres],分别对应[电影id,电影名称,电影所属分类],样例数据如下所原创 2021-05-15 16:42:20 · 2209 阅读 · 0 评论 -
推广渠道如何分析?
【面试题】 有两个Excel表是A、B两个渠道推广导出的玩家用户明细数据,自选分析角度,产出数据分析报告。(某游戏公司面试题) 渠道A的玩家 渠道B的玩家 【参考答案】 1.分析思路 研究推广渠道A与B的的推广效果,以及渠道用户特征。分析的问题包括: (1)渠道A和B的在安装和注册方面的数据表现如何? (2)渠道A和B的用户分布具有什么特征? (3)如何评价渠道A和B,并进行渠道选择? 使用多维度拆解分析方法和对比分析方法,从多个维度来分析和比较,分析思路如下: ..原创 2020-10-21 22:47:15 · 926 阅读 · 0 评论 -
电商数仓脚本
我的脚本存放目录 /user/local/bin/ 注意:有些脚本涉及到用户和密码记得要改成自己的!路径有的也需要留意。 ------------------------------------------------------------------- 目录 1.xsync集群分发脚本 2.zookeeper集群起动关闭脚本 3.日志启动脚本 4.时间同步脚本(用于造假数据) 5.集群各个节点查看状态脚本 6.日志采集 Flume 启动停止脚本 7.Kafka 集群启动停止脚本 8.日原创 2020-06-17 10:09:54 · 843 阅读 · 0 评论 -
实战:淘宝app SQL分析 + Excel可视化
分析框架: 数据集下载:天池竞赛中有。 数据集网址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1 将下载到的csv文件导入到mysql数据库,请读者自行百度。 正文: 拿到数据,先看一眼数据长啥样,是否有null值,什么样的数据类型; select * from tianchi_m...转载 2020-03-13 22:42:54 · 572 阅读 · 0 评论 -
Hive案例之微博
数据下载链接: https://pan.baidu.com/s/1OGyO2jFj393-Dcq3eosbjA&shfl=sharepset 提取码:jtdi 数据案例(取其中两个文件即可): [{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387157643","commentCount":"682","...原创 2019-11-10 19:33:56 · 661 阅读 · 0 评论 -
Hive案例之影评
现有如此三份数据: 1、users.dat 数据格式为: 2::M::56::16::70072 对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String 对应字段中文解释:用户id,性别,年龄,职业,邮政编码 2、movies.dat 数据格式为: 2::Jumanji...原创 2019-11-10 19:24:11 · 737 阅读 · 0 评论 -
通话运营项目
一、数据情况 每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量 二、指标KPI 1、浏览PV (1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。 (2)分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是...原创 2019-11-01 15:07:52 · 193 阅读 · 0 评论