摘要: 一、总览 一个游戏/系统的业务数据分析,总体可以分为图示的几个关键步骤: 1、数据采集:通过SDK埋点或者服务端的方式获取业务数据,并通过分布式日志收集系统,将各个服务器中的数据收集起来并送到指定的地方去,比如HDFS等;(注:本文Demo中,使用flume,也可选用logstash、Flue.
点此查看原文:http://click.aliyun.com/m/42633/
一、总览
一个游戏/系统的业务数据分析,总体可以分为图示的几个关键步骤:
1、数据采集:通过SDK埋点或者服务端的方式获取业务数据,并通过分布式日志收集系统,将各个服务器中的数据收集起来并送到指定的地方去,比如HDFS等;(注:本文Demo中,使用flume,也可选用logstash、Fluentd等)
2、数据同步:构建数据通道,接受数据采集agent的数据流,并且分发到不同的存储/计算引擎中去;(注:本文Demo中,使用阿里云datahub作为通道,MaxCompute作为存储/计算引擎)
3、数据开发:按照日志格式、业务领域,构建数据模型;(注:本文Demo中,在MaxCompute中创建对应的project、table)
4、数据计算/分析:按照业务场景的分析要求,编写SQL脚本 或者 使用工具,完成数据的分析及展现;(注:本文Demo中,基于阿里云quickBI,完成多维分析、仪表盘的配置)
接下来按照上述步骤,给大家具体介绍,如何利用相关的平台/工具,实现一个简单的数据分析场景。
二、环境准备
首先,需要准备一台服务器,作为日志采集的agent,此处选用阿里云的ECS(具体ECS选购过程不再赘述),服务器配置信息:
实例规格:4 核 16GB
地域:华东 1(华东 1 可用区 F)
操作系统:CentOS 7.4 64位
网络类型:专有网络
安全组:允许远程ssh
本地远程登录ECS服务器
ssh {username}@{host}
Step1:安装JDK
Flume运行依赖java环境,因此需要在服务器安装SDK,本文采用先下载到本地,再上传服务器的方式安装。
1、下载并上传SDK (demo选用jdk1.8.0_151,可至oracle官网下载)
scp {本地文件路径} {username}@{host}:{服务器目录}
2、上传完成,解压并设置相应的环境变量:
1、tar -zxvf {jdk压缩包名}
2、环境变量设置
# vi /etc/profile
增加:
export JAVA_HOME={jdk目录}
export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME JRE_HOME CLASS_PATH PATH
#source /etc/profile
3、检查SDK是否安装完成:
java -version
Step2:安装flume
同样,对于flume&