大数据项目实战Hive on Spark电信用户行为分析

本文介绍了在互联网时代,如何通过收集用户网络行为数据,构建大数据环境,包括使用Flume采集日志、HDFS存储、Hive构建数据仓库以及Spark进行分析。重点讲述了OLTP和OLAP的区别,以及数据仓库的层次结构,如事实表、维度表和不同数据层的设计与功能划分。
摘要由CSDN通过智能技术生成

概要

现在是互联网的时代, 每个人的生活中都会使用到互联网的各种应用, 我们会进行网络购物, 会进行新闻浏览, 视频浏览, 微信聊天等等, 当我们在使用互联网的时候, 我们的所有的数据都需要通过运行商(电信, 移动,联通)进行数据的发送和接收, 对于每一个访问, 运营商都可以获取到对应的请求信息, 我们可以通过 对网络请求的信息分析, 及时掌握互联网的动态和行业前沿, 并且根据用户的请求访问数据, 我们可以分析 互联网行业的发展现状和每个城市的互联网的发展程度等等. 通过对于互联网的发展的相关指标分析, 可 以为政府部门, 商业公司提供一些决策分析的数据.

  1. 为相关统计部门提供数据支持, 比如上网的用户时长, 上网的用户人数, 上网模式的占比等等
  2. 为行业发展的预测提供数据支撑
  3. 为企业发展提供数据支撑, 分析每个网站的访问情况

整体架构流程

整体框架如下图所示
图1 整体技术框架图

图1 整体架构图
首先用户行为产生的日志数据通过Flume采集到HDFS集群中,接下来是hive数仓搭建工作,最后将应用层数据使用DataX同步到MySQL数据库中,通过QuickBI展示出相应的指标,如下图所示

在这里插入图片描述

图2 项目效果可视化

技术细节

大数据环境搭建

集群规划如下,主要用到三台服务器Hadoop01、Hadoop02、Hadoop03。01作为集群的主节点和资源管理者,另外两台作为从节点
集群规划

表1. 集群规划

一些软件和环境配置如下
在这里插入图片描述
配置JDK等软件包时候,可以直接在其中一台服务器配置豪,通过同步软件分发到其他服务器上。当集群搭建好后,可以通过
start-all.sh stop-all.sh 开启和停止集群。并且可以通过jps 命令查看集群的启动效果。下图为集群启动成果后的效果。包括NameNode、DataNode等相关角色。
在这里插入图片描述

图3 集群启动后效果

另外启动hive 和 Spark如下:启动hive:bin/hive ;启动spark:bin/spark-shell,但是安装pyspark时候要和集群的spark版本一致,否则代码会报错,而且需要指定pyspark的路径为anaconda

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"]="/bigdata/server/anaconda3/envs/pyspark/bin/python3"

数据采集

数据采集软件为Flume, 前提条件是业务系统需要有hadoop的客户端。项目实践中使用的电信用户行为原始数据如下:包括上网的ip、方式、模式、访问网站等,例如通过ip可以获得用户所在的区域等。
在这里插入图片描述
安装好Flume 软件后,需要在lib目录添加一个ETL拦截器,在业务服务器的Flume的lib目录添加itercepter-etl.jar,这样做的目的是

  • 处理标准的json格式的数据, 如果格式不符合条件, 则会过滤掉该信息
  • 处理时间漂移的问题, 把对应的日志存放到具体的分区数据中
    最后运行数据采集命令
bin/flume-ng agent --conf conf/ --name a1 --conf-file jobs/log_file_to_hdfs.conf -Dflume.root.logger=INFO,console

最终日志采集的效果如下:
在这里插入图片描述

图4 日志采集效果图

数据仓库建模与建设

  • 联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。具有较强的数据一致性和事务操作
  • OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息. 主要是一个数据分析系统, 要求有较快的时间响应

对于我们常用的关系型数据库, 对于数据一致性要求比较高, 基本都是我们的OLTP系统,而对于我们常见的数据分析系统, 主要是根据已有的业务数据进行统计分析, 比如管理驾驶舱数据统计分析,比如做BI报表, 做机器学习等, 这些我们会专门在一个数据分析系统OLAP系统进行统计分析

  • 事实表。是指存储有事实记录的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,所以它的体积通常远大于其他表。
  • 维度表。维度表或维表,有时也称查找表,是与事实表相对应的一种表;它保存了维度的属性值,可以跟事实表做关联;相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。常见的维度表有:日期表(存储与日期对应的周、月、季度等的属性)、地点表(包含国家、省/州、城市等属性)等。维度是维度建模的基础和灵魂,
  • ODS层: 存放业务系统采集过来的原始数据, 直接加载的业务数据, 不做处理
  • DWD层: 对于ODS层的数据做基本的处理, 并且进行业务事实的分析和定位(不合法的数据处理, 空值的处理), 一行数据代表的是一个业务行为
  • DWS层, 对于DWD层的业务数据进行按天或者按照一定的周期进行统计分析, 是一个轻度聚合的结果DIM层, 维度统计层, 对于需要统计分析(group by)的相关的条件进行统一的设计和规范, 比如时间, 地区, 用户等
  • ADS(数据应用层): 需要的业务统计分析结果, 一般会把ADS层的数据抽取到业务数据库MySQL中。例如本项目的需求如下
    在这里插入图片描述
    对数据仓库分层,可以把复杂问题简单化不同的层次负责不同的功能定位;减少重复开发,对于DIM, DWS可以根据主题进行自上而下的设计, 抽取通用的功能;隔离原始数据 ODS层原始数据, 可以对统计结果进行回溯, 方便问题的定位

参考资料

https://www.bilibili.com/video/BV1L24y1o7f7/?spm_id_from=333.999.0.0

  • 24
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hive on Spark大数据处理的最佳实践之一。它将HiveSpark两个开源项目结合起来,使得Hive可以在Spark上运行,从而提高了数据处理的效率和速度。Hive on Spark可以处理大规模的数据,支持SQL查询和数据分析,同时还可以与其他大数据工具集成,如Hadoop、HBase等。在实际应用Hive on Spark可以用于数据仓库、数据分析、机器学习等领域,是一种非常实用的大数据处理方案。 ### 回答2: 随着大数据应用的不断增多,越来越多的企业开始关注大数据技术的实现与应用。Hive是基于Hadoop的开源数据仓库系统,它提供了一种类似于SQL的语言,使得非技术用户能够方便地查询大量数据。而Spark则是现在最流行的分布式计算框架,因其内存计算功能,比Hadoop更加高效和快速。 在实践Hive on Spark将两个框架结合在一起,提供了更高效和实用的解决方案。在Hive on Spark,数据可以通过Spark来加速计算和查询,从而实现更高效的大数据处理。Hive on Spark集成了Spark的强大内存计算引擎,可以支持更大规模的数据处理和更快速的查询处理,同时还可以提供更好的性能、更低的延迟和更低的处理成本。 Hive on Spark采用了Spark作为计算框架,Spark可以很快地对Hive上的数据进行处理,因此可以处理数百亿条数据。此外,由于Spark是基于内存的计算框架,因此可以大大提高计算速度,并消除了磁盘IO瓶颈。因此,Hive on Spark可以支持更快的查询响应时间和更高的用户并发性能。 除了这些,Hive on Spark还提供了更简单的应用管理和维护,对提高大数据处理效率和时间的优化非常有利。同时,它还提供了机器学习和深度学习模型的处理能力,从而可以实现更广泛的数据分析应用。尤其对于非技术人员,通过Hive on Spark用户可以快速地实现自己的数据分析需求,从而实现有效管理和使用数据。 总之,Hive on Spark是目前最有效和实用的大数据处理和管理框架之一。它使得数据分析变得更加简单和高效,并可以快速满足业务需求,使企业在大数据技术和应用方向上取得更大成就。 ### 回答3: Hive on Spark是一种基于Apache Spark的分布式计算系统,它将Apache HiveSpark技术相结合,提供了更加高效的数据处理和分析能力。在大数据行业Hive on Spark已经成为了一种最佳实践,因为它能够帮助企业实现更快的数据处理速度和更高的数据处理能力。 首先,Hive on Spark可以让企业更加轻松地使用Spark进行数据处理和分析。Apache Spark是一种流行的分布式计算框架,拥有强大的数据处理能力和高效的架构。而Hive on SparkHive SQL和Spark技术相结合,让企业用户能够以更加简单的方式使用Spark进行数据分析和处理。 其次,Hive on Spark能够极大地提高数据处理的速度和能力。Hive on Spark通过将Hive SQL转换为Spark的RDD操作,能够在分布式环境下对大规模数据进行高效的处理和分析。相比于传统的Hadoop集群,Hive on Spark可以提供更高的数据处理速度和更高的数据处理能力,能够帮助企业更加顺畅地进行数据分析和决策。 最后,Hive on Spark还具有可扩展性和灵活性。企业用户可以根据自身的需求对Spark集群进行扩容或者缩容,以满足更加多样化的数据处理需求。同时,Hive on Spark还支持多种数据格式,包括Hive表、CSV、JSON等,能够帮助企业更加灵活地处理不同类型的数据。 总之,Hive on Spark大数据行业最佳实践之一,它能够帮助企业客户更加方便地使用Spark进行数据处理和分析,提高数据处理的速度和能力,同时还具有可扩展性和灵活性等特点,能够帮助企业更加高效地进行数据分析和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值