Spark实战项目--电商

项目流程目录

Spark实战项目——电商指标统计

一、引言

  1.1 框架设计原理

  1.2 框架搭建

    1.2.1 Util

      1.2.1.1 EnvUtils
      1.2.1.2 PropertiesUtil

    1.2.2 core

      1.2.2.1 TApplication
      1.2.2.2 TController
      1.2.2.3 TService
      1.2.2.4 TDAO

二、实战项目

  2.1 项目思路

  2.2 原始数据

  2.3 准备样例类

  2.4 需求1:Top10热门品类

    2.4.1 数据结构分析

    2.4.2 数据结果分析

    2.4.3 实现步骤

    2.4.4 代码实现

      2.4.4.1 bean
      2.4.4.2 HotCategoryTOP10ApplicationReview
      2.4.4.3 HotCategoryTop10ControllerReview
      2.4.4.4 HotCategoryTop10DAOReview
      2.4.4.5 HotCategoryTop10ServiceReview

    2.4.5 优化:使用累加器

      2.4.5.1 更新bean
      2.4.5.2 累加器 :HotCategoryTop10AccumulatorReview
      2.4.5.3 更新HotCategoryTop10ServiceReview
      2.4.5.4 其余结构不变
      2.4.5.5 运行结果

    2.4.6 需求1总结

  2.5 需求2:Top10热门品类中每个品类的Top10活跃点击Session统计

    2.5.1 数据结构

    2.5.2 数据结果分析

    2.5.3 实现步骤

    2.5.4 代码实现

      2.5.4.1 HotCategorySessionTOP10ApplicationReview
      2.5.4.2 HotCategorySessionop10ControllerReview
      2.5.4.3 HotCategorySessionTop10DAOReview
      2.5.4.4 HotCategorySessionTop10ServiceReview
      2.5.4.5 运行结果

    2.5.5 优化:使用广播变量

    2.5.6 需求2总结

  2.6 需求3:页面单跳转换率统计

    2.6.1 数据结构

    2.6.2 数据结果分析

    2.6.3 实现步骤

    2.6.4 代码实现

      2.6.4.1 PageFlowApplicationReview
      2.6.4.2 PageFlowControllerReview
      2.6.4.3 PageFlowDAOReview
      2.6.4.4 PageFlowServiceReview
      2.6.4.5 运行结果

    2.6.5 指定页面转换率

      2.6.5.1 修改PageFlowServiceReview
      2.6.5.2 运行结果

    2.6.6 需求3总结

  2.7 需求4 :统计页面id的平均停留时间

    2.7.1 数据结构

    2.7.2 需求结果分析

    2.7.3 实现步骤

    2.7.4 代码实现

      2.7.4.1 修改PageFlowServiceReview
      2.7.4.2 运行结果

    2.7.5 需求4总结

三 、项目总结

  3.1 踩过的坑

  3.2 逻辑及优化总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程介绍: 讲解一个真实的、复杂的大型企业级大数据项目,是Spark的大型项目实战课程。 通过本套课程的学习,可以积累大量Spark项目经验,迈入Spark高级开发行列。 课程特色: 1、项目中全面覆盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架几乎全部的初级和高级的技术点和知识点, 让学员学以致用,通过一套课程,即掌握如何将Spark所有的技术点和知识点应用在真实的项目中,来实现业务需求! 2、项目中的4个功能横块,全郃是实际企业项目中提取出来的,并进行技术整合和改良过的功能模块.全都是企业级的复杂和真实的需求,业务模块非常之复杂,绝对不是市面上的Dem级别的大数据项目能够想比拟的,学习过后,真正帮助学员增加实际 企业级项目实战经验。 3、项目中通过实际的功能模块和业务场景,以及讲师曾经开发过的处理十亿、甚至百亿以上数据级别的SparK作业的经验积累,贯穿讲解了大量的高级复杂的性能调优技术和知识、troubleshooting解决线上报错和故障的经验、高端的全方位数据倾斜处理和解决方案.真正帮助学员掌握高精尖的Spark技术! 4、项目中采用完全还原企业大数据项目开发场景的方式来讲解,每一个业务模块的讲解都包括了需求分析、方案设计、数据设计、编码实现、功能测试、性能调优等环节,真实还原企业级大数据项目开发场景。 模块简介: 1、用户访问session分析,该模块主要是对用户访问session进行统计分析.包括session的聚合指标计算、 按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session.该模块可以让产品经理、数据分析师以及企业管理层形象地看到各种条件下的具体用户行为以及统计指标.从而对公司的产品设计以及业务发展战略做出调整.主要使用Spark Core实现. 2、页面单跳转化率统计,该模块主要是计算关键页面之间的单步跳转转化率,涉及到页面切片算法以及页面流匹配算法.该模块可以让产品经理、数据分析师以及企业管理层看到各个关键页面之间的转化率.从而对网页布局,进行更好的优化设计。主要使用Spark Core实现. 3、热门品离线统计,该模块主要实现每天统计出各个区域的top3热门品.然后使用Oozie进行离线统计任务的定时调度,使用Zeppeline进行数据可视化的报表展示.该模块可以让企业管理层看到公司售卖的 品的整体情况,从而对公司的品相关的战略进行调螫.主要使用Spark SQL实现。 4、广告流量实时统计.该模块负责实时统计公司的广告流量.包括广告展现流量和广告点击流量,实现动态黑名单机制以及黑名单过滤,实现滑动窗口内的各城市的广告展现流立和广告点击流直的统计,实现 每个区域诲个广告的点击流置实时统计,实现每个区域top3点击量的广告的统计,主要使用Spark Streaming实现.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值