实战SparkStream+Kafka+Redis实时计算商品销售额

7 篇文章 0 订阅
6 篇文章 0 订阅

写在前面

2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://github.com/alibaba/jstorm),最近学习SparkStream和Kafka,可以简单模仿一下这个时实计算成交额的过程,主要目的是实际运用这些技术,也了解一下技术的运用场景,加深对技术的理解。

大屏

实时计算模型

下图所示为通用SparkStream时实计算模型,主要分为三部分

  1. 数据源
    我们这里的数据源选用了Kafka,关于Kafka的安装与使用说明可以参考这里https://kafkadoc.beanmr.com/

  2. SparkStream计算
    SparkStream是实时计算的核心,这们这里也是近时实计算,选择一个时间窗口,对时间窗口中的数据做离线计算。

  3. 数据落地
    SparkStream算好的结果可以存HDFS/Mysql/Redis等等,我们这里对商品销售额计算过程有涉及累加,所以选择了Redis

时实计算

业务模型介绍

我们模仿一个电商系统,每时每刻都有订单成交,每一笔成交的数据以一个事件发送到Kafka中,SparkStream每一分中从Kafka中读取一次数据,计算一分钟内每个商品的销售额,然而写入Redis,并在Redis中累加每分钟的数据,Redis中主要存三种结果数量,从开始到当前总销售额、从开始到当前每个商品销售额、上一分钟每个商品的销售额

Kafka生产者,模拟每时每刻订单交易

object OrderProducer {


  def main(args: Array[String]): Unit = {

    //Kafka参数设置
    val topic = "order"
    val brokers = "127.0.0.1:9092"
    val props = new Properties()
    props.put("metadata.broker.list", brokers)
    props.put("serializer.class", "kafka.serializer.StringEncoder")
    val kafkaConfig = new ProducerConfig(props)
    //创建生产者
    val producer = new Producer[String, String](kafkaConfig)

    while (true) {
      //随机生成10以内ID
      val id = Random.nextInt(10)
      //创建订单成交事件
      val event = new JSONObject();
      //商品ID
      event.put("id", id)
      //商品成交价格
      event.put("price", Random.nextInt(10000))

      //发送信息
      producer.send(new KeyedMessage[String, String](topic, event.toString))
      println("Message sent: " + event)
      //随机暂停一段时间
      Thread.sleep(Random.nextInt(100))
    }
  }

}

生产者输出结果:

Message sent: {"price":3959,"id":6}
Message sent: {"price":1579,"id":0}
Message sent: {"price":857,"id":6}
Message sent: {"price":8440,"id":1}
Message sent: {"price":6873,"id":6}
Message sent: {"price":6202,"id":2}
Message sent: {"price":8403,"id":6}
Message sent: {"price":7866,"id":2}
Message sent: {"price":9441,"id":5}
Message sent: {"price":6880,"id":4}
Message sent: {"price":4572,"id":5}
Message sent: {"price":509,"id":3}
Message sent: {"price":7526,"id":0}

上述代码主要模拟一家店铺有十件商品,ID从0到9,每隔一小段随机时间成交一单,成交价格以分为单位,每成交一笔就像Kafka中发送一个消息,用这个生产者模拟线上的真实交易,在实际生产中成交数据可以从日志中获取。

Kafka消费者,SparkStream时实计算


object OrderConsumer {
  //Redis配置
  val dbIndex = 0
  //每件商品总销售额
  val orderTotalKey = "app::order::total"
  //每件商品上一分钟销售额
  val oneMinTotalKey = "app::order::product"
  //总销售额
  val totalKey = "app::order::all"


  def main(args: Array[String]): Unit = {

    // 创建 StreamingContext 时间片为1秒
    val conf = new SparkConf().setMaster("local").setAppName("UserClickCountStat")
    val ssc = new StreamingContext(conf, Seconds(1))

    // Kafka 配置
    val topics = Set("order")
    val brokers = "127.0.0.1:9092"
    val kafkaParams = Map[String, String](
      "metadata.broker.list" -> brokers,
      "serializer.class" -> "kafka.serializer.StringEncoder")


    // 创建一个 direct stream
    val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

    //解析JSON
    val events = kafkaStream.flatMap(line => Some(JSON.parseObject(line._2)))

    // 按ID分组统计个数与价格总合
    val orders = events.map(x => (x.getString("id"), x.getLong("price"))).groupByKey().map(x => (x._1, x._2.size, x._2.reduceLeft(_ + _)))

    //输出
    orders.foreachRDD(x =>
      x.foreachPartition(partition =>
        partition.foreach(x => {


          println("id=" + x._1 + " count=" + x._2 + " price=" + x._3)

          //保存到Redis中
          val jedis = RedisClient.pool.getResource
          jedis.select(dbIndex)
          //每个商品销售额累加
          jedis.hincrBy(orderTotalKey, x._1, x._3)
          //上一分钟第每个商品销售额
          jedis.hset(oneMinTotalKey, x._1.toString, x._3.toString)
          //总销售额累加
          jedis.incrBy(totalKey, x._3)
          RedisClient.pool.returnResource(jedis)


        })
      ))


    ssc.start()
    ssc.awaitTermination()
  }

}

消费者每分钟输出

id=4 count=3 price=7208
id=8 count=2 price=10152
id=7 count=1 price=6928
id=5 count=1 price=3327
id=6 count=3 price=20483
id=0 count=2 price=9882
id=2 count=2 price=9191
id=3 count=2 price=8211
id=1 count=3 price=9906

Redis客户端

object RedisClient extends Serializable {

  val redisHost = "127.0.0.1"
  val redisPort = 6379
  val redisTimeout = 30000
  lazy val pool = new JedisPool(new GenericObjectPoolConfig(), redisHost, redisPort, redisTimeout)

  lazy val hook = new Thread {
    override def run = {
      println("Execute hook thread: " + this)
      pool.destroy()
    }
  }
  sys.addShutdownHook(hook.run)


  def main(args: Array[String]): Unit = {
    val dbIndex = 0

    val jedis = RedisClient.pool.getResource
    jedis.select(dbIndex)
    jedis.set("test", "1")
    println(jedis.get("test"))
    RedisClient.pool.returnResource(jedis)

  }


}

Redis结果

上一分钟商品销售额,有了这个数据就可以做成动态的图表展示时实交易额了
redis

每件商品总销售额
这里写图片描述

总销售额,这就是天猫大屏上的1111亿了
总数

完整代码地址

http://git.oschina.net/whzhaochao/spark-learning/tree/master/spark/src/main/scala/com/spark/stream/order

原文地址:http://blog.csdn.net/whzhaochao/article/details/77717660

### 回答1: flume、kafkaspark streamingredis 可以结合使用,实现实时统计广告投放的 PV、UV、Click 和 Cost。 具体实现方式如下: 1. Flume 用于采集广告投放的数据,将数据发送到 Kafka 中。 2. Kafka 作为消息队列,接收 Flume 发送的数据,并将数据分发给 Spark Streaming 进行处理。 3. Spark StreamingKafka 中消费数据,进行实时计算统计广告投放的 PV、UV、Click 和 Cost。 4. 计算结果可以存储到 Redis 中,以便后续查询和分析。 通过这种方式,可以实现实时的广告投放统计,帮助企业更好地了解广告投放效果,优化广告投放策略,提高广告投放的效果和收益。 ### 回答2: Flume、KafkaSpark StreamingRedis作为数据处理与存储工具,可以实现基于实时流数据的广告投放数据统计。在该流程中,Flume可以作为源头采集数据,Kafka则可以作为缓存和转发工具,Spark Streaming负责数据处理和分析,Redis则作为数据存储与查询平台。 在Flume中,可以使用Source来采集数据,例如日志等文件或数据流,同时Flume可以将采集的数据进行转换,如使用XML或JSON等格式进行转换,然后通过Sink进行数据导出和存储。 在Kafka中,可以将Flume采集的数据作为数据源存储到Kafka中,并使用Kafka自带的Producer、Consumer API进行数据的传输和订阅。 在Spark Streaming中,可以使用Spark提供的实时流处理库来进行数据的处理和分析,如结合Spark的SQL、MLlib进行数据挖掘和建模。通常可以将Spark Streaming中的数据缓存到Redis,并通过Redis的键值对查询功能进行数据统计和查询分析。 最后,可以通过Redis来存储数据,使用Redis提供的数据类型来存储pv、uv、click以及cost等数据,并结合Redis提供的计数器和排序功能实现数据的实时统计和查询。 总的来说,以上四个工具可以实现一整套数据处理与存储平台,从数据采集到存储和分析的全过程,实现实时的广告投放数据统计和查询。 ### 回答3: Flume是一种流数据采集工具,可用于收集发往Kafka的各种数据流。Kafka是一种分布式消息系统,能够收集大量数据并保证实时性和持久性。Spark Streaming是一种流处理框架,能够对实时的数据流进行计算和处理。Redis是一种高性能的内存数据库,可用于存储和处理非常庞大的数据集。 在实时统计广告投放的PV(页面访问量),UV(独立访客数),Click(点击数)和Cost(花费)的过程中,我们可以利用以上四种技术组成一个实时数据管道以实现需求。 首先,Flume可以被用来从每个服务器中收集PV和Click数的日志。这些数据流将被直接推送到一个Kafka集群,以保证数据的实时性和可靠性。接着,Spark Streaming将被用来解析和处理Kafka中传来的数据流。它将从Kafka中提取数据,并进行一些预处理,例如对数据进行去重和排序,如果需要,可以求出UV。Spark Streaming还能够对数据流进行实时计算、聚合和过滤,最后将结果存入Redis中,以便于后续查询。 在此过程中,Redis将会扮演重要的角色。Redis可以用来存储实时的结果,同时也能够作为一个容错存储系统,以保证数据的可靠性。当Spark Streaming成功处理了数据之后,结果将经过一审,存入Redis数据库中,供后续查询使用。 最后,这整个流程是一种无状态的实时数据流处理方式。这意味着,在计算某一个数据点的时候,程序不需要考虑历史数据。而是通过更新进入的流实现。实时的数据流处理方式非常迎合现代数据处理的趋势,尤其是当前机器学习、人工智能不断兴起的背景下,实时数据对于模型训练以及预测特别重要。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵侠客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值