善若止水
码龄13年
关注
提问 私信
  • 博客:106,379
    社区:11,776
    118,155
    总访问量
  • 32
    原创
  • 2,196,961
    排名
  • 145
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2011-08-18
博客简介:

zhaoxiangchong的专栏

查看详细资料
个人成就
  • 获得19次点赞
  • 内容获得5次评论
  • 获得101次收藏
创作历程
  • 1篇
    2023年
  • 2篇
    2021年
  • 5篇
    2019年
  • 5篇
    2018年
  • 15篇
    2017年
  • 2篇
    2013年
  • 3篇
    2012年
成就勋章
TA的专栏
  • 数据库
    12篇
  • tns
    1篇
  • oem
    1篇
  • 企业管理器
    1篇
  • spark
    13篇
  • hive
    5篇
  • updateStateByKey
    1篇
  • kafka
    4篇
  • hbase
    2篇
  • java
    1篇
  • flume
    2篇
  • mysql
    1篇
  • sparksql
    1篇
  • redis
    2篇
  • scala
    2篇
  • 单例
    1篇
  • akka
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink的几种source来源

旧版的kafka版本(< v2.2) 用的参数依然是 zookeeper node1:2181。如果kafka的版本过低,比如 v0.8.2.1 时,flink会一致等待中,最后报错。bootstrap.servers 属于kafka版本>= v2.2时的参数。集合,文件以及自定义source 相对简单,重点演示kafka的对接。简单的总结了flink的几种source来源,可以参考下。建议kafka版本: v2.8.1。kafka作为生产者进行数据的输入。flink的数据产出。
原创
发布博客 2023.05.31 ·
835 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

每半个小时间隔内用户拨打电话的次数以及时长

大家好,今天看了一个分析函数的应用场景,分享出来用户拨打电话表: 字段用户id,开始时间,结束时间。样例数据如下所示(分隔符为,):aaa,2018-01-01 08:01:00,2018-01-01 08:08:00aaa,2018-01-01 08:15:00,2018-01-01 08:20:00aaa,2018-01-01 08:45:00,2018-01-01 08:48:00期望输出, 用户id,每个时间段的最早开始时间, 该时间段内拨打电话的次数,时长(分钟)aaa 2
原创
发布博客 2021.03.30 ·
658 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive的多粒度计算优化 列转行的函数lateral view

今天看了一个hive的减少job数的优化思路,值得借鉴测试表以及数据如下所示:create table sale_order as select '河南省' as province,'洛阳市' as city,'汝阳县' as country, 100 as salesunion all select '河南省' as province,'洛阳市' as city,'伊川县' as country, 200 as salesunion all select '河南省' as pro...
原创
发布博客 2021.03.19 ·
546 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

数据仓库中的拉链表

在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1.1 数据量比较大;1.2 表中的部分字段会被更新,比如订单余额;1.3 需要查看某一个时间点或者时间段的历史快照信息,比如查看某一个订单在某个时间点的订单余额1.4 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;如果表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储...
原创
发布博客 2019.06.24 ·
1144 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

oracle连接中on (1=1)

大家:好! 最近看了oracle连接中的on(1=1)的问题,挺有意思的。测试表如下所示:create table t1(c1 varchar2(10));insert into t1 values('1');insert into t1 values('2');create table t2(c2 varchar2(10));insert into t2 values...
原创
发布博客 2019.05.09 ·
12922 阅读 ·
4 点赞 ·
0 评论 ·
25 收藏

oracle执行计划赏析

大家:好。实现了一个小需求,用了三种写法,执行计划如下:SQL> SELECT DAY_ID,NAME,URL,CNT 2 FROM (SELECT DAY_ID,NAME,URL,CNT,row_number() OVER(PARTITION BY DAY_ID, NAME ORDER BY CNT DESC) RANK 3 FROM (SELECT T.DAY_ID...
原创
发布博客 2019.04.04 ·
328 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何优雅的停止掉SparkStreaming

关于如何优雅的停止SparkStreaming,网上挺多的,我测试了一种简单的方法,分享出来一个简简单单的SparkStreaming样例,从一个文件中读取数据后将结果保存到指定的目录中package SparkStreamimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, Str...
原创
发布博客 2019.03.21 ·
1491 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

kafka多消费者的kafka.common.ConsumerRebalanceFailedException异常解决办法

应用场景: kafka的多消费者消费同一个topic的数据,并且保证每条记录都能被消费掉实现方式: topic要创建多个partition(partition的个数要大于等于消费者的个数),多个消费者在同一个组之内第一步: 创建topic的多partition,并进行验证,如下所示:[root@hadoop ~]# kafka-topics.sh --list --zookeeper ...
原创
发布博客 2019.03.19 ·
2888 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Akka的三种应用场景

  什么是AKKA?Akka是一个开发库和运行环境,可以用于 构建高并发、分布式、可容错、事件驱动的基于JVM的应用。 使构建高并发的分布式应用更加容易。Akka是把Actor Model模型进行了封装。可以理解为,异步,非阻塞的一个消息传递第一种: 给AKKA发送一个字符串或者单个的数值package day03import scala.actors.Actor/** ...
原创
发布博客 2018.08.31 ·
25176 阅读 ·
1 点赞 ·
1 评论 ·
8 收藏

scala中产生单例对象

大家:  好!看了点scala产生单例的代码,分享出来,仅供参考。package day02import scala.collection.mutable.ArrayBuffer/** * 功能: 演示scala中的单例对象 */object SingletonDemo { def main(args: Array[String]) { //单例对象,不需要...
原创
发布博客 2018.08.29 ·
1692 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Hive对接Hbase

大家:好! 因项目实际需要,要求将hive中的数据对接入hbase中。在网上看的一篇博文的基础上,加上自己的理解以及相关的操作步骤,以及常见的几个错误,整理了此篇博客,希望对大家有所帮助。Bulk Load-HBase数据导入最佳实践一、概述HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个M...
原创
发布博客 2018.08.20 ·
772 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SparkStream的两种经典使用方式:

大家:  好!SparkStream的两种经典使用方式,仅仅涉及到SparkStream,没有涉及到各种对接,数据来源是tcp的端口号第一种:  按照间隔对数据进行计算,对历史数据不做处理package SparkStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stre...
原创
发布博客 2018.08.14 ·
4337 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

sparksql结合hive

第一步: 在spark的conf目录下创建hive的配置文件的信息/usr/local/spark/conf 创建文件hive-site.xml里面的内容是:&lt;configuration&gt;&lt;property&gt;&lt;name&gt;hive.metastore.uris&lt;/name&gt;&lt;value&gt;thrift://192.168.1...
原创
发布博客 2018.08.14 ·
440 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

执行hsql报文件缺失错误

大家好:   今天在执行hsql的时候,发现文件缺失的错误。以下为测试过程以及解决办法,希望对大家有用。 ----创建测试表create table employ_test(employ_id BIGINT comment '员工编码',salary DECIMAL(20,2) COMMENT '员工薪水')comment '员工信息测试表,测试删除分区文件' PAR...
原创
发布博客 2017.11.27 ·
1061 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Kylin使用之权威指南

发布资源 2017.11.18 ·
rar

hive中的分析函数以及时间戳的使用

样例数据如下所示: 仅仅展示字段createTime和memberIdcreateTime memberId2017/11/13 2017-11-13 12:00:01 8a9e7bf05d7ec61b015d89e060901ef82017/11/13 2017-11-13 12:01:01 8a9f156c5d409b7d015d4566b0f0...
原创
发布博客 2017.11.16 ·
4360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中的分析函数的典型应用

大家: 好!今天看到了一个hive的分析函数的题,感觉很有意思。把答案整理了整理,分享出来,希望对大家有用。需求如下所示: 起初我看到这道题时,感觉应该要用到分析函数,但就不知道怎么用。好在最终,写出来了,思路如下所示:----测试表的表结构以及数据如下所示:hive&gt; desc sales;OKid int ...
原创
发布博客 2017.11.13 ·
701 阅读 ·
0 点赞 ·
1 评论 ·
6 收藏

SPARK中实现用户自定义排序

大家:   好!在spark中对数据进行排序,是在实际工作中是经常用到的,本文是通过样例类的形式在实现用户自定义排序。准备样例数据,这是第一步,我习惯将数据放在一个文件中。测试文件目录为,C:\test\sort.txt, 样例数据以下所示:apple 5 5288sansung 5 5888huawei 1 3788mi 4 3799sony 3 3799lg 4 249...
原创
发布博客 2017.10.31 ·
823 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SPARK中实现自定义分区

大家好: 在spark的开发中,有时需要将数据按照某个字段进行分开存储,这就需要用到spark的自定义分区的功能。先说测试数据,放在文件"C:\test\url1.log"中,数据如下所示:20170721101954 http://sport.sina.cn/sport/race/nba.shtml20170721101954 http://sport.sina.cn/sport...
原创
发布博客 2017.10.31 ·
2707 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

JAVA中连接HBASE的常用API

大家:   好! java中连接hbase的常用apipackage cn.bsr_hbase;import java.nio.ByteBuffer;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import...
原创
发布博客 2017.10.31 ·
422 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多