自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArr手把手详细解决

根本原因就是spark引入scala版本与自己手动设置引入scala支持版本不一致导致的,解决办法:第一步点击右上角第二步第三步:点击加号将项目中spark所需的Scala版本添加进来第四步:此时应该有两种Scala版本了,然后点击减号将那个与spark所需Scala版本有冲突的Scala版本去掉,然后记得点击右下角Apply应用,点击OKj就好了...

2020-12-06 17:22:11 3224 2

原创 日均TB级数据,支付统一日志框架

支付中心作为公共部门,主要负责的业务包括交易、实名绑卡、账户、收单等,由于涉及到交易相关的资金流转以及用户实名认证,部分用户操作环节的中间数据应内控/审计要求需要长时间保存。当前研发应用多,日志量大、格式各异,对于日志的存储和使用产生较大的挑战,故支付数据与研发团队群策群力,共同开发了一套统一日志框架。二、总体架构图核心模块包括:日志生产、日志采集、日志解析,其中调用流程如下:1)研发应用/服务接入基于log4j2扩展的统一日志组件,将日志抛送至kafka。2)周...

2020-12-01 10:52:44 232

转载 基于 Flink SQL CDC 的实时数据同步方案

Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。 传统数据同步方案 基于 Flink SQL CDC 的数据同步方案(Demo) Flink SQL CDC 的更多应用场景 Flink SQL CDC..

2020-11-30 19:22:03 364

转载 Kylin 在贝壳的性能挑战和 HBase 优化实践

Kylin 在贝壳的使用情况介绍Kylin从2017年开始作为贝壳公司级OLAP引擎对外提供服务,目前有100多台Kylin实例;有800多个Cube;有300多T的单副本存储;在贝壳 Kylin 有两套HBase集群,30多个节点,Kylin每天的查询量最高2000+万。我们负责 Kylin同事张如松在2018年Kylin Meetup上分享过Kylin在贝壳的实践,当时每天最高请求量是100多万,两年的时间里请求量增加了19倍;我们对用户的查询响应时间承诺是3秒内的查询占比要达到99..

2020-11-30 19:18:22 285

原创 手把手教程Atlas安装与使用

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。本文就介绍Atlas在Apache Hadoop环境下的安装。1)表与表之间的血缘依赖2)字段与字段之间的血缘依赖02PART特性与环境准备Atlas2.0特性(1)更新了组件可以使用Hadoop3.1,Hive3.1,Hive3.0,Hbase2.0,Solr7.5和Kafka2...

2020-11-30 19:14:59 3392

转载 Apache Kylin 在中通快递的实践

Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。10月17日的 Apache Kylin Meetup 上,来自中通快递的高级数据工程师王成龙带来了题为《Apache Kylin 在中通的实践》的分享。内容涵盖:OLAP 引擎在中通的发展历程;为什么选择 Apache Kylin;Apache Kylin 在中.

2020-11-29 12:26:49 148

原创 轻松完成Hadoop集群数据迁移

01PART前言 在工作当中经常会遇到集群的升级,或者部署新集群,数据迁移的问题,那么本文就演示Apache Hadoop集群和CDH Hadoop集群之间数据互相迁移。本文不介绍集群之间的搭建,只演示数据之间的迁移。02PART环境准备 准备两套集群,我这使用阿里云部署了Apache集群和CDH集群。并启动集群启动完毕后,将Apache集群中,hive库里dwd,dws,ads三个库的数据迁移到CDH集群在Apache集群...

2020-11-29 12:23:59 1758

转载 Druid与Apache Kylin在美团的选型与实践

8月5日,在Druid举办的中国用户组第五次Meetup上,高大月做了题为《Druid与Kylin在美团的选型与实践之领悟》的精彩演讲,向在场的大数据爱好者们介绍了美团点评的OLAP需求,及其大数据平台使用Druid和Apache Kylin的概况与性能对比。开放的话题和干货满满的内容,激起了现场与会听众的热烈反响!错过了当天现场演讲的小伙伴们也不必遗憾,小编整理了高大月当天的演讲PPT,为大家再次还原干货内容!以下为高大月的演讲PPT实录:...

2020-11-29 00:49:52 330

原创 数仓中几个SQL技巧

SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧,具体包括: 日期与期间的使用 临时表与Common Table Expression (WITH) Aggregation 与CASE WHEN的结合使用 Window Function的其他用途 数仓?不就是写写SQL吗…第一:日期.

2020-11-29 00:45:38 288

转载 数据仓库建模

1前言 数据建模乍一听的时候感觉非常的有技术性,并且外行感觉非常的高大上,高深莫测。 在目前的时代下,数据量可以说是海量,并且还在持续增长,那么对于企业来说,如何快速的准确的从这些数据中获取自己想得到的信息呢?2什么是数据建模 数据建模简单来说就是基于对业务的理解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读性增强,让使用方能快速的获取到自己关心的有价值的信息并且及时的作出响应,为公司带来效益。...

2020-11-29 00:41:35 193

原创 OLAP系统核心技术点

OLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有的OLAP中萃取其共性,分为谈存储,谈计算,谈优化器,谈趋势4个章节。一、谈存储1、列存的数据组织形式行存,可以看做NSM (N-ary Storage Model)组织形式,一直伴随着关系型数据库,对于OLTP场景友好,例如innodb[1]的B+树聚簇索引,每个Page中包含若干排序好的行,可以很好的支持tuple-at-...

2020-11-29 00:37:09 374

原创 基于Flink快速开发实时TopN程序最简单的思路

TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的TopN可以使业务方在内存中按照某个统计指标(如出现次数)计算排名并快速出发出更新后的排行榜。我们以统计词频为例展示一下如何快速开发一个计算TopN的flink程序。Flink支持各种各样的流数据接口作为数据的数据源,本次demo我们采用内置的socketTextStream作为数据数据源。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExec

2020-11-29 00:33:56 204

原创 Hive调优实用

1、前言 毫不夸张的说,有没有掌握hive调优,是判断一个数据工程师是否合格的重要指标 hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等2、数据的压缩与存储格式1. map阶段输出数据压缩,在这个阶段,优先选择一个低CPU开销的算法。set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec...

2020-11-29 00:31:40 124

转载 如何实现Spark on Kubernetes?

云原生背景介绍与思考“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。阿里云大数据团队认为:数据湖是大数据和AI时代融合存储和计算的全新体系。为什么这么说?在数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此确保数据中保留的原始信息不丢失,应对未来不断变化的需求。当前以Oracle为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断地产生新的计算引擎,以便应对大数据时代的到来。企业开始纷纷自..

2020-11-29 00:22:58 98

转载 Hive SQL经典优化案例

HiveSQL经典优化案例一:1.1 将要执行的查询(执行了 1个多小时才出结果):SELECT dt as DATA_DATE,STRATEGY,AB_GROUP,SOURCE,count(distinct case when lower(event) not like ‘%push%’ and event!=‘corner_mark_show’ then udid else null end) as DAU,count(case when event=‘client_show’ then 1 e

2020-11-29 00:16:35 474

转载 【linux】CentOS 7报错:yum命令报错 “ Cannot find a valid baseurl for repo: base/7/x86_6 ”

https://mp.csdn.net/console/editor/html?not_checkout=1

2020-10-03 15:08:57 151

原创 Exception in thread “SinkRunner-PollingRunner-DefaultSinkProcessor“ java.lang.NoSuchMethodError: com

Exception in thread "SinkRunner-PollingRunner-DefaultSinkProcessor" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1...

2020-09-05 01:10:13 2083 2

原创 初始化Hive元数据库 bash: schematool: 未找到命令的原因

(1)是否将MySQL的JDBC驱动拷贝到Hive的lib目录下:sudo cp /opt/software/mysql-connector-java-5.1.37.jar $HIVE_HOME/lib(2)是否在$HIVE_HOME/conf目录下新建hive-site.xml文件,文件的内容可以百度下(3)Hive环境变量是否配置无误,最重要的一点是配置好环境变量后一定要先source下...

2020-08-16 11:52:58 8911

原创 Hadoop小文件解决方案

1.小文件优化的方向:(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。(3)在MapReduce处理时,可采用CombineTextInputFormat提高效率。(4)开启uber模式,实现jvm重用2.Hadoop Archive是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用3.SequenceF

2020-08-15 00:03:39 110

原创 2020-08-11

IDEA字体大小设置无效解决办法:Settings -> Edit -> Color Scheme -> Color Scheme Font 取消勾选Use Color Scheme…

2020-08-11 22:57:42 49

Hadoop企业优化常用的调优参数.docx

Hadoop企业优化常用的调优参数,资源相关参数:(1)在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)和(2)在YARN启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml);容错相关参数(MapReduce性能优化)

2020-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除