自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(174)
  • 资源 (1)
  • 收藏
  • 关注

翻译 Hbase Coprocessors 协处理器

目录Hbase 协处理器的概述与其他协处理器的比较Triggers and Stored ProcedureMapReduceAOP协处理器如何实现Coprocessors类型观察者协处理器Observer Coprocessor 使用样例Observer Coprocessor 的类型端点协处理器如何加载协处理器静态加载静态卸载动态加载动态卸载使用样例观察者样例端点样例其他协处理器的使用手册目前的限制Hbase 协处理

2020-05-14 10:57:59 829

翻译 Spark SQL, DataFrames and Datasets Guide

OverviewSpark SQL是一个用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。当计算结果时,使用相同的执行引擎,而不依赖于使用哪种API...

2020-04-28 21:00:25 374

翻译 Spark Streaming Custom Receivers

Spark 流可以从任何数据源接收流数据,除了它内置支持的数据源之外(也就是说,除了Flume、Kafka、Kinesis、文件、socket等)。这要求开发人员实现一个为接收来自相关数据源的数据而定制的接收器。本指南介绍了实现自定义接收器并在 Spark 流应用程序中使用它的过程。注意,自定义接收器可以用 Scala 或 Java 实现。实现自定义接收器...

2020-04-25 17:07:27 275

翻译 基于Flink以及Pulsar的StreamSQL的技术实践

Table of Contents什么是StreamSQL需求最初的基于kafka的解决方案无限期地存储每个域事件从批处理数据引导物化视图回填从Kafka更新传入事件多租户、回滚和重播、错误处理等。为什么用Pulsar分层存储到S3独立的计算和存储扩展内装式多租户积极回应的社区Pulsar-Based解决方案无限期地存储每个域事件从批...

2020-04-07 14:24:33 1119 1

转载 Hbase 面试问答

问:Hbase大量写入很慢,一个列族,每个200多列,一秒写30000条数据,使用mutate添加数据,clientbuffer缓存大小为10M,四台测试机,128G内存,分配60G给Hbase,该怎么优化?答:可以使用bulkload方式写入,通过mr程序生产hfile文件,直接用bulkload导入生成的hfile文件,速度非常快。问:hbase大规模的丢数据,整个数据库系统都挂掉了,...

2020-04-05 14:28:47 245

转载 Redis 面试题

Redis支持的数据类型?String(字符串)、Hash(哈希)、List(列表)、Set(集合)、ZSet(sorted set:有序集合)String(字符串)格式:set key valuestring类型是二进制安全的。意思是redis的string可以包含任何数据。比如jpg图片或者序列化的对象 。string类型是Redis最基本的数据类型,一个键最大能存储51...

2020-04-04 22:17:30 489

转载 Hive分隔符

Table of Contents特殊字符通过digraph输入测试数据查看隐藏字符的方法catvim特殊字符以下这些字符是可以在Hive中应用,并且DATAX也支持的:char digraph hex dec official name Unicode ^@ NU 0x00 0 NULL (NUL)N...

2020-04-04 21:53:13 2878

翻译 scala API Predef

Predef 对象提供了可以在所有 Scala 编译单元中访问的定义,而不需要显式限定。常用的类型Predef为常用的类型提供类型别名,例如不可变集合类型scala.collection.immutable.Map, scala.collection.immutable.Set, and the scala.collection.immutable.List constructors (...

2020-03-12 17:53:38 311

原创 hadoopRDD newAPIHadoopRDD如何使用

Table of ContentshadoopRDDnewAPIHadoopRDD调用样例hadoopRDD从 Hadoop JobConf 获取一个 Hadoop 可读数据集的 RDD,给出它的 InputFormat 和其他必要的信息(例如,基于文件系统的数据集的文件名,HyperTable 的表名),使用旧的 MapReduce API (' org.apache.had...

2020-03-12 14:38:16 3716

翻译 Spark Streaming Programming Guide

简述Spark Streaming 是核心 Spark API 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis 或 TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如 map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将 Spar...

2020-03-08 10:31:37 327

翻译 Spark Streaming + Kafka 构造指南(Kafka broker version 0.10.0 or higher)

Table of Contents依赖创建一个直接流偏移量策略消费者的策略Creating an RDD获得offsets存储offsetsCheckpointsKafka itselfYour own data storeSSL / TLS部署Kafka 0.10 的 Spark 流集成在设计上类似于0.8直接流方法。它提供了简单的并行性,Ka...

2020-03-05 16:09:07 940

翻译 多语言连接hive(Java、python、ruby)

JDBCHiveServer2 有一个 JDBC 驱动程序。它支持对 HiveServer2 的嵌入式和远程访问。建议将 Remote HiveServer2 模式用于生产环境,因为它更安全,而且不需要为用户授予直接的 HDFS/metastore 访问权限。Using JDBC可以使用 JDBC 访问存储在关系数据库或其他表格格式中的数据。1、加载 HiveServe...

2020-03-02 22:12:59 610 1

翻译 连接 Hive 的四种方法

Running HiveHive CLI$HIVE_HOME/bin/hive(连接命令)HiveServer2 and Beeline$HIVE_HOME/bin/hiveserver2(h2的启动命令)$HIVE_HOME/bin/beeline -u jdbc:hive2://$H2_HOST:$H2_PORT(连接命令)HCatalog$HIVE_HOME/bin/h...

2020-03-02 15:29:42 10686

翻译 Nginx 负载均衡的三种负载模式及应用

介绍Nginx用于优化资源利用率、最大化吞吐量、减少延迟和确保容错配置。可以使用 nginx 作为一个非常有效的 HTTP 负载均衡器,将流量分配到多个应用服务器,并使用 nginx 提高web应用程序的性能、可伸缩性和可靠性。负载方法nginx 支持以下负载平衡机制(或方法):round-robin(轮询) — 对应用服务器的请求以循环方式分发 least-connect...

2020-02-29 16:21:44 2584

翻译 Nginx 如何处理一个请求

Table of Contents基于名称的虚拟服务如何防止使用未定义的服务器名处理请求混合基于名称和基于ip的虚拟服务器一个简单的PHP站点配置请求处理流程基于名称的虚拟服务nginx 首先决定哪个服务器应该处理请求。让我们从一个简单的配置开始,所有三个虚拟服务器都监听端口*:80:server { listen 80; server...

2020-02-29 12:39:49 462

翻译 Flink Debugging & Monitoring - Monitoring Checkpointing(Checkpointing)

原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/monitoring/checkpoint_monitoring.html

2020-02-28 20:58:13 835

翻译 3.4、Flink 集群部署(Deployment & Operations)- State & Fault Tolerance(Flink状态和容错)之 调优检查点和大状态

要使 Flink 应用程序大规模可靠地运行,必须满足两个条件:应用程序需要能够可靠地接受检查点 在失败之后,资源需要充分跟上输入数据流第一部分讨论如何在大规模上很好地执行检查点。最后一节解释了一些关于计划使用多少资源的最佳实践。监控State and Checkpoints监视检查点行为的最简单方法是通过 UI 的检查点部分。检查点监视的文档显示了如何访问可用的检查点指标。Fl...

2020-02-28 17:12:18 1116

原创 Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared memory file:

执行 hdfs 命令查看目录时,控制台上有这么一句警告JVM 报错:共享内存文件空间不足df -h以可读性较高的方式来显示磁盘使用信息可以看到主盘以使用100%暴力解决办法:找到对应占用磁盘的文件,然后 rm -f,再重启造成大日志文件的程序...

2020-02-28 14:36:12 2462

翻译 3.6、Flink流处理(Stream API)- State & Fault Tolerance(状态和容错)之 State Backends(状态后端)

Flink提供了不同的状态后端,用于指定状态存储的方式和位置。状态可以位于Java的堆上,也可以位于堆外。根据您的状态后端,Flink 也可以管理应用程序的状态,这意味着 Flink 处理内存管理(如果必要的话可能会溢出到磁盘),以允许应用程序保存非常大的状态。默认情况下,配置文件是 flink-conf.yaml 管理所有 Flink 作业的状态后端。也可以根据每个作业重写默认状态后端,如下...

2020-01-13 14:27:34 480

翻译 1、Flink Managing Execution - Task Failure Recovery(Flink Task 故障恢复)

当任务失败时,Flink 需要重新启动失败的任务和其他受影响的任务,将作业恢复到正常状态。重新启动策略和故障转移策略用于控制任务重新启动。重新启动策略决定是否以及何时可以重新启动失败/受影响的任务。故障转移策略决定应该重新启动哪些任务以恢复作业。重启策略可以使用默认的重启策略来启动集群,在没有定义特定于作业的重启策略时,总是使用默认的重启策略。如果提交的作业带有重启策略,该策略将覆盖集...

2020-01-10 17:28:09 595

翻译 Flink Internals - Data Streaming Fault Tolerance(数据流容错)

简介Apache Flink 提供了一种容错机制来一致地恢复数据流应用程序的状态。该机制确保即使存在故障,程序的状态最终将精确地反映数据流中的每条记录一次。注意,这里有一个开关,将担保降级到至少一次(如下所述)。容错机制连续绘制分布式流数据流的快照。对于状态小的流应用程序,这些快照非常轻量级,可以频繁地绘制,不会对性能造成很大影响。流应用程序的状态存储在一个可配置的位置(如主节点或HDFS...

2020-01-10 11:38:45 308

转载 Spark面试,Spark面试题,Spark面试汇总

1、你觉得spark 可以完全替代hadoop 么?Spark 会替代 MR,Spark 存储依赖 HDFS,资源调度依赖 YARN,集群管理依赖 Zookeeper。2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead...

2020-01-09 16:53:31 13431 10

翻译 Building Spark(重新构建编译Spark)

Apache Maven基于 Maven 的构建是 Apache Spark 的参考构建。使用 Maven 构建 Spark 需要 Maven 3.3.9或更新版本和 Java 7+。注意,从Spark 2.0.0开始,对Java 7的支持就被废弃了,可能在Spark 2.2.0中被删除。Setting up Maven’s Memory Usage你需要通过设置 MAVEN_...

2020-01-08 08:56:14 1213

翻译 hive序列化

Table of ContentsAvroSerDe概述使用需求Avro 到 Hive 类型转换创建avro支持的Hive表All Hive versionsHive 0.14 and later versions将表写入Avro文件All Hive versionsHive 0.14 and laterAvro文件扩展名指定表的Avro模式Us...

2020-01-07 15:31:31 1613

翻译 1、Flink批处理(DataSet API)- 基础概览和 DataSet API 编程指南

Flink 中的 DataSet 程序是在数据集上实现转换的常规程序(例如,filtering, mapping, joining, grouping)。数据集最初是从某些源创建的(例如,通过读取文件或从本地集合)。结果通过 sink 返回,例如,sink 可以将数据写入(分布式)文件,或者写入标准输出(例如命令行终端)。Flink 程序在各种上下文中运行,独立运行或嵌入到其他程序中。执行可以在本...

2020-01-07 11:56:52 1011

转载 干货 | 吃透Elasticsearch 堆内存

1、什么是堆内存?Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。在 Java 中,堆被划分成两个不同的区域:- 新生代 ( Young )、- 老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域:- Eden、- From Survivor、- To Survivor。这样划分的目的是为了使 JVM 能够更好的...

2020-01-06 16:36:27 460

原创 CDH 使用过程中遇到的问题

声明:CDH 版本:5.11.0目录:基于默认目录:/opt The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver. ...

2020-01-06 16:33:44 1089

翻译 Spark Security

Spark目前支持通过共享密钥进行身份验证。可以通过spark将身份验证配置为on。验证配置参数。此参数控制Spark通信协议是否使用共享密钥进行身份验证。此身份验证是一个基本的握手,以确保双方拥有相同的共享机密并允许通信。如果共享的秘密不相同,则不允许它们通信。共享秘密创建如下:对于 spark on yarn 的部署。spark.authenticate 为 true将自动处理共享密钥的...

2020-01-06 14:51:27 1589

翻译 Run Spark Standalone Mode

除了在 Mesos 或 YARN 集群管理器上运行外,Spark 还提供了一个简单的独立部署模式。您可以手动启动一个独立的集群,通过手动启动主集群和工作集群,或者使用我们提供的启动脚本。也可以在一台机器上运行这些守护进程进行测试。在集群中安装独立的Spark要安装 Spark 独立模式,只需在集群的每个节点上放置一个已编译版本的 Spark。您可以在每个版本中获得 Spark 的预构建版本...

2020-01-04 15:56:21 225

翻译 Hadoop: Fair Scheduler yarn公平调度

目的FairScheduler 是一个插件式的 Hadoop 调度器,它允许 yarn 程序在集群中以公平的方式共享资源简介公平调度是一种将资源分配给应用程序的方法,以便所有应用程序在一段时间内平均获得相等的资源份额。Hadoop NextGen能够调度多种资源类型。在默认情况下,公平调度程序仅基于内存调度公平决策。它可以配置为使用内存和CPU进行调度,使用Ghodsi等人开发的主导资...

2020-01-03 17:47:35 913

原创 部署flink集群遇到的问题(记录)

1、flink jdk 版本的问题org/apache/flink/yarn/entrypoint/YarnSessionClusterEntrypoint : Unsupported major.minor version 52.0org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint : Unsupp...

2020-01-03 09:25:15 2149

翻译 Kafka安全 之 Authentication using SASL/PLAIN

Table of Contents配置 kafka broker配置 kafka 客户端在生产中使用SASL/PLAIN完整样例SASL/PLAIN是一种简单的用户名/密码身份验证机制,通常与 TLS 一起用于加密以实现安全身份验证。Kafka支持SASL/PLAIN的默认实现用户名被用作配置acl等的认证主体。配置 kafka broker将一个适当修改过的 J...

2019-12-31 15:07:23 1164

翻译 5.7、Flink流处理(Stream API)- Connectors(外部连接器)之 Hadoop FileSystem Connector

自 Flink 1.9 起,BucketingSink 已经被弃用,并将在后续版本中移除。请使用 StreamingFileSink。这个连接器提供了一个接收器,可以将分区的文件写到Hadoop文件系统支持的任何文件系统中。要使用此连接器,请在项目中添加以下依赖项:<dependency> <groupId>org.apache.flink</gro...

2019-12-26 17:03:19 669

原创 指定CDH中YARN的JDK

背景本地集群机器的 jdk 版本是 jdk1.7,且不可更改,现在需要接入 Flink 集群,但是由于 Flink是1.8 编译的,所以在使用 yarn-session 模式的时候,需要 yarn 端的 jdk 版本为8,如下为 cdh 中如何修改 yarn jdk 版本。ApplicationMaster 环境yarn.app.mapreduce.am.admin.user...

2019-12-24 17:51:10 892

翻译 hive压缩格式

Table of ContentsORC FilesORC 文件格式文件结构Stripe StructureHiveQL Syntax hivesql语法Serialization and Compression 序列化和压缩Integer Column Serialization 整型列序列化String Column Serialization 字符串列序列化...

2019-12-17 21:18:58 740

翻译 Spark Job Scheduling

Table of Contents跨程序调度动态资源分配配置和设置资源分配策略安全移除executor程序内调度公平调度池调度池的默认行为调度池配置Spark 有几个用于在计算之间调度资源的工具。首先,回想一下,正如集群模式概述中所述,每个 Spark 应用程序(SparkContext的实例)运行一组独立的执行器进程。Spark 所运行的集群管理器为跨应用...

2019-12-16 22:01:29 295

翻译 Tuning Spark 调优

Table of Contents数据序列化调优内存调优确定内存消耗数据结构调优RDD序列化存储垃圾收集调优度量GC的影响先进的GC调优其他调优并行的级别Reduce任务的内存使用情况大的广播变量数据本地化总结由于大多数 Spark 计算都在内存中,所以集群中的任何资源(CPU、网络带宽或内存)都可能成为 Spark 程序的瓶颈。大多数情...

2019-12-16 21:53:54 378

翻译 hive 算子和用户自定义函数 UDF UDAF UDTF

Table of ContentsBuilt-in Operators关系运算符算术运算符逻辑运算符字符串操作符复杂类型构造函数复杂类型上的运算符Built-in FunctionsBuilt-in Aggregate Functions (UDAF)Built-in Table-Generating Functions (UDTF)使用样例Bui...

2019-12-13 17:55:32 769

翻译 Spark Configuration Guide

Table of ContentsSpark Properties动态加载配置查看 spark 配置可用的属性Application PropertiesRuntime EnvironmentShuffle BehaviorSpark UICompression and SerializationMemory ManagementExecution Be...

2019-12-08 23:00:29 941

翻译 hivesql优化简述

sql 中缩减查询范围,即指定分区和字段 where 中的条件尽量写在前面,减少后续的数据量 sort by 代替 order by group by 替代 distinct group by map 端使用 combiner 对数据进行预先聚合 group by 处理数据倾斜 多表 join 的时候,小表写在 join 前面 多表 join 的时候,关联字段尽量写成一样的,即 on...

2019-12-07 19:38:17 274

Linux常用命令以及使用样例.pdf

# 替换所有行的内容: :%s/from/to/g :%s/from/to/g : 对所有行的内容进行替换。 # 关闭防火墙 service iptables stop # 查看目录下有多少个文件 find -type -f|wc -l # 平均负载过高

2020-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除