大数据
文章平均质量分 89
張萠飛
运营商行业,大数据集群一线运维工程师
展开
-
记一次hdfs集群上传变慢问题核查
hdfs上传变慢原因分析和解决原创 2024-10-28 16:32:56 · 564 阅读 · 0 评论 -
记一次Spark 提交任务执行缓慢之问题解决了
hive 分区字段没有用引号括起来,导致hive或spark sql类型的任务执行时间很长原创 2022-09-02 15:27:57 · 1635 阅读 · 1 评论 -
Hadoop: Capacity Scheduler yarn容量调度
本文描述了 CapacityScheduler,这是一种可插拔的 Hadoop 调度器,它允许多租户安全地共享一个大型集群,从而在分配容量的限制下及时为其应用程序分配资源。翻译 2022-08-15 17:31:48 · 1391 阅读 · 0 评论 -
基于Flink以及Pulsar的StreamSQL的技术实践
Table of Contents什么是StreamSQL需求最初的基于kafka的解决方案无限期地存储每个域事件从批处理数据引导物化视图回填从Kafka更新传入事件多租户、回滚和重播、错误处理等。为什么用Pulsar分层存储到S3独立的计算和存储扩展内装式多租户积极回应的社区Pulsar-Based解决方案无限期地存储每个域事件从批...翻译 2020-04-07 14:24:33 · 1119 阅读 · 1 评论 -
hadoopRDD newAPIHadoopRDD如何使用
Table of ContentshadoopRDDnewAPIHadoopRDD调用样例hadoopRDD从 Hadoop JobConf 获取一个 Hadoop 可读数据集的 RDD,给出它的 InputFormat 和其他必要的信息(例如,基于文件系统的数据集的文件名,HyperTable 的表名),使用旧的 MapReduce API (' org.apache.had...原创 2020-03-12 14:38:16 · 3716 阅读 · 0 评论 -
Spark Streaming Custom Receivers
Spark 流可以从任何数据源接收流数据,除了它内置支持的数据源之外(也就是说,除了Flume、Kafka、Kinesis、文件、socket等)。这要求开发人员实现一个为接收来自相关数据源的数据而定制的接收器。本指南介绍了实现自定义接收器并在 Spark 流应用程序中使用它的过程。注意,自定义接收器可以用 Scala 或 Java 实现。实现自定义接收器...翻译 2020-04-25 17:07:27 · 275 阅读 · 0 评论 -
Spark Streaming Programming Guide
简述Spark Streaming 是核心 Spark API 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis 或 TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如 map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将 Spar...翻译 2020-03-08 10:31:37 · 327 阅读 · 0 评论 -
Spark Streaming + Kafka 构造指南(Kafka broker version 0.10.0 or higher)
Table of Contents依赖创建一个直接流偏移量策略消费者的策略Creating an RDD获得offsets存储offsetsCheckpointsKafka itselfYour own data storeSSL / TLS部署Kafka 0.10 的 Spark 流集成在设计上类似于0.8直接流方法。它提供了简单的并行性,Ka...翻译 2020-03-05 16:09:07 · 940 阅读 · 0 评论 -
多语言连接hive(Java、python、ruby)
JDBCHiveServer2 有一个 JDBC 驱动程序。它支持对 HiveServer2 的嵌入式和远程访问。建议将 Remote HiveServer2 模式用于生产环境,因为它更安全,而且不需要为用户授予直接的 HDFS/metastore 访问权限。Using JDBC可以使用 JDBC 访问存储在关系数据库或其他表格格式中的数据。1、加载 HiveServe...翻译 2020-03-02 22:12:59 · 610 阅读 · 1 评论 -
连接 Hive 的四种方法
Running HiveHive CLI$HIVE_HOME/bin/hive(连接命令)HiveServer2 and Beeline$HIVE_HOME/bin/hiveserver2(h2的启动命令)$HIVE_HOME/bin/beeline -u jdbc:hive2://$H2_HOST:$H2_PORT(连接命令)HCatalog$HIVE_HOME/bin/h...翻译 2020-03-02 15:29:42 · 10686 阅读 · 0 评论 -
Flink Debugging & Monitoring - Monitoring Checkpointing(Checkpointing)
原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/monitoring/checkpoint_monitoring.html翻译 2020-02-28 20:58:13 · 835 阅读 · 0 评论 -
3.4、Flink 集群部署(Deployment & Operations)- State & Fault Tolerance(Flink状态和容错)之 调优检查点和大状态
要使 Flink 应用程序大规模可靠地运行,必须满足两个条件:应用程序需要能够可靠地接受检查点 在失败之后,资源需要充分跟上输入数据流第一部分讨论如何在大规模上很好地执行检查点。最后一节解释了一些关于计划使用多少资源的最佳实践。监控State and Checkpoints监视检查点行为的最简单方法是通过 UI 的检查点部分。检查点监视的文档显示了如何访问可用的检查点指标。Fl...翻译 2020-02-28 17:12:18 · 1116 阅读 · 0 评论 -
3.6、Flink流处理(Stream API)- State & Fault Tolerance(状态和容错)之 State Backends(状态后端)
Flink提供了不同的状态后端,用于指定状态存储的方式和位置。状态可以位于Java的堆上,也可以位于堆外。根据您的状态后端,Flink 也可以管理应用程序的状态,这意味着 Flink 处理内存管理(如果必要的话可能会溢出到磁盘),以允许应用程序保存非常大的状态。默认情况下,配置文件是 flink-conf.yaml 管理所有 Flink 作业的状态后端。也可以根据每个作业重写默认状态后端,如下...翻译 2020-01-13 14:27:34 · 480 阅读 · 0 评论 -
1、Flink Managing Execution - Task Failure Recovery(Flink Task 故障恢复)
当任务失败时,Flink 需要重新启动失败的任务和其他受影响的任务,将作业恢复到正常状态。重新启动策略和故障转移策略用于控制任务重新启动。重新启动策略决定是否以及何时可以重新启动失败/受影响的任务。故障转移策略决定应该重新启动哪些任务以恢复作业。重启策略可以使用默认的重启策略来启动集群,在没有定义特定于作业的重启策略时,总是使用默认的重启策略。如果提交的作业带有重启策略,该策略将覆盖集...翻译 2020-01-10 17:28:09 · 595 阅读 · 0 评论 -
Flink Internals - Data Streaming Fault Tolerance(数据流容错)
简介Apache Flink 提供了一种容错机制来一致地恢复数据流应用程序的状态。该机制确保即使存在故障,程序的状态最终将精确地反映数据流中的每条记录一次。注意,这里有一个开关,将担保降级到至少一次(如下所述)。容错机制连续绘制分布式流数据流的快照。对于状态小的流应用程序,这些快照非常轻量级,可以频繁地绘制,不会对性能造成很大影响。流应用程序的状态存储在一个可配置的位置(如主节点或HDFS...翻译 2020-01-10 11:38:45 · 308 阅读 · 0 评论 -
Spark面试,Spark面试题,Spark面试汇总
1、你觉得spark 可以完全替代hadoop 么?Spark 会替代 MR,Spark 存储依赖 HDFS,资源调度依赖 YARN,集群管理依赖 Zookeeper。2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead...转载 2020-01-09 16:53:31 · 13430 阅读 · 10 评论 -
hive序列化
Table of ContentsAvroSerDe概述使用需求Avro 到 Hive 类型转换创建avro支持的Hive表All Hive versionsHive 0.14 and later versions将表写入Avro文件All Hive versionsHive 0.14 and laterAvro文件扩展名指定表的Avro模式Us...翻译 2020-01-07 15:31:31 · 1613 阅读 · 0 评论 -
Kafka安全 之 Authentication using SASL/PLAIN
Table of Contents配置 kafka broker配置 kafka 客户端在生产中使用SASL/PLAIN完整样例SASL/PLAIN是一种简单的用户名/密码身份验证机制,通常与 TLS 一起用于加密以实现安全身份验证。Kafka支持SASL/PLAIN的默认实现用户名被用作配置acl等的认证主体。配置 kafka broker将一个适当修改过的 J...翻译 2019-12-31 15:07:23 · 1164 阅读 · 0 评论 -
5.7、Flink流处理(Stream API)- Connectors(外部连接器)之 Hadoop FileSystem Connector
自 Flink 1.9 起,BucketingSink 已经被弃用,并将在后续版本中移除。请使用 StreamingFileSink。这个连接器提供了一个接收器,可以将分区的文件写到Hadoop文件系统支持的任何文件系统中。要使用此连接器,请在项目中添加以下依赖项:<dependency> <groupId>org.apache.flink</gro...翻译 2019-12-26 17:03:19 · 669 阅读 · 0 评论 -
部署flink集群遇到的问题(记录)
1、flink jdk 版本的问题org/apache/flink/yarn/entrypoint/YarnSessionClusterEntrypoint : Unsupported major.minor version 52.0org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint : Unsupp...原创 2020-01-03 09:25:15 · 2149 阅读 · 0 评论 -
指定CDH中YARN的JDK
背景本地集群机器的 jdk 版本是 jdk1.7,且不可更改,现在需要接入 Flink 集群,但是由于 Flink是1.8 编译的,所以在使用 yarn-session 模式的时候,需要 yarn 端的 jdk 版本为8,如下为 cdh 中如何修改 yarn jdk 版本。ApplicationMaster 环境yarn.app.mapreduce.am.admin.user...原创 2019-12-24 17:51:10 · 892 阅读 · 0 评论 -
hive压缩格式
Table of ContentsORC FilesORC 文件格式文件结构Stripe StructureHiveQL Syntax hivesql语法Serialization and Compression 序列化和压缩Integer Column Serialization 整型列序列化String Column Serialization 字符串列序列化...翻译 2019-12-17 21:18:58 · 740 阅读 · 0 评论 -
Hadoop: Fair Scheduler yarn公平调度
目的FairScheduler 是一个插件式的 Hadoop 调度器,它允许 yarn 程序在集群中以公平的方式共享资源简介公平调度是一种将资源分配给应用程序的方法,以便所有应用程序在一段时间内平均获得相等的资源份额。Hadoop NextGen能够调度多种资源类型。在默认情况下,公平调度程序仅基于内存调度公平决策。它可以配置为使用内存和CPU进行调度,使用Ghodsi等人开发的主导资...翻译 2020-01-03 17:47:35 · 913 阅读 · 0 评论 -
hive 算子和用户自定义函数 UDF UDAF UDTF
Table of ContentsBuilt-in Operators关系运算符算术运算符逻辑运算符字符串操作符复杂类型构造函数复杂类型上的运算符Built-in FunctionsBuilt-in Aggregate Functions (UDAF)Built-in Table-Generating Functions (UDTF)使用样例Bui...翻译 2019-12-13 17:55:32 · 769 阅读 · 0 评论 -
hivesql优化简述
sql 中缩减查询范围,即指定分区和字段 where 中的条件尽量写在前面,减少后续的数据量 sort by 代替 order by group by 替代 distinct group by map 端使用 combiner 对数据进行预先聚合 group by 处理数据倾斜 多表 join 的时候,小表写在 join 前面 多表 join 的时候,关联字段尽量写成一样的,即 on...翻译 2019-12-07 19:38:17 · 274 阅读 · 0 评论 -
Run Spark Standalone Mode
除了在 Mesos 或 YARN 集群管理器上运行外,Spark 还提供了一个简单的独立部署模式。您可以手动启动一个独立的集群,通过手动启动主集群和工作集群,或者使用我们提供的启动脚本。也可以在一台机器上运行这些守护进程进行测试。在集群中安装独立的Spark要安装 Spark 独立模式,只需在集群的每个节点上放置一个已编译版本的 Spark。您可以在每个版本中获得 Spark 的预构建版本...翻译 2020-01-04 15:56:21 · 225 阅读 · 0 评论 -
Spark Job Scheduling
Table of Contents跨程序调度动态资源分配配置和设置资源分配策略安全移除executor程序内调度公平调度池调度池的默认行为调度池配置Spark 有几个用于在计算之间调度资源的工具。首先,回想一下,正如集群模式概述中所述,每个 Spark 应用程序(SparkContext的实例)运行一组独立的执行器进程。Spark 所运行的集群管理器为跨应用...翻译 2019-12-16 22:01:29 · 295 阅读 · 0 评论 -
Building Spark(重新构建编译Spark)
Apache Maven基于 Maven 的构建是 Apache Spark 的参考构建。使用 Maven 构建 Spark 需要 Maven 3.3.9或更新版本和 Java 7+。注意,从Spark 2.0.0开始,对Java 7的支持就被废弃了,可能在Spark 2.2.0中被删除。Setting up Maven’s Memory Usage你需要通过设置 MAVEN_...翻译 2020-01-08 08:56:14 · 1213 阅读 · 0 评论 -
Tuning Spark 调优
Table of Contents数据序列化调优内存调优确定内存消耗数据结构调优RDD序列化存储垃圾收集调优度量GC的影响先进的GC调优其他调优并行的级别Reduce任务的内存使用情况大的广播变量数据本地化总结由于大多数 Spark 计算都在内存中,所以集群中的任何资源(CPU、网络带宽或内存)都可能成为 Spark 程序的瓶颈。大多数情...翻译 2019-12-16 21:53:54 · 378 阅读 · 0 评论 -
Running Spark on YARN
Table of ContentsLaunching Spark on YARN添加 jar准备配置DebugSpark Properties注意事项在一个安全的集群中运行配置外部shuffle服务使用ooize 运行程序kerberos故障排除Launching Spark on YARN确保 HADOOP_CONF_DIR 或 YARN_CO...翻译 2019-12-05 21:50:05 · 634 阅读 · 0 评论 -
Spark Configuration Guide
Table of ContentsSpark Properties动态加载配置查看 spark 配置可用的属性Application PropertiesRuntime EnvironmentShuffle BehaviorSpark UICompression and SerializationMemory ManagementExecution Be...翻译 2019-12-08 23:00:29 · 941 阅读 · 0 评论 -
Spark Submitting Applications Guide
Spark bin 目录中的 Spark -submit 脚本用于在集群上启动应用程序。构建程序依赖如果代码依赖于其他项目,则需要将它们与应用程序一起打包,以便将代码分发到 Spark 集群。对于 Python,可以使用spark-submit的 --py-files 参数来添加要随应用程序分发的.py、.zip或.egg文件。如果依赖于多个 Python 文件,则将它们打包成.zip...翻译 2019-12-03 21:47:17 · 128 阅读 · 0 评论 -
Spark Programming Guide
Table of Contents概述构建spark程序初始化 SparkSpark-shellRDD并行集合外部数据集RDD算子基础将函数作为参数传递闭包ShuffleRDD 持久化如何选择存储级别共享变量BroadcastAccumulators部署到集群java和scala的启动方式概述每个 Spark 程...翻译 2019-12-03 21:47:36 · 189 阅读 · 0 评论 -
Spark Shell 终端操作指南
基础使用vim /opt/spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh向文件中添加这么一行,标识本地集群SPARK_LOCAL_IP=192.168.78.135使用以下命令启动 spark shell 终端[root@single bin]# cd /opt/spark-2.1.1-bin-hadoop2.7/bin[root@s...翻译 2019-12-02 21:28:48 · 1043 阅读 · 0 评论 -
CDH 使用过程中遇到的问题
声明:CDH 版本:5.11.0目录:基于默认目录:/opt The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver. ...原创 2020-01-06 16:33:44 · 1089 阅读 · 0 评论 -
Hase Java API 和 Hbase Scala API
Table of ContentsJava 版的Hbase 工具类,配置 zookeeper 的地址建表操作修改表结构列出所有表删表写表根据 rowKey 删数据查表,所有数据根据 rowKey 查数据Scala 版的Hbase 工具类列出所有表建表查看表结构删表写数据扫描整个表根据 rowKey 查数据根据 rowK...原创 2019-11-21 21:35:37 · 1132 阅读 · 3 评论 -
Structured Streaming + Kafka 构建指南
版本依赖<scala.version>2.11.12</scala.version><spark.version>2.1.1</spark.version><!-- Spark - Kafka 依赖 --><dependency> <groupId>org.apache.spark</gr...翻译 2019-11-19 22:17:41 · 473 阅读 · 0 评论 -
Spark Structured Streaming 流查询
目录启用流查询Output ModesOutput SinksForeach 和ForeachBatch触发器管理流查询监控流查询读取指标交互使用异步api以编程方式查询指标使用Dropwizard启用流查询一旦定义了最终结果 DataFrame/Dataset,剩下的就是开始流计算了。为此,必须使用通过 Dataset.writeStream(...翻译 2019-11-16 17:58:23 · 1334 阅读 · 0 评论 -
快速开始一个 spark 程序
基础环境:jdkhttps://download.oracle.com/otn/java/jdk/8u231-b11/5b13a193868b4bf28bcb45c792fce896/jdk-8u231-linux-x64.tar.gz下载 linux 环境下spark tar包http://archive.apache.org/dist/spark/spark-2.1.1/spar...原创 2019-11-16 10:21:49 · 174 阅读 · 0 评论 -
列存储相关概念和常见列式存储数据库(Hbase、德鲁依)
Table of Contents列式存储数据库Examples of Column StoreDBMSsHbaseTableRowColumnColumn FamilyColumn QualifierCellTimestampDruid(德鲁依)Cassandra参考列式存储数据库列式数据库是以列相关存储架构进行数据存储的数据库,主要...原创 2019-11-01 14:31:58 · 15551 阅读 · 0 评论
分享