大数据组件
文章平均质量分 82
屋顶看飞机
专注于分布式系统、大数据的研究及应用
展开
-
Spark SQL干货汇总
Spark SQL干货汇总Welcome to Kyuubi’s documentation! - Kyuubi 1.2.0 documentation提效7倍,Apache Spark 自适应查询优化在网易的深度实践及改进Kyuubi 与 Spark Thrift Server 的全面对比分析 | 技术干货网易数帆开源 Kyuubi:基于 Spark 的高性能 JDBC 和 SQL 执行引擎网易Spark Kyuubi核心架构设计与源码实现剖析_香飘叶子的技术博客_51CTO博客分享 | Sp原创 2021-06-16 23:45:51 · 267 阅读 · 3 评论 -
为什么选择Apache Airflow作为调度系统的7大理由
这篇文章主要想阐述使用Apache Airflow作为调度系统的好处,尽可能客观的基于数据来说明情况,避免自夸自擂。0.社区活跃我们从github 的 airflow contributors 页面可以看到2个核心的指标:截至2021年06月06日,Star 数已经达到了21.7k, Fork数达到了8.6k,其代码的commit数目更是逐年递增.在Airflow的github主页面可以看到,现有1,575个用户对airflow进行了贡献。且有400多家公司填写了登记了正在使用Apache Air原创 2021-06-06 20:57:30 · 1758 阅读 · 0 评论 -
Apache Airflow 2.0 新特性一览
今天有空对大约半年前的Apache Airflow 2.0 的Release文档做一个整理,主要的文章的内容来自于Apache Airflow官方的Apache Airflow 2.0 is here!和Astronomer(Apache Airflow云服务提供商)的Introducing Airflow 2.0.主要以官方文档为主,以翻译+注解的方式来说明Apache Airflow 2.0 版本的新特性.A new way of writing dags: the TaskFlow API (AI原创 2021-06-06 17:35:28 · 2019 阅读 · 0 评论 -
Flink 指标监控整理
https://cloud.tencent.com/document/product/248/50974原创 2021-05-27 20:00:26 · 1306 阅读 · 0 评论 -
01 Apache Airflow 2.0+ 官方文档导读 各部分内容简介
---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----(二) 各部分内容简介接着我将围绕者文档目录结构,逐篇的对文档进行简要说明。1. Home主页对Airflow对功能及其特性做了概要性对描述关于Airflow是什么,给出了明确对定义:Airflow is a platform to programmatically author, schedule and monitor workflows.(Airflow是一个可以通过编程来编写,调度及监控原创 2021-04-11 21:12:05 · 471 阅读 · 1 评论 -
02 Apache Airflow 2.0+官方文档导读 Quick Start (快速上手)
Quick Start快速开始指南,这里分为两个小的部分,分别是本地运行及以Docker方式运行Airflow。值得注意的是,这两种方式都只是快速体验airflow的方式,不能够用于生产部署。A.本地运行指南 (单机版)主要内容包括a.Airflow的安装方式(使用pip 执行命令)b.Airflow 启动环境配置(AIRFLOW_HOME, PYTHON_VERSION,CONSTRAINT_URL)c.Airflow 启动命令(airflow db init / airflo原创 2021-05-23 19:45:51 · 1416 阅读 · 1 评论 -
Apache Airflow 资源汇总
----文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----Apache Airflow已经进入了2.0时代了,相关的中文资源还是比较缺少,有空整理一下我所了解到的Airflow的相关资源,供大家参考。资源的优先级由上至下依次列出,解决问题查找资料时,请先查看官方资源相关的第一手资料,其次再使用slack / email / github issue 等方式直接与开源社区沟通,以获得最专业的指导,再其次可以与中文社区相关的成员进行沟通,以获得一些前人的经验方面的信息。原创 2021-04-11 21:15:45 · 813 阅读 · 0 评论 -
谁在使用Apache Airflow及提供Apache Airflow服务的云厂商
这篇文章给大家介绍一下Apache Airflow的用户情况及提供Apache Airflow服务的云厂商。1.已经登记的使用Apache Airflow的用户我们从github的https://github.com/apache/airflow/blob/master/INTHEWILD.md页面可以看到,截止到2021-05-23号,已经有403家公司填写了相关信息,大多为国外的用户,如Adobe, Airbnb, Bloomberg, Dropbox, Gitlab, HBO, Lyft,..原创 2021-05-23 19:24:09 · 715 阅读 · 0 评论 -
Apache Airflow部署文档(物理机版本)
0.airflow架构从开发的角度出发来看,使用Local Execultor的基础 Airflow架构是一个绝佳的理解Apache Airflow架构的起点。以下是airflow 主要组件的说明: 元数据库(Metadata Database): Airflow使用 SQL 数据库 来存储关于 数据流水线运行相关的元数据信息。在图片下方,元数据库由在Airflow当中很受欢迎的Postgres来表示。Airflow也支持MySQL作为其元数据库。 Web服务器和调度器(Web原创 2020-10-15 20:52:33 · 1167 阅读 · 0 评论 -
00 Apache Airflow 2.0+ 官方文档导读 总体概览
Airflow 官方文档是Apache Airflow最为权威的参考资料,它汇聚了社区众多贡献者的聪明才智,是学习并掌握Airflow的最佳伴侣。这篇文章给大家简要的讲解官方文档中各部分所包含的内容,希望能够帮助大家快速的定位到自己需要的内容,更好的去寻找自己需要的资料。(一) 总体概览首先先放链接 https://airflow.apache.org/docs/apache-airflow/stable/index.html从官方文档的布局来看,主要有5大部分1.当前文档的版本Air原创 2021-04-11 21:51:12 · 884 阅读 · 0 评论 -
Apache Airflow2.0.2 遇到的问题及解决方案
Airflow2.0.2 问题及解决方案a.测试运行期间发现 airflow scheduler 由于 mysql deadlock 而挂掉的问题_mysql_exceptions.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction')看了下若干的issue,感觉mysql对airflow scheduler的支持不够好,且考虑到后面要部署多个schedule原创 2021-05-23 10:51:15 · 3339 阅读 · 2 评论 -
Apache Airflow 1.10.9 升级到 2.0.2 版本实践
五一放假回来在我们测试环境对Airflow进行了升级实验,总结出来了这篇文章,供还在使用Airflow1.10版本的各位朋友参考.强烈建议各位使用Airflow的朋友升级到2.0.x版本,实践效果杠杠的.0.注意事项:a.升级之前要备份!要备份!备份!b.升级过程中的操作要进行记录,积累实践的经验,避免重复犯错.1.整体升级流程列表a.查看Upgrading to 2.x 及 Updating.md文档b.现有Airflow情况梳理c.升级到1.10.15 桥接版本d.使原创 2021-05-08 21:35:10 · 2549 阅读 · 1 评论 -
Apache Airflow系列文章
Apache Airflow是优秀的 数据流水线耦合工具,在开源世界已经成为了事实上的 工作流调度标准,国外的云厂商都直接提供Airflow的云服务,其开源势头也特别的强劲,预计在 2020年年底推出 2.0版本,届时其性能将更加强大,功能更为丰富,UI更为现代化。下面是我基于实战总结出来的Apache Airflow系列文章,供各位需要的网友参考。1.Airflow部署文档(物理机版本)...原创 2020-10-15 21:00:38 · 1995 阅读 · 3 评论 -
Apache Airflow性能优化相关资源
1. airflow scaling workershttps://www.astronomer.io/guides/airflow-scaling-workers2.airflow 2 schedulerhttps://www.astronomer.io/blog/airflow-2-scheduler3.How Can My Airflow Dag Run Fasterhttps://airflow.apache.org/docs/apache-airflow/stable/faq.原创 2021-04-22 19:42:47 · 496 阅读 · 0 评论 -
Cloudera Hue资料整理
0.相关资料a.githubhttps://github.com/cloudera/hueb.hue创始人的博客https://medium.com/data-queryingc.使用docker-compose部署https://github.com/cloudera/hue/tree/master/tools/docker/hue#docker-composed.spark sql with livyhttps://gethue.com/blog/quick-task-s原创 2021-04-22 19:35:53 · 365 阅读 · 0 评论 -
CDH6.x对应的Apache Atlas版本选择
一.CDH集群组件版本调研现有大数据集群使用的是CDH 6.1.0版本,查看官方文档[1],可以查找到各组件的版本信息。Component Component Version Changes Information Apache Avro 1.8.2 Changes Apache Flume 1.8.0 Changes Apache Hado...原创 2020-01-10 20:22:58 · 3423 阅读 · 0 评论 -
基于CDH6.x环境的Apache Atlas2.x安装配置
0.说明下文中的${}中的变量需要根据实际情况进行替换1.依赖A.软件依赖Apache HadoopApache ZookeeperApache KafkaApache HBaseApache SolrApache HiveB.命令依赖tarzip2.安装配置A.传送jar包到服务器并解压tar -zxfapache-...原创 2020-01-10 20:21:14 · 2544 阅读 · 11 评论