![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 78
屋顶看飞机
专注于分布式系统、大数据的研究及应用
展开
-
如何学习大数据技术
如何学习大数据技术1. 从经典的书籍中学习Hive性能调优实战Spark SQL内核剖析Flink内核原理与实现2. 从官方文档中学习一手资料文档齐全3. 从源码中学习exampletest casesource code4. 在技术社区中学习Flink 社区Spark 社区Airflow社区Kyuubi 社区5. 大数据未来的发展方向以Cloudera公司为首的Hadoop大数据系统逐渐的没落CDH/HDP 在2021年1月份开启付费墙Cloudera 公司即将退市原创 2021-06-18 10:59:37 · 277 阅读 · 0 评论 -
Spark SQL干货汇总
Spark SQL干货汇总Welcome to Kyuubi’s documentation! - Kyuubi 1.2.0 documentation提效7倍,Apache Spark 自适应查询优化在网易的深度实践及改进Kyuubi 与 Spark Thrift Server 的全面对比分析 | 技术干货网易数帆开源 Kyuubi:基于 Spark 的高性能 JDBC 和 SQL 执行引擎网易Spark Kyuubi核心架构设计与源码实现剖析_香飘叶子的技术博客_51CTO博客分享 | Sp原创 2021-06-16 23:45:51 · 235 阅读 · 3 评论 -
腾讯的Spark SQL开发与优化 -- 整理自《Spark SQL内核剖析》第11章
本文整理自《Spark SQL内核剖析》第11章 Spark SQL开发与实践,文章的图片版权归作者和出版社所有,侵权的话请联系删除。这本书系统的讲解了Spark SQL的架构原理及其实现方式,书中的内容逻辑严密,结构清晰明了,作者从简单的Spark SQL 语句入手,一步步的带着我们探索Spark SQL是如何实现的,这本书是帮助我们深入理解Spark SQL原理的不二选择,欢迎大家购买原书进行学习。另京东读书上有电子版,阅读体验很好,值得尝试。(利益无关,纯粹是自来水)这本书出版于2018年,作者均原创 2021-06-10 21:59:26 · 460 阅读 · 0 评论 -
为什么选择Apache Airflow作为调度系统的7大理由
这篇文章主要想阐述使用Apache Airflow作为调度系统的好处,尽可能客观的基于数据来说明情况,避免自夸自擂。0.社区活跃我们从github 的 airflow contributors 页面可以看到2个核心的指标:截至2021年06月06日,Star 数已经达到了21.7k, Fork数达到了8.6k,其代码的commit数目更是逐年递增.在Airflow的github主页面可以看到,现有1,575个用户对airflow进行了贡献。且有400多家公司填写了登记了正在使用Apache Air原创 2021-06-06 20:57:30 · 1596 阅读 · 0 评论 -
Apache Airflow 2.0 新特性一览
今天有空对大约半年前的Apache Airflow 2.0 的Release文档做一个整理,主要的文章的内容来自于Apache Airflow官方的Apache Airflow 2.0 is here!和Astronomer(Apache Airflow云服务提供商)的Introducing Airflow 2.0.主要以官方文档为主,以翻译+注解的方式来说明Apache Airflow 2.0 版本的新特性.A new way of writing dags: the TaskFlow API (AI原创 2021-06-06 17:35:28 · 1939 阅读 · 0 评论 -
CDH6.1 升级Impala到3.4版本启用auto refresh metadata功能的问题及解决方法
我们参考了Impala PMC的这篇文章在CDH6.3中单独升级Impala到Apache Impala 3.4在CDH6.1版本中进行升级原创 2021-05-29 13:38:02 · 1118 阅读 · 3 评论 -
Flink 指标监控整理
https://cloud.tencent.com/document/product/248/50974原创 2021-05-27 20:00:26 · 1258 阅读 · 0 评论 -
01 Apache Airflow 2.0+ 官方文档导读 各部分内容简介
---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----(二) 各部分内容简介接着我将围绕者文档目录结构,逐篇的对文档进行简要说明。1. Home主页对Airflow对功能及其特性做了概要性对描述关于Airflow是什么,给出了明确对定义:Airflow is a platform to programmatically author, schedule and monitor workflows.(Airflow是一个可以通过编程来编写,调度及监控原创 2021-04-11 21:12:05 · 425 阅读 · 1 评论 -
02 Apache Airflow 2.0+官方文档导读 Quick Start (快速上手)
Quick Start快速开始指南,这里分为两个小的部分,分别是本地运行及以Docker方式运行Airflow。值得注意的是,这两种方式都只是快速体验airflow的方式,不能够用于生产部署。A.本地运行指南 (单机版)主要内容包括a.Airflow的安装方式(使用pip 执行命令)b.Airflow 启动环境配置(AIRFLOW_HOME, PYTHON_VERSION,CONSTRAINT_URL)c.Airflow 启动命令(airflow db init / airflo原创 2021-05-23 19:45:51 · 1303 阅读 · 1 评论 -
Apache Airflow 资源汇总
----文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----Apache Airflow已经进入了2.0时代了,相关的中文资源还是比较缺少,有空整理一下我所了解到的Airflow的相关资源,供大家参考。资源的优先级由上至下依次列出,解决问题查找资料时,请先查看官方资源相关的第一手资料,其次再使用slack / email / github issue 等方式直接与开源社区沟通,以获得最专业的指导,再其次可以与中文社区相关的成员进行沟通,以获得一些前人的经验方面的信息。原创 2021-04-11 21:15:45 · 771 阅读 · 0 评论 -
谁在使用Apache Airflow及提供Apache Airflow服务的云厂商
这篇文章给大家介绍一下Apache Airflow的用户情况及提供Apache Airflow服务的云厂商。1.已经登记的使用Apache Airflow的用户我们从github的https://github.com/apache/airflow/blob/master/INTHEWILD.md页面可以看到,截止到2021-05-23号,已经有403家公司填写了相关信息,大多为国外的用户,如Adobe, Airbnb, Bloomberg, Dropbox, Gitlab, HBO, Lyft,..原创 2021-05-23 19:24:09 · 634 阅读 · 0 评论 -
Apache Airflow部署文档(物理机版本)
0.airflow架构从开发的角度出发来看,使用Local Execultor的基础 Airflow架构是一个绝佳的理解Apache Airflow架构的起点。以下是airflow 主要组件的说明: 元数据库(Metadata Database): Airflow使用 SQL 数据库 来存储关于 数据流水线运行相关的元数据信息。在图片下方,元数据库由在Airflow当中很受欢迎的Postgres来表示。Airflow也支持MySQL作为其元数据库。 Web服务器和调度器(Web原创 2020-10-15 20:52:33 · 1104 阅读 · 0 评论 -
00 Apache Airflow 2.0+ 官方文档导读 总体概览
Airflow 官方文档是Apache Airflow最为权威的参考资料,它汇聚了社区众多贡献者的聪明才智,是学习并掌握Airflow的最佳伴侣。这篇文章给大家简要的讲解官方文档中各部分所包含的内容,希望能够帮助大家快速的定位到自己需要的内容,更好的去寻找自己需要的资料。(一) 总体概览首先先放链接 https://airflow.apache.org/docs/apache-airflow/stable/index.html从官方文档的布局来看,主要有5大部分1.当前文档的版本Air原创 2021-04-11 21:51:12 · 812 阅读 · 0 评论 -
Apache Airflow指标监控实践
Apache Airflow官方提供了statsd的指标采集功能,我们可以基于statsd来监控Airflow集群整体的运行情况,结合Prometheus及Grafana对采集的指标进行展示并设置告警功能,保障Airflow集群在出现故障的时候能够及时的处理。1.Airflow集群指标采集及数据展示整体流程整个采集流程分为3个大的步骤:a.在安装statsd并且在airflow.cfg开启statsd后,Airflow集群会推送相关监控的指标到指定的statsd server中b.我们使原创 2021-05-23 13:07:23 · 3451 阅读 · 0 评论 -
Apache Airflow2.0.2 遇到的问题及解决方案
Airflow2.0.2 问题及解决方案a.测试运行期间发现 airflow scheduler 由于 mysql deadlock 而挂掉的问题_mysql_exceptions.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction')看了下若干的issue,感觉mysql对airflow scheduler的支持不够好,且考虑到后面要部署多个schedule原创 2021-05-23 10:51:15 · 3144 阅读 · 2 评论 -
Apache Airflow数仓持续发布实践
0.数仓持续发布整体流程开发在特性分支完成开发,合并代码到各个环境的分支 feat -> sit/prd在 sit可以不设置权限控制,让开发自行合并,prd环境需要设置权限控制,需要进行code review后才能进行合并。经过代码审核后,审核人员在gitlab上点击merge request 按钮,随即触发gitlab webhook发出http请求,然后通过 airflow-gitlab-webhook 插件触发 代码同步的dag, 在该dag中使用git pull命令拉去代码,即可实原创 2020-10-22 21:55:55 · 1118 阅读 · 8 评论 -
Apache Airflow 1.10.9 升级到 2.0.2 版本实践
五一放假回来在我们测试环境对Airflow进行了升级实验,总结出来了这篇文章,供还在使用Airflow1.10版本的各位朋友参考.强烈建议各位使用Airflow的朋友升级到2.0.x版本,实践效果杠杠的.0.注意事项:a.升级之前要备份!要备份!备份!b.升级过程中的操作要进行记录,积累实践的经验,避免重复犯错.1.整体升级流程列表a.查看Upgrading to 2.x 及 Updating.md文档b.现有Airflow情况梳理c.升级到1.10.15 桥接版本d.使原创 2021-05-08 21:35:10 · 2381 阅读 · 1 评论 -
Apache Airflow系列文章
Apache Airflow是优秀的 数据流水线耦合工具,在开源世界已经成为了事实上的 工作流调度标准,国外的云厂商都直接提供Airflow的云服务,其开源势头也特别的强劲,预计在 2020年年底推出 2.0版本,届时其性能将更加强大,功能更为丰富,UI更为现代化。下面是我基于实战总结出来的Apache Airflow系列文章,供各位需要的网友参考。1.Airflow部署文档(物理机版本)...原创 2020-10-15 21:00:38 · 1897 阅读 · 3 评论 -
Apache Airflow性能优化相关资源
1. airflow scaling workershttps://www.astronomer.io/guides/airflow-scaling-workers2.airflow 2 schedulerhttps://www.astronomer.io/blog/airflow-2-scheduler3.How Can My Airflow Dag Run Fasterhttps://airflow.apache.org/docs/apache-airflow/stable/faq.原创 2021-04-22 19:42:47 · 446 阅读 · 0 评论 -
Cloudera Hue资料整理
0.相关资料a.githubhttps://github.com/cloudera/hueb.hue创始人的博客https://medium.com/data-queryingc.使用docker-compose部署https://github.com/cloudera/hue/tree/master/tools/docker/hue#docker-composed.spark sql with livyhttps://gethue.com/blog/quick-task-s原创 2021-04-22 19:35:53 · 334 阅读 · 0 评论 -
个人博客文章汇总
这篇文章对自己博客文章进行汇总,起一个提纲或者集合的作用。00 读书总结类大数据平台基础架构指南 读书收获《代码大全》读书体会盘点国内大数据书籍流派大数据经典书籍良心推荐01 Spark 3.x 系列02 Apache Airflow 系列03 数仓开发相关数仓开发Intellij IDEA配置数仓代码版本及提交管理规范04 元数据技术CDH6.x对应的Apache Atlas版本选择基于CDH6.x环境的Apache Atlas2...原创 2021-04-11 22:24:10 · 360 阅读 · 1 评论 -
大数据经典书籍良心推荐
---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----今天给大家推进一些自己看过的大数据领域的经典书籍,我将从整体架构到具体细分领域这样的模式给大家进行推荐。(一) 整体架构0. 《Hadoop权威指南:大数据的存储与分析》(第4版) Tom White 著1. 《大数据之路:阿里巴巴大数据实践》 阿里巴巴数据技术及产品部 著2. 《大数据技术体系详解:原理、架构与实践》 董西成 著3. 《算法与数据中台》詹盈 著4. 《数据中台:让数据用起来原创 2021-04-11 21:18:29 · 4352 阅读 · 3 评论 -
盘点国内大数据书籍流派
1.Hello World派这类书籍内容较为浅显但配有精美的截图,适合小白作为入门教材。实际的内容较为坑,没有太多干活,一本书13章的内容,有10章的内容在安装软件,步骤还是挺详细的,但是emmm没有干货。为了避免不好的影响,不作详细的举例说明。2.经典翻译派从经典英文书籍翻译而来,内容权威,质量上乘。如Hadoop: The Definitive Guide.3.大厂实践派由一线大厂的开发实践总结出来的作品,这个类别阿里系的作品特别多。典型的代表有《大数据之路:阿里巴巴大数..原创 2020-06-28 23:58:10 · 383 阅读 · 0 评论