迷恋晓峰-CSDN博客

原创 Linux Workflow Airflow CeleryExecutor 踩坑心酸历程

本篇所使用的系统环境为 Centos 6.8，Python 3.6.5，Airflow 1.9.0Airflow 的搭建可以参考从0到1，AirFlow搭建踩坑历程安装RabbitMQ1.安装erlang erlang地址：http://www.rabbitmq.com/releases/erlang/ 使用 rpm -ihv 安装...

2018-05-10 16:33:04 9659

原创从0到1，AirFlow搭建踩坑历程

背景：ETL会经常使用脚本（bash/python）+crontab来运行数据处理任务查看任务执行情况不直观方便，只能登录机器、或者写一个界面/监控存在依赖关系的任务没办法保证，或者保证的方法成本太高任务量达到一定量级，任务的管理将极其棘手调研：Airflow Oozie + Python Code for DAGs --- Java or XML for DAGs + Has connect...

2018-04-27 12:17:35 7500

原创使用Intellij Idea搭建Spark开发环境

Intellij Idea下载地址：本文选择右下角的Community Ultimate版本进行下载安装本文使用的是MacOS环境为：JDK1.8.0_144Scala2.10.4在网上下载jdk和scala的安装包双击运行安装即可注意：如果之后要将Scala文件打包成jar包并在Spark集群上运行的话，请确保Spark集群和打包操作所在机器环境

2018-01-03 12:10:59 1601

原创 SQL 查询用户连续登录时长

1.建表CREATE TABLE person_view( id INT NULL, start DATE NULL)2.插入数据INSERT INTO person_view (id, start) VALUES (1, '2018-07-01');INSERT INTO person_view (id, start) VALUES (1, '2018-07-02');I...

2018-07-10 15:30:20 2221 1

转载 spark on yarn:Container is running beyond physical memory limits

在虚拟机中安装好hadoop和spark后。执行start-all.sh（hadoop命令）来开启hdfs和yarn服务。服务开启成功后，为了测试spark on yarn的可执行性，输入命令：sh spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples...

2018-04-27 16:45:08 1769

原创 aws s3查看路径大小

aws s3 ls s3://${path}/ --recursive --human-readable --summarize

2018-02-06 10:14:28 7539

转载如何为Hadoop集群选择正确的硬件

当我们想搭建一个Hadoop大数据平台时，碰到的第一个问题就是我们到底该如何选择硬件。虽然Hadoop被设计为可以运行在标准的X86硬件上，但在选择具体服务器配置的时候其实没那么简单。为已知的工作负载或者应用场景选择硬件时，往往都要综合考虑性能因素和性价比，才能选择合适的硬件。比如，对于IO密集型的工作负载，用户往往需要为每个CPU core匹配更多的存储或更高的吞吐(more spi

2018-01-03 11:24:55 600

转载 Spark整合Mongodb

环境准备 mongodb下载解压安装启动mongodb服务$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log 1pom依赖 dependency> groupId>org.mongodb.sp

2018-01-03 11:22:52 427

转载写给大数据开发初学者的话

导读：第一章：初识Hadoop第二章：更高效的WordCount第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的机器学习经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学

2018-01-03 11:04:46 354

转载 Spark RDD简介及RDD在Spark中的地位

1.Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。 2.RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Worker节点上，从而让RDD中的数据可以被并行操作。（分布式数据集） 3.RDD通常

2018-01-03 10:55:18 546

转载 Spark 的transformation和action操作

1.前言： RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Action（执行）：触发Spark作业的运行，真正触发转

2018-01-03 10:09:09 683

转载 Spark stage阶段划分算法

2018-01-03 10:07:30 584

转载 Spark运行原理架构图

2018-01-03 10:05:02 997

迷恋晓峰