自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux Workflow Airflow CeleryExecutor 踩坑心酸历程

本篇所使用的系统环境为 Centos 6.8,Python 3.6.5,Airflow 1.9.0Airflow 的搭建可以参考从0到1,AirFlow搭建踩坑历程安装RabbitMQ1.安装erlang erlang地址:http://www.rabbitmq.com/releases/erlang/ 使用 rpm -ihv 安装...

2018-05-10 16:33:04 9546 1

原创 从0到1,AirFlow搭建踩坑历程

背景:ETL会经常使用脚本(bash/python)+crontab来运行数据处理任务查看任务执行情况不直观方便,只能登录机器、或者写一个界面/监控存在依赖关系的任务没办法保证,或者保证的方法成本太高任务量达到一定量级,任务的管理将极其棘手调研:Airflow Oozie + Python Code for DAGs --- Java or XML for DAGs + Has connect...

2018-04-27 12:17:35 7391 1

原创 使用Intellij Idea搭建Spark开发环境

Intellij Idea下载地址: 本文选择右下角的Community Ultimate版本进行下载安装 本文使用的是MacOS环境为:JDK1.8.0_144Scala2.10.4在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将Scala文件打包成jar包并在Spark集群上运行的话,请确保Spark集群和打包操作所在机器 环境

2018-01-03 12:10:59 1521

原创 SQL 查询用户连续登录时长

1.建表CREATE TABLE person_view( id INT NULL, start DATE NULL)2.插入数据INSERT INTO person_view (id, start) VALUES (1, '2018-07-01');INSERT INTO person_view (id, start) VALUES (1, '2018-07-02');I...

2018-07-10 15:30:20 2135 1

转载 spark on yarn:Container is running beyond physical memory limits

在虚拟机中安装好hadoop和spark后。执行start-all.sh(hadoop命令)来开启hdfs和yarn服务。服务开启成功后,为了测试spark on yarn的可执行性,输入命令:sh spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples...

2018-04-27 16:45:08 1688

原创 aws s3查看路径大小

aws s3 ls s3://${path}/ --recursive --human-readable --summarize

2018-02-06 10:14:28 7084

转载 如何为Hadoop集群选择正确的硬件

当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。虽然Hadoop被设计为可以运行在标准的X86硬件上,但在选择具体服务器配置的时候其实没那么简单。为已知的工作负载或者应用场景选择硬件时,往往都要综合考虑性能因素和性价比,才能选择合适的硬件。比如,对于IO密集型的工作负载,用户往往需要为每个CPU core匹配更多的存储或更高的吞吐(more spi

2018-01-03 11:24:55 552

转载 Spark整合Mongodb

环境准备 mongodb下载解压安装启动mongodb服务$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log 1pom依赖 dependency> groupId>org.mongodb.sp

2018-01-03 11:22:52 393

转载 写给大数据开发初学者的话

导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学

2018-01-03 11:04:46 323

转载 Spark RDD简介及RDD在Spark中的地位

1.Spark的核心概念是RDD (resilient distributed dataset),指的是一个 只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3.RDD通常

2018-01-03 10:55:18 505

转载 Spark 的transformation和action操作

1.前言: RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Action(执行):触发Spark作业的运行,真正触发转

2018-01-03 10:09:09 630

转载 Spark stage阶段划分算法

2018-01-03 10:07:30 520

转载 Spark运行原理架构图

2018-01-03 10:05:02 929

hadoop-2.7.1-64位编译包

hadoop-2.7.1-64位编译包,本人亲测,绝对有用。

2015-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除