- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 Linux Workflow Airflow CeleryExecutor 踩坑心酸历程
本篇所使用的系统环境为 Centos 6.8,Python 3.6.5,Airflow 1.9.0Airflow 的搭建可以参考从0到1,AirFlow搭建踩坑历程安装RabbitMQ1.安装erlang erlang地址:http://www.rabbitmq.com/releases/erlang/ 使用 rpm -ihv 安装...
2018-05-10 16:33:04 9546 1
原创 从0到1,AirFlow搭建踩坑历程
背景:ETL会经常使用脚本(bash/python)+crontab来运行数据处理任务查看任务执行情况不直观方便,只能登录机器、或者写一个界面/监控存在依赖关系的任务没办法保证,或者保证的方法成本太高任务量达到一定量级,任务的管理将极其棘手调研:Airflow Oozie + Python Code for DAGs --- Java or XML for DAGs + Has connect...
2018-04-27 12:17:35 7391 1
原创 使用Intellij Idea搭建Spark开发环境
Intellij Idea下载地址: 本文选择右下角的Community Ultimate版本进行下载安装 本文使用的是MacOS环境为:JDK1.8.0_144Scala2.10.4在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将Scala文件打包成jar包并在Spark集群上运行的话,请确保Spark集群和打包操作所在机器 环境
2018-01-03 12:10:59 1521
原创 SQL 查询用户连续登录时长
1.建表CREATE TABLE person_view( id INT NULL, start DATE NULL)2.插入数据INSERT INTO person_view (id, start) VALUES (1, '2018-07-01');INSERT INTO person_view (id, start) VALUES (1, '2018-07-02');I...
2018-07-10 15:30:20 2135 1
转载 spark on yarn:Container is running beyond physical memory limits
在虚拟机中安装好hadoop和spark后。执行start-all.sh(hadoop命令)来开启hdfs和yarn服务。服务开启成功后,为了测试spark on yarn的可执行性,输入命令:sh spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples...
2018-04-27 16:45:08 1688
原创 aws s3查看路径大小
aws s3 ls s3://${path}/ --recursive --human-readable --summarize
2018-02-06 10:14:28 7084
转载 如何为Hadoop集群选择正确的硬件
当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。虽然Hadoop被设计为可以运行在标准的X86硬件上,但在选择具体服务器配置的时候其实没那么简单。为已知的工作负载或者应用场景选择硬件时,往往都要综合考虑性能因素和性价比,才能选择合适的硬件。比如,对于IO密集型的工作负载,用户往往需要为每个CPU core匹配更多的存储或更高的吞吐(more spi
2018-01-03 11:24:55 552
转载 Spark整合Mongodb
环境准备 mongodb下载解压安装启动mongodb服务$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log 1pom依赖 dependency> groupId>org.mongodb.sp
2018-01-03 11:22:52 393
转载 写给大数据开发初学者的话
导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学
2018-01-03 11:04:46 323
转载 Spark RDD简介及RDD在Spark中的地位
1.Spark的核心概念是RDD (resilient distributed dataset),指的是一个 只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3.RDD通常
2018-01-03 10:55:18 505
转载 Spark 的transformation和action操作
1.前言: RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Action(执行):触发Spark作业的运行,真正触发转
2018-01-03 10:09:09 630
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人