啊左的专栏

别让自己闲下来啊

Spark 2.2.1 官方文档翻译 RDD编程指南(RDD Programming Guide)

本文翻译Spark官方文档,版本为2.2.1。 章节目录如下: 概览 通过编写应用程序使用Spark 链接到Spark 初始化Spark 通过Spark-Shell使用Spark 弹性分布式数据集RDD parallelizing 集合 外部数据集 RDD操作 基本操作 将函数传递给Spark 了...

2018-01-22 10:39:59

阅读数 1010

评论数 0

Spark2.2.1官方文档翻译 快速开始(Quick Start)

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations 使用Spark Shell进行交互式分析 基础 更多DataSet 操作 缓存 Spark应用程序 更多 本教程提供了...

2018-01-21 01:08:34

阅读数 1299

评论数 0

Hadoop进阶之MR中MapTask并行度决定机制及切片机制

前言 mapTask并行度的决定机制 FileInputFormat切片机制 切片定义在InputFormat类中的getSplit方法 FileInputFormat中默认的切片机制 FileInputFormat中切片的大小的参数配置 map并行度的经验之谈 ReduceTask并行...

2018-01-15 17:51:31

阅读数 1941

评论数 0

spark streaming 根据文件内容自定义文件名输出,并实现文件内容追加

转载自http://blog.csdn.net/qq_19917081/article/details/56841299 spark streaming 从kafka拉取数据,根绝消息内容,需要将不容的消息放到不同的文件夹下,大致内容为 从消息中拆分出域名,不同域名分不到不同目录,域名下...

2018-03-28 11:09:32

阅读数 595

评论数 1

Spark进阶之shuffle深入解析

第37课:Spark中Shuffle详解及作业 http://www.blog.csdn.net/zhumr/article/details/52540994 Spark Shuffle原理、Shuffle操作问题解决和参数调优 http://www.cnblogs.com/arachis/...

2018-03-28 11:08:34

阅读数 57

评论数 0

ZooKeeper 是什么?知道这些就足够了!

Zookeeper是什么有什么用 Zookeeper集群机制是什么 Zookeeper选举机制 zookeeper的选举机制全新启动的集群 非全新集群的选举机制数据恢复 Zookeeper结构 Zookeeper特性 zookeeper数据结构 节点类型 本文解决的问题: ...

2018-02-26 11:22:54

阅读数 1674

评论数 0

【转】记Flume-NG一些注意事项

转载自《记Flume-NG一些注意事项(不定时更新,欢迎提供信息)》 https://www.cnblogs.com/lxf20061900/p/4012847.html 一关于Source 二关于Channel 三关于Sink 四关于SinkGroup 五关于监控monito...

2018-02-26 11:20:58

阅读数 209

评论数 0

Flume 官方文档翻译 Flume 1.8.0 User Guide(一)

Introduction简述 OverView 综述 System Requirements系统要求 Architecture架构 Data flow model数据流动模型 Complex flows复杂流 Reliability可靠性 Recoverability可恢复性 Setu...

2018-02-09 14:40:34

阅读数 1799

评论数 0

JVM GC 图文笔记整理 一图读懂GC算法

读《Java虚拟机:JVM高级特性与最佳实践(第2版)》后做的笔记整理: MinorGC : 新生代 MajorGC:老年代 FullGC : 所有。

2018-01-24 08:40:23

阅读数 187

评论数 0

Hadoop进阶之MapReduce编程模型简介和总结

本文转载修改自《MapReduce编程模型简介和总结》 https://www.cnblogs.com/mmaa/p/5789911.html InputFormat OutputFormat Mapper和Reducer Partitioner MapReduce应用广泛的...

2018-01-16 11:20:17

阅读数 2123

评论数 0

Hadoop进阶之读写文件内部工作机制

转载修改自《Hadoop读写文件时内部工作机制》 https://www.cnblogs.com/beanmoon/archive/2012/12/17/2821548.html 读文件 Hadoop中的网络拓扑 写文件 replica是如何分布的 读文件 读...

2018-01-15 10:16:25

阅读数 1278

评论数 0

Hive进阶-深入解析Hive底层实现 - Distinct 的底层实现

转自Hive – Distinct 的实现 并稍作更改 http://ju.outofmemory.cn/entry/784 Hive版本为1.1.0。有空的话其实可以分析它在hive on spark 的底层实现是怎么样的 分析语句 准备数据 计算过程 Operator Expl...

2018-01-10 16:40:41

阅读数 3691

评论数 0

Spark 内存溢出 处理 及 优化

来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 简介 Spark 内存模型 内存溢出解决方法 map过程产生大量对象导致内存溢出 数据不平衡导致内存溢出 coalesce调用导致内存溢出 shuffle...

2018-01-10 15:59:38

阅读数 6333

评论数 0

如何查看当前hive版本号

如何查看当前hive版本号 方法一 方法二 如何查看当前hive版本号 方法一 查看jar包版本: whereis hive 获取 hive位置 查看hive的jar包版本 方法二 进入hive客户端 通过log查看当前hive的版本。

2018-01-09 12:00:32

阅读数 17333

评论数 0

Centos7:3分钟安装pip3

前言由于使用中需要用到pip3,而Centos7中没有,于是进行了安装,并汇总了我的安装过程,希望能给大家一点帮助。开始前需先安装python3,请参考以下文章: Centos7:5分钟安装python3.5 并存python2.7,兼容yum及Gnome安装过程1.安装相关依赖sudo yum...

2017-09-30 14:44:16

阅读数 21983

评论数 6

Centos7:5分钟安装python3.5 并存python2.7,兼容yum及Gnome

前言由于需要使用Python3,而Centos7中默认安装的是2.7版本,于是进行升级安装。本文汇总我再安装及安装后的问题解决,希望能给大家一点帮助。Python3下载安装CentOS7默认安装了python2.7.5,当需要使用python3的时候,可以手动下载Python源码后编译安装。1.安...

2017-09-30 14:35:04

阅读数 2709

评论数 1

在Linux中通过Kitchen和Pan以命令行方式执行kettle的Job和Transformation

1. 准备工作一个简单的job,一个简单的trans。本处为了方便和效果易见,job和trans都生成文件。 trans:读取download目录下的所有文件名,输出为文件。【界面情况下测试成功】 成功生成目标文件: job:创建文件。【界面模式测试执行成功】 执行结果: ...

2017-09-25 11:33:49

阅读数 6889

评论数 0

Kettle邮件配置及遇到的问题解决

其实kettle的发邮件配置还是很简单的。 遇到了神坑的问题:connect time out。 原因:公司网络作为邮件smtp发送不行。 解决方法:换个网络,就好了。上图吧直接。因为确实很简单。 1. 基本配置 2.服务器配置: 3.内容配置 4.执行结果

2017-09-22 09:49:00

阅读数 1349

评论数 0

Linux中 Mysql 14.14 数据库编码修改为utf-8

故事背景:由于使用sqoop与mysql进行连接,为解决传输中文数据出现乱码问题,需要对mysql数据库编码进行修改。但由于网上的具体操作和我自己的操作不一样(其实也就是配置资源不一样),于是记录这个文档,希望帮到别的人。 sudo vi /etc/my.cnf 在datadir,socket等等...

2017-08-15 21:53:50

阅读数 514

评论数 0

Linux 中启动Eclipse 出现异常 Exit code =13解决方法

对于我的个人案例,是因为安装了与Eclipse位数不同的jdk:Eclipse64位,jdk32位。 这还不是最坑爹的,坑爹的是我居然还不知道我装了32位的jdk。 如何验证安装的jdk版本,请点击这里:卸载Linux中的jdk 并重新安装jdk的Linux命令: http://blog.c...

2017-08-08 22:19:03

阅读数 650

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭