中琦2513的猿生

Stay Hungry, Stay Foolish

MapReduce编程案例系列篇(1-9)

由于本人最开始接触大数据工作,主要以写MapReduce程序为主,虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居...

2017-10-23 18:27:32

阅读数 42460

评论数 5

IT十年--大数据系列讲解

个人觉得IT十年的大数据系列的博文非常干货。对于希望掌握整个大数据行业的技术栈的一个初步了解非常的有帮助,本人也是有事没事的上来看看。所以整理出来一个目录,放在自己的博客里,方便寻找学习。大数据(一) - hadoop生态系统及版本演化 大数据(二) - HDFS 大数据(三) - YARN 大数...

2016-10-23 22:35:26

阅读数 34515

评论数 0

倾情大奉送--Spark入门实战系列

这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark ML...

2016-10-23 22:23:00

阅读数 34477

评论数 2

周志湖Spark系列

本人本着十分尊重的态度来学习周老师的博文,特此为方便好找,在此做一个目录。方便学习。 Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

2016-10-23 21:14:17

阅读数 35532

评论数 1

Scala入门到精通

这是本人收集的Scala学习资料,觉得还不错。转载比较费事,所以就只给链接了。顺便做个目标,方便好找。 Scalar入门到精通: 1、Scala入门到精通——第一节 Scala语言初步

2016-08-17 18:28:26

阅读数 38505

评论数 0

编程精华资源(ITeye优秀专栏)大汇总

博客是记录学习历程、分享经验的最佳平台,多年以来,各路技术大牛在ITeye网站上产生了大量优质的技术文章,并将系列文章集结成专栏,以便读者能够更便捷、更系统地浏览学习,这些可称之为“编程精华资源”。 为了便于读者更好地查阅,本文将ITeye中的这些精华资源进行了整理分类,你可以通过文中链接跳转到相...

2019-05-12 18:58:23

阅读数 386

评论数 0

编程语言 IDE 对比

IDE是集成开发环境的英文缩写,所谓集成开发环境,就是将你在开发过程中所需要的工具或功能集成到了一起,比如代码编写、分析、编译、调试等功能,从而最大化地提高开发者的工作效率。 每种编程语言都有一些特定的IDE,本文将简单为你介绍这些IDE之间的区别,希望能够为你选择IDE时提供一些帮助。 本文转...

2019-05-12 18:48:37

阅读数 1590

评论数 3

一千行MySQL学习笔记(MySQL常见SQL语句全详解)

/* 启动MySQL */ net start mysql /* 连接与断开服务器 */ mysql -h 地址 -P 端口 -u 用户名 -p 密码 /* 跳过权限验证登录MySQL */ mysqld --skip-grant-tables -- 修改root密码 密码加密函数passwo...

2019-05-08 12:26:56

阅读数 931

评论数 0

Hadoop-3.x新特性

相对于之前主要生产发布版本Hadoop 2,Apache Hadoop 3整合许多重要的增强功能。 Hadoop 3是一个可用版本,提供了稳定性和高质量的API,可以用于实际的产品开发。下面简要介绍一下Hadoop3的主要变化。 1、最低Java版本要求从Java7变为Java8 所有Ha...

2019-04-12 10:18:35

阅读数 3308

评论数 0

Spark面试精选题(06)

1、Operation category READ is not supported in state standby是什么原因导致的 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): O...

2019-04-11 10:22:34

阅读数 3861

评论数 0

Spark面试精选题(05)

1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val...

2019-04-11 10:10:31

阅读数 3652

评论数 0

Spark面试精选题(04)

1、MRV1有哪些不足 1) 可扩展性(对于变化的应付能力) a) JobTracker内存中保存用户作业的信息 b) JobTracker使用的是粗粒度的锁 2) 可靠性和可用性 a) JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流 3) 对不同编程模...

2019-04-11 10:04:36

阅读数 3520

评论数 0

Spark面试精选题(03)

1、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及E...

2019-04-11 09:49:59

阅读数 3466

评论数 0

Spark面试精选题(02)

1、driver的功能是什么? 1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点; 2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task...

2019-04-11 09:27:35

阅读数 3457

评论数 0

Spark面试精选题(01)

1、Spark中的RDD是什么,有哪些特性 概念:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distributed...

2019-04-11 09:21:57

阅读数 3610

评论数 1

分布式之Redis精讲

引言 为什么写这篇文章? 考虑到绝大部分写业务的程序员,在实际开发中使用redis的时候,只会setvalue和getvalue两个操作,对redis整体缺乏一个认知。又恰逢博主某个同事下周要去培训redis,所以博主斗胆以redis为题材,对redis常见问题做一个总结,希望能够弥补大家的知...

2019-03-24 17:41:58

阅读数 4907

评论数 0

谷歌三篇论文(GFS,MapReduce,BigTable)

Google引爆大数据时代的三篇论文 谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! 一,GFS—-2003 ...

2019-03-21 10:35:55

阅读数 5203

评论数 0

Flink Windo机制详解

Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他...

2019-03-19 11:41:27

阅读数 5315

评论数 0

你所听到的技术原理、技术本质到底是什么?

职场的程序员们或多或少都受到过前辈或领导的指点,应该都听过这么一句话 “学技术不能光会搭建个环境,使几个API,要学习了解技术的本质”。可能实际听得比较多的是“学习技术原理”这句。所以这两个点都会说到,会说一说区别及联系。 原理,何为原理,技术原理到底在学什么? 本质,何为本质,怎么就算了解...

2019-03-08 17:31:45

阅读数 5947

评论数 0

hbase-default.xml详解--注释

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configur...

2019-03-08 16:47:46

阅读数 5897

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭