自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zg_hover的专栏

Get buy living or get busy dying!

  • 博客(5)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark2.0-RDD分区原理分析

Spark分区原理分析介绍分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。一个分区是大型分布式数据集的逻辑块。 那么思考一下:分区数如何映射到spark的任务数?如何验证?分区和任务如何对应到本地的数据?Spark使用分区来管理数据,这些分区有助于并行化分布式数据处理,并以最少的网络流量在executors之间发送数据。默认情况下,Spark尝试从靠近

2017-06-20 07:54:29 14944 4

原创 Kafka原理分析-持久化方案设计(Persistence)

Kafka持久化方案的设计    Kafka很大程度上依赖文件系统来存储和缓存消息。有一普遍的认识:磁盘很慢。这让人们怀疑使用磁盘作为持久化的性能。实际上,磁盘是快还是慢完全取决于我们是如何使用它。     就目前来说,一个 six 7200rpm SATA RAID-5磁盘线性(顺序)写入的性能能达到600MB/sec,而任意位置写(寻址再写)的性能只有100k/sec。这些线性读写是所有使用模

2017-06-13 16:19:20 3190

原创 Kafka介绍

Kafka简介Apache Kafka是一个分布式消息发布-订阅系统。他最初由LinkedIn开发,后来成为Apache项目的一部分。Kafka是快速、可扩展、分布式的。 和其他消息系统(ActiveMQ、RabbitMQ、ZeroMQ等)相比,Kafka有以下优点:分布式系统设计,很容易扩展对于消息的发布和订阅都有非常高的吞吐量支持多用户订阅,在消费失败时自动平衡多个消费者Kafka的逻

2017-06-13 12:09:48 1112

原创 spark2.0原理分析--RDD血缘(RDD Lineage)

本文介绍了RDD的血缘基本概念和形成。血缘是由于RDD的转换操作形成的多个RDD的依赖关系。RDD的血缘不依赖数据的计算。每个RDD都有一个依赖的父RDD的引用的列表,通过这个列表来找到依赖的父RDD,多个RDD的依赖形成了一个DAG图(有向无环图)。这就是RDD的血缘(RDD Lineage)。

2017-06-13 07:23:53 5755

原创 spark-2.0原理分析-shuffle过程

shuffle概览shuffle过程概览shuffle数据流概览shuffle数据流shuffle工作流程在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。 spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages:例如:ShuffleRDD/CoGrouped

2017-06-13 07:13:06 15370 1

neo4j调优手册v1.0.pdf

neo4j性能优化

2021-08-04

泰坦里克事故乘客训练和测试数据

泰坦尼克事故的乘客信息,训练数据和测试数据

2017-07-01

avafind 破解版

avafind 可用版本。

2016-10-06

unix network programing

unix network programing steven 的经典书籍 学linux/unix网络编程必备书 网络上有chm版本的,我把它搞成了pdf版,方便大家打印

2009-03-06

write_solid_code

编写风格好的代码,本书可以 让你学到如何颈好的写出风格,和稳健的程序代码。

2008-11-06

linux编程和内核的调试技巧

调试技巧 linux下程序的调试技巧,包括内核的调试,很有用的一本书哦!

2008-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除