自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (5)
  • 收藏
  • 关注

转载 <转>HBase运维实践-聊聊RIT的那点事-RIT(Region-In-Transition)

相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。正所谓“恐惧来源于未知”,不知所措意味着我们对RIT知之甚少,然而“凡事都有因果,万事皆有源头”,处于RIT状态的Region只是

2016-11-28 11:48:50 6961 2

转载 <转>HBase最佳实践-读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章里面已经讲过它的来龙去脉,主要的解决方案目前主要有

2016-11-28 11:03:54 1064 1

转载 <转>zeppelin入门使用

Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala:  shell:  html: Manual动态表格使用表格模板

2016-11-17 16:02:20 680

转载 <转>最全的数据结构解析与归纳

本文对常用的数据结构:Array, ArrayList,List,IList,ICollection, Stack, Queue, HashTable, Dictionary, IQueryable, IEnumerable等进行详述。一、Collection(集合)Collection是数据记录集合,编写代码过程中,常常需要合适的容器保存临时数据,方便修改和查找,如何选取合适的数

2016-11-17 10:13:56 316

转载 <转>整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.

2016-11-14 16:18:50 319

转载 <转>Kubernetes从部署到运维详解

Kubernetes是Google开源的Docker容器集群编排管理系统,为容器化的应用提供自动部署,弹性伸缩,资源调度,负载均衡和服务发现等应用云平台所需的管理功能体系。Kubernetes 的灵感源于谷歌过去15年在生产环境中运行容器的管理经验,集合了社区中先进的理念和实战技术。Kubernetes对计算资源进行了更高层次的抽象,通过将容器进行细致的组合,将最终的应用服务交给用户。Ku

2016-11-14 11:14:25 1256

转载 <转>spark中的广播变量broadcast

Spark中的Broadcast处理首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => {  broadcastValues.getValue.forea

2016-11-11 17:22:20 687

转载 <转>MapReduce实现的Join

MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。1 思路1.1 reduce join在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是

2016-11-11 17:01:07 360

转载 <转> map join的与Reduce Join效率对比

MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多使用一个表测试,该表时5分钟表,数据很少,大概60多w。测试日志里包含多个字段,其中有uid和uip。测试场景为给出2个uid,取uid共同的uip。三个不同uid

2016-11-11 16:57:19 783

转载 <转>MySQL事务隔离级别详解

SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的。低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销。Read Uncommitted(读取未提交内容)       在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用,因为它的性能也不比其他级别好多少。读取未提交的数据,也被称之为脏读(Dirt

2016-11-11 14:42:43 298

转载 <转>数据仓库架构的变迁

引言第八届中国架构师大会(SACC2016)10月27号到29号在北京万达索菲特大饭店成功举办。大会以“架构创新之路“为主题,云集了国内外顶尖专家,共同探讨云计算和大数据等技术背景下,如何通过架构创新及各种IT新技术来带动企业转型增效。作为一家专注于云端数据仓库的初创公司,酷克数据受邀在SACC2016 “数据库平台架构及变迁”分会场作了题为“数据仓库架构及变迁”的演讲。以下是这次演讲的P

2016-11-09 16:56:31 847

转载 <转>HBase原理-RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。

2016-11-08 16:58:53 1583

转载 <转>微信小程序行业解析

目前小程序刚刚公测,本篇文章主要是与大家交流一下关于小程序的一些想法。在小程序还没有公测时,已经有许多公司开始布局,很多人开始摩拳擦掌,众多创业者开始瞄准一个方向努力。本文按照优先级分小程序 App、小程序快速生成平台、小程序开发者服务、小程序媒体&沙龙、定制化、教育、投资几个方向进行解析。一、小程序 App我把小程序 App 开发放在第一位,因为微信官方一开始放出了 200 个内

2016-11-08 15:07:58 773

转载 <转>Spark 在反作弊聚类场景的实践

作者:周奥特链接:https://zhuanlan.zhihu.com/p/23385044来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。目前知乎站内的 spammer 为了快速取得收效,往往倾向于大批量地产生相似的 spam 内容,或者密集地产生特定的行为。针对这种大量,相似,和相对聚集的特点,我们最近开始尝试使用聚类的方式去发现和挖掘 spa

2016-11-08 10:04:56 840

转载 <转>Hadoop Journal Node 作用

NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变

2016-11-04 15:39:48 361

转载 <转>YARN源码分析(四)-----Journalnode

前言最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而

2016-11-04 14:41:25 635

转载 <转>Hadoop2的HA安装(high availability):JournalNode+ zookeeper

前面介绍过使用NFS+zookeeper来解决namenode单点失败问题,因为NFS可能也会存在单点问题,所以hadoop提供了一种叫做JournalNode技术,这项技术可以在JournalNode节点间共享数据我们来介绍这一种技术:JournalNode+ zookeeperHadoop 版本:2.2.0OS 版本: Centos6.4Jdk 版本: jdk1

2016-11-04 14:22:14 307

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

clementine基础培训一

2013-11-18

Hbase入门与使用

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除