2016年11月_yongjian_luo

转载 <转>HBase运维实践－聊聊RIT的那点事-RIT(Region-In-Transition)

相信长时间运维HBase集群的童鞋肯定都会对RIT（Region-In-Transition，很多参考资料误解为Region-In-Transaction，需要注意）有一种咬牙切齿的痛恨感，一旦Region处于长时间的RIT就会有些不知所措，至少以前的我就是这样过来的。正所谓“恐惧来源于未知”，不知所措意味着我们对RIT知之甚少，然而“凡事都有因果，万事皆有源头”，处于RIT状态的Region只是

2016-11-28 11:48:50 6961 2

转载 <转>HBase最佳实践－读性能优化策略

任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章里面已经讲过它的来龙去脉，主要的解决方案目前主要有

2016-11-28 11:03:54 1064 1

转载 <转>zeppelin入门使用

Display Systemtext 默认使用scala语言输出text内容 shell html scala 输出html shell 输出html table scala shell table scala: shell: html: Manual动态表格使用表格模板

2016-11-17 16:02:20 680

转载 <转>最全的数据结构解析与归纳

本文对常用的数据结构：Array, ArrayList，List，IList，ICollection, Stack, Queue, HashTable, Dictionary, IQueryable, IEnumerable等进行详述。一、Collection（集合）Collection是数据记录集合，编写代码过程中，常常需要合适的容器保存临时数据，方便修改和查找，如何选取合适的数

2016-11-17 10:13:56 316

转载 <转>整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.

2016-11-14 16:18:50 319

转载 <转>Kubernetes从部署到运维详解

Kubernetes是Google开源的Docker容器集群编排管理系统，为容器化的应用提供自动部署，弹性伸缩，资源调度，负载均衡和服务发现等应用云平台所需的管理功能体系。Kubernetes 的灵感源于谷歌过去15年在生产环境中运行容器的管理经验，集合了社区中先进的理念和实战技术。Kubernetes对计算资源进行了更高层次的抽象，通过将容器进行细致的组合，将最终的应用服务交给用户。Ku

2016-11-14 11:14:25 1256

转载 <转>spark中的广播变量broadcast

Spark中的Broadcast处理首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => { broadcastValues.getValue.forea

2016-11-11 17:22:20 687

转载 <转>MapReduce实现的Join

MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题，如果数据量比较小，可以在内存中完成连接。如果数据量比较大，在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。1 思路1.1 reduce join在map阶段, 把关键字作为key输出，并在value中标记出数据是来自data1还是

2016-11-11 17:01:07 360

转载 <转> map join的与Reduce Join效率对比

MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多使用一个表测试，该表时5分钟表，数据很少，大概60多w。测试日志里包含多个字段，其中有uid和uip。测试场景为给出2个uid，取uid共同的uip。三个不同uid

2016-11-11 16:57:19 783

转载 <转>MySQL事务隔离级别详解

SQL标准定义了4类隔离级别，包括了一些具体规则，用来限定事务内外的哪些改变是可见的，哪些是不可见的。低级别的隔离级一般支持更高的并发处理，并拥有更低的系统开销。Read Uncommitted（读取未提交内容）在该隔离级别，所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用，因为它的性能也不比其他级别好多少。读取未提交的数据，也被称之为脏读（Dirt

2016-11-11 14:42:43 298

转载 <转>数据仓库架构的变迁

引言第八届中国架构师大会（SACC2016）10月27号到29号在北京万达索菲特大饭店成功举办。大会以“架构创新之路“为主题，云集了国内外顶尖专家，共同探讨云计算和大数据等技术背景下，如何通过架构创新及各种IT新技术来带动企业转型增效。作为一家专注于云端数据仓库的初创公司，酷克数据受邀在SACC2016 “数据库平台架构及变迁”分会场作了题为“数据仓库架构及变迁”的演讲。以下是这次演讲的P

2016-11-09 16:56:31 847

转载 <转>HBase原理-RegionServer宕机数据恢复

HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。

2016-11-08 16:58:53 1583

转载 <转>微信小程序行业解析

目前小程序刚刚公测，本篇文章主要是与大家交流一下关于小程序的一些想法。在小程序还没有公测时，已经有许多公司开始布局，很多人开始摩拳擦掌，众多创业者开始瞄准一个方向努力。本文按照优先级分小程序 App、小程序快速生成平台、小程序开发者服务、小程序媒体&沙龙、定制化、教育、投资几个方向进行解析。一、小程序 App我把小程序 App 开发放在第一位，因为微信官方一开始放出了 200 个内

2016-11-08 15:07:58 773

转载 <转>Spark 在反作弊聚类场景的实践

作者：周奥特链接：https://zhuanlan.zhihu.com/p/23385044来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。目前知乎站内的 spammer 为了快速取得收效，往往倾向于大批量地产生相似的 spam 内容，或者密集地产生特定的行为。针对这种大量，相似，和相对聚集的特点，我们最近开始尝试使用聚类的方式去发现和挖掘 spa

2016-11-08 10:04:56 840

转载 <转>Hadoop Journal Node 作用

NameNode之间共享数据（NFS 、Quorum Journal Node（用得多））两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变

2016-11-04 15:39:48 361

转载 <转>YARN源码分析(四)-----Journalnode

前言最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而

2016-11-04 14:41:25 635

转载 <转>Hadoop2的HA安装(high availability)：JournalNode+ zookeeper

前面介绍过使用NFS+zookeeper来解决namenode单点失败问题，因为NFS可能也会存在单点问题，所以hadoop提供了一种叫做JournalNode技术，这项技术可以在JournalNode节点间共享数据我们来介绍这一种技术：JournalNode+ zookeeperHadoop 版本:2.2.0OS 版本: Centos6.4Jdk 版本: jdk1

2016-11-04 14:22:14 307

yongjian_luo的专栏