收藏
文章平均质量分 64
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
Pthread:POSIX 多线程程序设计
文章转载自:http://www.cnblogs.com/mywolrd/archive/2009/02/05/1930707.html#topic_not_coveredPthread:POSIX 多线程程序设计POSIX 多线程程序设计Blaise Barney, Lawrenc转载 2015-06-26 12:23:51 · 1018 阅读 · 0 评论 -
Apache Maven 入门篇(下)
第一篇文章大概的介绍了一下Apache Maven以及它的下载和安装,并且运行了一个简单的示例。那么在对maven有了一点接触后,接下去的一步是要了解maven的核心概念,这样才能在使用maven的时候游刃有余。接下来我们介绍下面这几个核心概念:POM (Project Object Model)Maven 插件Maven 生命周期Maven 依赖管理Maven 库POM (P转载 2016-02-23 13:51:42 · 375 阅读 · 0 评论 -
几分钟内学习 Clojure
Clojure是JVM上的一个LISP语言变种。它比Common Lisp更强调纯函数式编程,但提供了一些STM工具以处理它所引入的状态问题。这个组合使并行处理更加简单,并且通常是自动的。(你需要Clojure 1.2或以上版本。); 分号作为注释的开始 ; Clojure 用一种把元素用括号括起来的像列表一样的方式来书写,元素之间用空格隔开; clojure 解释器转载 2016-02-25 17:10:21 · 521 阅读 · 0 评论 -
[翻译]Spark编程指南(Python版)
译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。本文翻译自Spark Programming Guide,由于笔者比较喜欢Python,在日常中使用也比较多,所以只翻译了Python部分,不过Java和Scala大同小异。转载 2016-05-04 17:40:38 · 562 阅读 · 0 评论 -
redis快照文件dump.rdb解析工具--redis-rdb-tools
redis-rdb-tools 是一个开源的解析redis快照文件dump.rdb的工具,解析出dump.rdb文件后可以用来做数据分析,redis数据恢复或者写入到其他key-value缓存系统中。1.下载&安装git clone https://github.com/sripathikrishnan/redis-rdb-toolscd redis-rdb-toolssu原创 2016-01-21 18:00:13 · 10044 阅读 · 0 评论 -
数据仓库中的Inmon与Kimball架构之争
对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。 首先,我们谈Inmon的企业信息化工厂。 2000年5月,W.H.Inm转载 2017-02-16 12:14:27 · 1433 阅读 · 0 评论 -
hive静态分区和动态分区
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition转载 2017-02-08 16:49:16 · 1780 阅读 · 0 评论 -
Kafka 高性能吞吐揭秘
A high-throughput distributed messaging system.--Apache KafkaKafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。本文将针对Kafka性能方面进行简单转载 2017-02-09 11:22:44 · 2262 阅读 · 0 评论 -
分布式事务 - 两阶段提交与三阶段提交
摘要: 在分布式系统中,著有CAP理论,该理论由加州大学伯克利分校的Eric Brewer教授提出,该理论阐述了在一个分布式系统中不可能同时满足一致性(Consistency)、可用性(Availability),以及分区容错性(Partition tolerance)。 在分布式系统中,著有CAP理论,该理论由加州大学伯克利分校的Eric Brewer教授提出,该理论阐述了在一个分转载 2017-01-22 10:35:40 · 564 阅读 · 0 评论 -
数据仓库的源数据类型
数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持,当然也包括了我在网站分析的数据来源一文中所提到的所有数据。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它们分转载 2017-02-13 10:44:56 · 1022 阅读 · 0 评论 -
数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的转载 2017-02-13 10:52:46 · 539 阅读 · 0 评论 -
数据仓库的多维数据模型
可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用 多维数据模型是为了满足用户从多角度多层次进行数据转载 2017-02-13 11:07:03 · 765 阅读 · 0 评论 -
Apache Maven 入门篇 ( 上 )
写这个 maven 的入门篇是因为之前在一个开发者会的动手实验中发现挺多人对于 maven 不是那么了解,所以就有了这个想法。这个入门篇分上下两篇。本文着重动手,用 maven 来构建运行 hellow world 程序,体会一下不用任何 IDE ,只用 maven 是咋回事。然后下篇就讲解一下 maven 的核心概念。写这两篇文章特意回避了复杂的示例,也不使用 IDE ,目的是排除干扰,着重转载 2016-02-23 13:49:16 · 496 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flu转载 2016-02-17 10:59:11 · 350 阅读 · 0 评论 -
redis持久化机制
Redis 持久化Redis 提供了不同级别的持久化方式:RDB持久化方式能够在指定的时间间隔能对你的数据进行快照存储.AOF持久化方式记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始的数据,AOF命令以redis协议追加保存每次写的操作到文件末尾.Redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大.如果你只希望你的数据在服务转载 2016-01-21 10:40:22 · 1227 阅读 · 0 评论 -
Redis数据备份与恢复
Redis数据备份与恢复持久化RDB方式(默认)RDB方式的持久化是通过快照(snapshotting)完成的,当符合一定条件时Redis会自动将内存中的所有数据进行快照并存储在硬盘上。进行快照的条件可以由用户在配置文件中自定义,由两个参数构成:时间和改动的键的个数。当在指定的时间内被更改的键的个数大于指定的数值时就会进行快照。RDB是Redis默认采用的持转载 2016-01-21 17:52:53 · 835 阅读 · 0 评论 -
Thrift官方安装手册(译)
本篇是Thrift官网安装文档的翻译,原地址点击这里。Thrift之前是不支持Windows的。但是似乎0.9版本以后已经支持Window了。介绍了Thrift安装的环境要求以及在centos,Debian/Ubuntu,OS X和Windows下的安装过程。并提出了一些安装过程中可能遇到的问题和解决办法。适用于thrift0.9版本。1 Thrift的环境要求Apache转载 2016-01-25 16:04:29 · 606 阅读 · 0 评论 -
hbase的thrift接口
一、概述Hbase是目前比较火的列存储数据库,由于Hbase是用Java写的,因此它原生地提供了Java接口,对非Java程序人员,怎么办呢?幸好它提供了thrift接口服务器,因此也可以采用其他语言来编写Hbase的客户端,本文即是Hbase C++接口的介绍。目前的Hbase(0.94.11,本文即基于此版本)有两套thrift接口(可以叫thrift1和thrift2),它们并不兼容转载 2016-01-25 16:10:57 · 1784 阅读 · 0 评论 -
经典hash算法比较和C语言实现
常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法。这些函数使用位运算使得每一个字符都对最后的函数值产生影响。另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎不可能找到碰撞。常用字符串哈希函数有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对转载 2016-01-27 14:40:40 · 8840 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的转载 2016-01-27 19:05:46 · 367 阅读 · 0 评论 -
Hbase shell
一. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 HBase以表转载 2016-01-27 14:55:13 · 550 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke转载 2016-01-27 14:44:39 · 1191 阅读 · 0 评论 -
kafka入门教程
问题导读1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是转载 2015-12-24 17:46:12 · 1443 阅读 · 0 评论 -
开源中国 Maven 库使用帮助
介绍亲爱的小伙伴们,开源中国的 Maven 库上线咯!为了方便广大开发同学,开源中国特别推出国内的 Maven 中央库,提供高速稳定的网络和服务,为国内 Maven 使用者提供便捷服务。本 Maven 库是从 ibiblio 同步过来的,因为网络等原因,保持每天一次更新。本 Maven 库使用开源软件 Nexus 搭建,对外镜像链接地址为: http://maven.oschina.ne转载 2016-03-02 18:06:00 · 796 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数转载 2016-02-17 10:56:46 · 384 阅读 · 0 评论 -
数据仓库多维数据模型-星型模型 和 雪花模型
(星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(sum转载 2017-02-13 11:27:47 · 2421 阅读 · 0 评论