分布式文件存储
wuwangyingzhong
这个作者很懒,什么都没留下…
展开
-
HDFS
<br />引言 <br /> 最近在研究Hadoop的HDFS分布式文件系统,在网上找了一些资料,稍微整理了下,并对HDFS分布式存储进行了简单的存储测试,跟FTP服务器存储进行了对比,测试数据在文档后面。现在先来了解下什么是Hadoop吧! <br /><br />什么是Hadoop? <br /> Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统转载 2010-09-29 11:10:00 · 4214 阅读 · 1 评论 -
BigTable的功能集(转)
本文是HBase的欧洲传道者LARS GEORAGE的HBase vs. BigTable Comparison(需要翻墙)一文的节选翻译版。 论文中提到的特性<br />首先,向大家介绍在2006年OSDI大会上发表BigTable论文,也就是《Bigtable: A Distributed Storage System for Structured Data》里面所提到的一些特性:<br />特性<br />BigTable<br />HBase<br />注释原子的读写和修改支持,基于Row的支持,基转载 2010-10-16 11:15:00 · 423 阅读 · 0 评论 -
Ubuntu安装Ceph
<br /><br />We regularly build debian packages for both the stable and unstable versions. To apt-get install ceph, you need to update /etc/apt/sources.list to include one of the blocks below. <br />Packages should be PGP signed by my public key, availa转载 2010-12-07 10:31:00 · 6163 阅读 · 0 评论 -
在centOS上安装Ceph
<br />Introduction<br />I created this document based on my experience setting up a small test cluster for the Ceph distributed file system. I used VMWare Server for this setup as I found it to be quick and easy to get going with this and I do not转载 2010-12-07 10:27:00 · 6911 阅读 · 0 评论 -
BigTable的存储模型(转)
<br />经过这几天的开发工作,我已经将YunTable所需的一些基本类库搭建起来,比如内存管理,字符串处理,I/O处理和基本的数据结构等,由于之前的编程以Java为主,所以在这方面花了一定的时间,导致整个项目的进度偏离了之前的预期,但是我也有很多的收获,比如我感受到了Java和C之间的异同:异就是Java能通过JVM和JDK提供给程序员一个非常便捷和安全的开发环境,就好象一个温室那样,而C语言呢?则是提供一个简单到以至于简陋的工具给程序员,但是却导致其具有非常强大的灵活性,在这方面,有点类似围棋。而同呢转载 2010-10-16 10:41:00 · 381 阅读 · 0 评论 -
eMule中的分布式哈希表技术: Kademlia(转)
Kademlia简述 Kademlia(简称Kad)属于一种典型的结构化P2P覆盖网络(Structured P2P OverlayNetwork),以分布式的应用层全网方式来进行信息的存储和检索是其尝试解决的主要问题。在Kademlia网络中,所有信息均以的哈希表条目形式加以存储,这些条目被分散地存储在各个节点上,从而以全网方式构成一张巨大的分布式哈希表。我们可以形象地把这张哈希大表看成是一本字典:只要知道了信息索引的key,我们便可以通过Kademlia协议来查询其所对应的value信息,而不管这原创 2010-10-19 11:18:00 · 323 阅读 · 0 评论 -
libmemchched 手册
<br /><br />【libmemcached 的c/c++ 使用】<br />官方手册:http://docs.tangent.org/libmemcached/memcached.html<br />http://docs.tangent.org/libmemcached/memcached_mget.html<br />fetch: http://docs.tangent.org/libmemcached/memcached_fetch.html<br />这个加多个服务器的接口比较重要:ht转载 2010-12-16 16:00:00 · 3757 阅读 · 0 评论 -
sharding基本介绍
<br /><br />注:此文首发于 《程序员》杂志 2008 年 7 月刊。从 Shard 到 Sharding <br />"Shard" 这个词英文的意思是"碎片",而作为数据库相关的技术用语,似乎最早见于大型多人在线角色扮演游戏(MMORPG)中。"Sharding" 姑且称之为"分片"。<br />Sharding 不是一门新技术,而是一个相对简朴的软件理念。如您所知,MySQL 5 之后才有了数据表分区功能,那么在此之前,很多 MySQL 的潜在用户都对 MySQL 的扩展性有所顾虑,而是否具转载 2010-10-25 19:46:00 · 379 阅读 · 0 评论 -
sharding的lookup
<br />数据库sharding Lookup技术探讨<br />数据库sharding技术最近几年越来越火热。 Sharding是shared-nothing的缩写,也可称其为horizontal partitioning/horizontal split,即数据库切片。将一个大的数据库切成几个功能一样,逻辑关系和物理上毫不相干的数据库。<br /><br />数据库sharding有几个主要的优点:<br />1. Database sharding提供了近似线性扩展的架构。可以随着应用的增长线性的增转载 2010-10-25 20:14:00 · 373 阅读 · 0 评论 -
oracle数据库安装
<br />安装步骤:第一步:修改X server 的默认设置,点菜单的System -> Administration -> Login Window(系统->管理->登录窗口),选择“Security(安全)”选项卡,取消“Deny TCP connections to the Xserver(拒绝TCP连接到X服务器)”的勾,重启Xserver(或者重启系统)。然后在终端输入: xhost +127.0.0.1第二步:安装必要的个工具:终端输入:sudo apt-get install bui原创 2011-01-24 10:12:00 · 3543 阅读 · 0 评论 -
流行的分布式文件系统
<br /><br />因为最近正在“研究”分布式文件系统,所以搜集了这方面的许多资料,不知是哪位比较有名气的人说过:当今社会,对于程序员或者搞IT的人来说,一定要看看分布式方面的东西(不是原话,但是大概就这个意思)。看了一段时间了,感触颇深,感觉它一定是未来发展的趋势。下面这篇就是我搜到的一篇博客,总体上介绍了一些比较流行的分布式文件系统。<br />特此标明出处:http://hi.baidu.com/jrckkyy/blog/item/5476b87b31a785fb0bd187c7.html<br原创 2011-02-14 14:46:00 · 4745 阅读 · 0 评论 -
BigTable的分布式模型(转)
在介绍了BigTable的存储模型之后,本篇将重点给大家介绍其分布式模型。由于本文大多数内容参考BigTable的论文,如果有些博友已经熟读这篇论文,可以跳过本文。综述从分布式的角度而言,BigTable会涉及总共五种独立的构件:1.Client端的库:一个基于BigTable的应用会根据其所使用语言的不同,而选择不同的Client端库来访问一个BigTable系统。 2.Chubby服务:一个高可用、分布式的锁服务,用于协调整个BigTable的运作。 3.Master节点:分转载 2010-10-16 11:14:00 · 419 阅读 · 0 评论 -
BigTable的数据模型(转)
<br />本文将深入分析BigTable的数据模型,并介绍它是如何被调用的。数据模型<br />就像向我之前所说的那样,其实BigTable顾名思义,是一个非常大的表,而且是一个能存储几十亿行(Row)和几千列(Column)的非常巨大的表。什么表会怎么大呢?接下来,举一些简单的例子,比如:用于中国所有公民的个人信息和Internet上所有网站内容的表,这些表的总体规模可以达到PB以上级别,而且这些表的规模都会与日增长,所以很显然需要使用分布式的方法,而不是使用一台机器来承载这个巨大且不断增长的Table转载 2010-10-16 10:33:00 · 690 阅读 · 0 评论 -
The Google File System中文版
<br />我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。 虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。 GFS转载 2010-09-29 11:23:00 · 951 阅读 · 0 评论 -
Choosing a non-relational database; why we migrated from MySQL to MongoDB (转载)
<br /><br />Update 28 Feb 2010: A followup was published here.<br />Until recently, our server monitoring application, Server Density, was running using MySQL for the backend. Although we primarily provide it as a hosted service, it has been written原创 2010-10-08 15:45:00 · 483 阅读 · 0 评论 -
一致性 hash 算法( consistent hashing )
<br /><br />张亮<br />consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用越来越广泛;1 基本场景<br />比如你有 N 个 cache 服务器(后面简称 cache ),那么如何将一个对象 object 映射到 N 个 cache 上呢,你很可能会采用类似下面的通用方法计算 object 的 hash 值,然后均匀的映射到到 N 个 cache ;<br /转载 2010-10-09 15:18:00 · 258 阅读 · 0 评论 -
Dynamo 简介(转)
<br /><br />(转载自http://rdc.taobao.com/blog/cs/?p=52 淘宝核心系统团队博客)<br /> <br />这个小文打算写成入门级的介绍,所以很多语言不追求准确性。本介绍参考 Amazon 的 Dynamo 论文。需要更详细更准确信息的同学请直接阅读原文。(原文地址http://s3.amazonaws.com/AllThingsDistributed/sosp/amazon-dynamo-sosp2007.pdf) 这篇论文本身没提出什么新的思想,正如论转载 2010-10-09 15:34:00 · 666 阅读 · 0 评论 -
主题:memcached分布测试报告(一致性哈希情况下的散列函数选择)
<br /><br />一、背景资料<br /> memcached本身是集中式的缓存系统,要搞多节点分布,只能通过客户端实现。memcached的分布算法一般有两种选择:<br />1、根据hash(key)的结果,模连接数的余数决定存储到哪个节点,也就是hash(key)% sessions.size(),这个算法简单快速,表现良好。然而这个算法有个缺点,就是在memcached节点增加或者删除的时候,原有的缓存数据将大规模失效,命中率大受影响,如果节点数多,缓存数据多,重建缓存的代价太高转载 2010-10-13 16:15:00 · 447 阅读 · 0 评论 -
Keyspace:高可靠的 Key-Value 存储系统
<br /><br />Keyspace 是一家叫做 Scalien 的创业公司开发的高可靠 key-value 存储系统。比起 Redis、Tokyo Tyrant 等系统来说,Keyspace 还非常新,才上线几个月。有一篇 white paper 详细介绍了 Keyspace 的设计和架构。Keyspace 强调的技术点是高可靠性,有以下一些特点:Key-value store:一个 key-value 数据存储系统,只支持一些基本操作,如:SET(key, value) 和 GET(key)转载 2010-10-11 22:04:00 · 385 阅读 · 0 评论 -
对等网络(P2P)中主流分布式哈希算法比较分析(转)
<br /><br />本文首先从P2P的定义出发,介绍了结构化P2P与非结构化P2P的区别以及结构化P2P的核心技术DHT。而后,本文深入介绍了几种主流的DHT算法与协议并对每种协议进行了讨论。文章的最后展望了DHT在未来的发展趋势。<br />对等网络(Peer-to-Peer,简称P2P)是目前非常热门的应用,自1999年以来,P2P的研究一直是国外知名学府(如美国麻省理工学院,加州大学伯克利分校和莱斯大学等)以及知名企业的研发机构(如微软,诺基亚的研究院)关注的重点。它甚至被美国《财富》杂志称为改变转载 2010-10-13 10:15:00 · 328 阅读 · 0 评论 -
C#实战:一致性Hash算法(KetamaHash)
<br /><br />最近在研究”一致性HASH算法”(Consistent Hashing),用于解决memcached集群中当服务器出现增减变动时对散列值的影响。后来 在JAVAEYE上的一篇文章中,找到了其中的 KetamaHash 算法的JAVA实现(一种基于虚拟结点的HASH算法),于是为了加深理解,对照 JAVA版本,用C#重写了一个。放到这里,如果大家感兴趣的话, 可以下载测试一下,如果发现写法有问题请及时告之我,以便我及时修正。<br /> 下面是对Ketama的介绍:Ketam转载 2010-10-13 16:12:00 · 366 阅读 · 0 评论 -
MapReduce: 一个巨大的倒退 (转)
前言databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章,引发剧烈的讨论。我抽空在这儿翻译一些,一起学习。 译者注:这种 Tanenbaum vs. Linus 式的讨论自然会导致非常热烈的争辩。但是老实说,从 Tanenbaum vs. Linus 的辩论历史发展来看,Linux是越来越多地学习并以不同方式应用了 Tanenbaum 等 OS 研究者的经验转载 2010-10-11 08:49:00 · 974 阅读 · 0 评论 -
Paxos 算法(转)
<br /><br />Paxos 是分布式计算里非常重要的一个算法,最初由 Leslie Lamport 在1990年发表,题为:The Part-time Parliament,这是一篇很有趣的论文,Lamport 在这篇论文里面把人物(分布式计算领域内的重要科学家)的英文名字用希腊文代替,并且整篇论文站在人类学家的立场、古文明、议会的角度来写导致人们很难理解这是一篇计算机学术论文,所以论文一直没能被发表,更糟的是,没人能真正理解其中的算法。就这样直到1998年,一个 ACM 的编辑从一堆旧转载 2010-10-11 21:05:00 · 445 阅读 · 0 评论 -
paxos的应用场景
关于paxos看了很多文章和blog,但是由于paxos貌似简单而实现的复杂性,因此一直没有对paxos有深入的认识。虽然paxos有很多的追捧,甚至有zookeeper和chubby这样的经典分布式锁结构都声称产自paxos,但事实上,他们并不是paxos的完全实现。下面转载了大牛Tim的blog,原文地址为:http://timyang.net/distributed/paxos-转载 2011-10-30 15:51:55 · 4303 阅读 · 0 评论