优质论文list(分布式系统/存储/索引相关)

 转载请注明出处:http://blog.csdn.net/zbf8441372

5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011

主要提出了对hadoop的node上进行colorate data的改进。(不知道中文怎么翻译= =)与plain hadoop相比,提升了相应data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在于locator和locator table的提出和使用。将HDFS改装成应用层可以自己控制数据要存放的node集,使相关数据的各分拷贝可以存在同几个node下。node和locator是多对一的映射关系,locator table记录分发信息。每次有新数据和locator对进来,先查询table中国是否存在,若是新对,则先按HDFS默认的方式存(默认三分拷贝,存两个机架上,一个是本机架,一个是其他机架),若不是新对,则再去找那个node集中的适合的node存。


4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010

一篇中国人写的基于HDFS的多位索引的论文。主要是把R-tree建出来的index存在HDFS里。根据HDFS的特性和不足,增加一些改进,比如给node添加in-memory buffer或cache。


3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009

 HadoopDB是一个混合系统。基本思想是用MapReduce作为与正在运行着单节点DBMS实例的多样化节点的通信层。查询语言用SQL表示,并用现有工具翻译成MapReduce可以接受的语言,使得尽可能多的任务可以被推送到每个高性能的单节点数据库上。主要思想share-nothing MPP架构和parallel databases。


2. Windows Azure Storage: A Highly Available  Cloud Storage Service with Strong Consistency, SOSP,2011
微软Azure云平台的存储机制详细介绍,很不错。等仔细读了再编辑上来。


1. Apache Hadoop Goes Realtime at Facebook, SIGMOD, 2011

介绍了facebook引入Hadoop和HBase技术,怎样改装hadoop变得相对实时。hadoop毕竟还是面向批量数据处理的,Yahoo的Storm是一个实时的项目。论文中还是很好阐述了facebook对数据处理的需求,对比了MySQL集群,HDFS,HBase各种的读写特性。给HDFS的NameNode进行了Avator化,主要还是这个Avator之后的NameNode和DataNode的思路,算是他们自己的一种改进。当然,zookeeper还是无处不在。

memlink函数,nosql数据库,天涯论坛数据库,海量数据快速存取,内存数据库 天涯社区最近开发了一款数据引擎——Memlink,并将其开源。对于为什么会出现这样一款开源项目、它的能力和市面上的其他款同类型项目相比有怎样的优势 近些年,Nosql系统非常流行,也确实对sql系统进行了合理补充,为Web应用提供多种数据解决方案。但是在开源Nosql系统中,key-value系统可选择较多,而key-list/queue系统可选择较少,因此我们开发了memlink来满足我们自己的需要。 在这里,需要强调一些key-list的概念,在实际场景中有大量需要key-list的地方。比如:论坛中的主题列表、回复列表,微博中的用户关注列表、用户feed列表、用户关注feed列表等等。如果使用key-value中的value来存储list(比如:list打包成json放入value中),其操作性能是非常低效的。 理想的Key-list通常需要如下特点: 1.list是海量的、且操作性能高效 2.list是有序的、且可动态调整顺序 Memlink是一个高性能、持久化、分布式的Key=>List/Queue数据引擎。正如名称中的Mem所示,所有数据都建构在内存中,保证了系统的高性能,同时使用块链进行内存压缩,使用redo-log技术保证数据的持久化。此外,Memlink还支持主从复制、读写分离、数据项过滤操作等功能。 特点: •内存数据引擎,性能极为高效 •List中的Node采用块链组织,精简内存,优化查找效率 •Node数据项可自定义Mask表,支持多种过滤操作 •支持redo-log,数据持久化,非Cache模式 •分布式,主从同步 •读写分离,写优先处理。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值