转载请注明出处:http://blog.csdn.net/zbf8441372
5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011
主要提出了对hadoop的node上进行colorate data的改进。(不知道中文怎么翻译= =)与plain hadoop相比,提升了相应data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在于locator和locator table的提出和使用。将HDFS改装成应用层可以自己控制数据要存放的node集,使相关数据的各分拷贝可以存在同几个node下。node和locator是多对一的映射关系,locator table记录分发信息。每次有新数据和locator对进来,先查询table中国是否存在,若是新对,则先按HDFS默认的方式存(默认三分拷贝,存两个机架上,一个是本机架,一个是其他机架),若不是新对,则再去找那个node集中的适合的node存。
4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010
一篇中国人写的基于HDFS的多位索引的论文。主要是把R-tree建出来的index存在HDFS里。根据HDFS的特性和不足,增加一些改进,比如给node添加in-memory buffer或cache。
3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009
HadoopDB是一个混合系统。基本思想是用MapReduce作为与正在运行着单节点DBMS实例的多样化节点的通信层。查询语言用SQL表示,并用现有工具翻译成MapReduce可以接受的语言,使得尽可能多的任务可以被推送到每个高性能的单节点数据库上。主要思想share-nothing MPP架构和parallel databases。
2. Windows Azure Storage: A Highly Available Cloud Storage Service with Strong Consistency, SOSP,2011
微软Azure云平台的存储机制详细介绍,很不错。等仔细读了再编辑上来。
1. Apache Hadoop Goes Realtime at Facebook, SIGMOD, 2011
介绍了facebook引入Hadoop和HBase技术,怎样改装hadoop变得相对实时。hadoop毕竟还是面向批量数据处理的,Yahoo的Storm是一个实时的项目。论文中还是很好阐述了facebook对数据处理的需求,对比了MySQL集群,HDFS,HBase各种的读写特性。给HDFS的NameNode进行了Avator化,主要还是这个Avator之后的NameNode和DataNode的思路,算是他们自己的一种改进。当然,zookeeper还是无处不在。