本文提出并实现了一种Hadoop与虚拟化技术相结合的模型.该模型将多核计算机虚拟成多节点集群,最大限度地利用计算资源.在实验测试的基础上,通过分析任务在Hadoop环境中的并行机制,弄清计算任务在节点中与核中的分配方式,以达到提高并行效率、降低硬件开销的目的,最后通过对典型应用问题进行计算,从而对本文所提出模型的正确性和有效性进行了验证。
近年来,大规模数据的重要性越来越被人们所重视,因为其普遍存在于现代科学技术发展的各个领域,并且伴随着数据量的迅猛增长,使得计算对象的规模越来越大.由于单个计算机的存储空间及运算能力有限而无法满足大规模数据处理的需求,因此基于多台服务器的并行计算就是一个可靠的选择.作为一项起支撑作用的技术,它可以满足实际工
作中涉及的大规模计算的需求.为了提高大规模数据处理的精度和减少运算时间,可以借助并行计算技术来寻求一种更快速、更容易、更廉价的方式用以获取可利用的数据以及存储数据的方法。通常认为,高性能计算机的内存结构可以分为共享存储的内存结构和分布式存储的内存结构两大类.现在以分布式存储为代表的层次并行体系结构的高性能计算机发展迅速.在过去的几年间,MPI和OpenMP的编程模型已经成为并行计算的主流选择.由于使用MPI编程的消息传递模型时,细粒度的并行会引发大的通信量,造成了动态负载
平衡相对困难.而且,Ope