分布式计算
文章平均质量分 73
yutianzuijin
目前从事语音识别相关的工作。
展开
-
伪分布式环境下命令行正确运行hadoop示例wordcount
首先确保hadoop已经正确安装、配置以及运行。1. 首先将wordcount源代码从hadoop目录中拷贝出来。[root@cluster2 logs]# cp /usr/local/hadoop-1.1.2/src/examples/org/apache/hadoop/examples/WordCount.java ~/ygch/hadoop/因为在编译过程中需要将jave原创 2013-07-24 23:30:06 · 12382 阅读 · 1 评论 -
mpi中利用自定义归约操作实现merge
在归并排序中,很重要的一步是将两个排序数组合并成一个数组,这个操作叫merge。merge操作可以用来解决某些Top K问题。问题描述在哼唱搜索中,用户通过哼唱一个音乐片段去搜索与其相似的音乐。后台的实现主要有两个步骤:特征提取和特征匹配。特征提取是从原始波形音乐文件中提取最能代表音乐的特征。特征匹配就是利用提取的特征与特征库进行匹配,找到最相似的音乐。在实际情况中,特征库往往很大,目前商原创 2013-07-18 12:27:20 · 5813 阅读 · 0 评论 -
storm入门教程 第四章 消息的可靠处理
转载自:量子恒道官方博客4.1 简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。4.2 理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式转载 2013-03-24 14:39:43 · 7684 阅读 · 1 评论 -
Storm使用到的相关技术总结
转载自:Storm使用到的相关技术总结Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zookeeper集群Zookeeper是一个针对大型分布式系统的可靠协调服务系统,其采用类似Unix文件系统树形层次结构的数据模型(如:/zoo/a,转载 2013-03-24 16:30:54 · 2083 阅读 · 0 评论 -
Hadoop集群运行JNI程序
要在Hadoop集群运行上运行JNI程序,首先要在单机上调试程序直到可以正确运行JNI程序,之后移植到Hadoop集群就是水到渠成的事情。Hadoop运行程序的方式是通过jar包,所以我们需要将所有的class文件打包成jar包。在打包的过程中,无需将动态链接库包含进去。在集群中运行程序之前,Hadoop会首先将jar包传递到所有的节点,然后启动运行。我们可以在这个阶段将动态链接库作为附件原创 2013-07-27 00:02:00 · 3955 阅读 · 0 评论 -
使用 Twitter Storm 处理实时的大数据
转载自:使用 Twitter Storm 处理实时的大数据简介: Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们转载 2013-03-24 15:22:07 · 2464 阅读 · 0 评论 -
如何“打败”CAP定理
转载自:如何“打败”CAP定理CAP定理是数据系统设计的基本理论,目前几乎所有的数据系统的设计都遵循了这个定理。但CAP定理给目前的数据系统带来了许多复杂的、不可控的问题,使得数据系统的设计越来越复杂。Twitter首席工程师、Storm的作者Nathan Marz在本文中通过避开CAP定理带来的诸多复杂问题,展示了一个不同于以往的数据系统设计方案,给我们的数据系统设计带来了全新的思路转载 2013-03-25 13:41:07 · 1768 阅读 · 0 评论 -
NoSQL 中的 CAP 原理
转载自:NoSQL 中的 CAP 原理我们知道 CAP 原来是任何存储无法规避的定律,任何存储设备都无法在一致性(C),可用性(A)和分区可容忍性(P)三者上都做得非常好。这就是所谓的CAP定律。这里推荐的这篇文章,从CAP原理讲起,然后将目前的各大 NoSQL 产品进行了分类,如下:按功能分类:Relational 关系性数据库,这里就不多说了,像我们常用的转载 2013-03-25 13:48:17 · 1720 阅读 · 0 评论 -
mpi和cuda混合编程的正确编译
针对大数据的计算,很多程序通过搭建mpi集群进行加速,并取得了很好的效果。算法内部的加速,当前的并行化趋势是利用GPU显卡进行算法加速。针对并行性非常好的算法,GPU加速效果将远大于集群带来的加速效果。所以,如果我们面临非常多的数据,针对数据的处理算法有具有很好的内部并行性,则我们可以将mpi和GPU结合,获得更大的加速比。 将mpi和GPU结合的产物就是GPU集群。它可以为我们带原创 2013-07-14 23:32:36 · 13107 阅读 · 0 评论 -
mpi中程序在集群中的分发
我们在开发mpi程序时,由于其是分布式程序,我们在单个节点上完成编码后,需要将代码拷贝到整个集群进行测试。集群之间的文件拷贝可以通过scp命令完成。但是scp命令是针对两个节点之间文件互传设计,为了将代码拷贝到所有的机器,我们需要多次调用scp命令。一个好的方法是将拷贝命令写成脚本,让其自动完成。 首次拷贝时,我们可以让scp拷贝整个工作目录到集群中,当项目较小时这种方法没有影响,原创 2013-07-17 21:03:56 · 4333 阅读 · 0 评论 -
Storm入门教程 第二章 构建Topology
转载自:量子恒道官方博客2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs转载 2013-03-24 14:26:12 · 16258 阅读 · 0 评论 -
Understanding the parallelism of a Storm topology
转载自:storm官方文档Storm distinguishes between the following three main entities that are used to actually run a topology in a Storm cluster:Worker processesExecutors (threads)TasksH转载 2013-03-24 14:54:42 · 1628 阅读 · 0 评论 -
Kafka设计理念浅
本文转载自:Kafka设计理念浅本文将从以下两个方面去尝试讲解Kafka的设计理念,主要参考文献在这里:Kafka设计背景及原因Kafka的设计特色Kafka设计背景及原因Kafka最初被LinkedIn设计来处理活动流数据(activity stream data)和系统处理数据(operaitonal data)。活动流数据是指像page vie转载 2013-03-30 15:56:00 · 3681 阅读 · 0 评论 -
mpi中的广播
MPI可以实现一对多的集合通信,最常用的是广播:某个进程将数据广播到所有其他进程,最终的结果就是每个进程都有一份广播的数据。MPICH中的广播函数是MPI_Bcast(void* buffer,intcount,MPI_Datatype datatype,int root, MPI_Comm comm)。该函数在使用过程中非常容易出错,在此我们通过具体实例来说明其使用方法。MPI_Bcas原创 2013-07-15 21:20:29 · 13385 阅读 · 1 评论 -
hadoop环境配置过程中可能遇到问题的解决方案
Failed to set setXIncludeAware(true) for parser遇到此问题一般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突。解决方案就是删除我们自己向系统添加的jar包,重新配置。将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改CLAS原创 2013-07-24 20:22:20 · 53790 阅读 · 0 评论 -
MPICH3环境配置
最新版的mpich简化了运行方式,不再提供mpd开头的命令,只需要一个mpiexec即可启动mpi运行环境,方便了mpi编程。源代码下载地址:http://www.mpich.org/downloads/。不过和之前的版本一样,在运行mpi程序时,首先要配置好系统环境。1. 安装mpich3从上述网址下载源代码后,解压,然后configure,最后make和make insta原创 2013-06-20 22:56:01 · 18775 阅读 · 3 评论