分布式计算
zcc_0015
业精于勤,荒于嬉
展开
-
Spark Srreaming与Storm的区别
Storm风暴和Spark Streaming都是分布式流处理的开源框架。区别如下:1、处理延时和吞吐量 Storm处理的是每次传入的一个事件,Spark Streaming是处理某个时间段窗口内的事件流,Storm处理一个事件可以达到秒内的延迟,而Spark Streaming则有几秒钟的延迟。因此,Spark Streaming比Storm的延时更长,但是吞吐量比Storm大。原创 2015-06-08 22:26:15 · 3249 阅读 · 0 评论 -
用python + hadoop streaming 编写分布式程序的本地调试方法
使用python编写Hadoop Streaming程序有几点需要注意:在能使用iterator的情况下,尽量使用iterator,避免将stdin的输入大量储存在内存里,否则会严重降低性能streaming不会帮你分割key和value传进来,传进来的只是一个个字符串而已,需要你自己在代码里手动调用split()从stdin得到的每一行数据末尾似乎会有\n,保险起见一般都需要使用rstr转载 2015-09-29 17:46:41 · 2138 阅读 · 0 评论 -
常用Message Queue对比
(1)RabbitMQRabbitMQ是使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均衡或者数据持久化都有很好的支持。(2)RedisRedis是一个基于Key-Value对的NoS原创 2016-01-21 14:22:50 · 1878 阅读 · 0 评论 -
Light-lda部署安装过程
一、下载light-lda源码1、wget https://github.com/Microsoft/lightlda2、unzip lightlda-master.zip ,cd lightlda-master3、修改 build.sh中,将git clone -b multiverso-initial git@github.com:Microsoft/multivers原创 2016-05-26 14:21:26 · 6431 阅读 · 4 评论