大数据
文章平均质量分 81
xuguokun1986
这个作者很懒,什么都没留下…
展开
-
Kafka概述
原创 2015-07-25 11:55:31 · 456 阅读 · 0 评论 -
KafkaFlume-联合配置数---据源是Syslog
在flume中关于数据源Syslog的配置为以下几种:Syslog Tcp Source、Multiport Syslog Tcp Source、Syslog Udp Source,ta们的配置基本一致,下面以Syslog Tcp为例来进行说明。其他几种的配置可以参考官网:http://flume.apache.org/FlumeUserGuide.html#syslog-sources原创 2015-07-27 20:19:33 · 1781 阅读 · 0 评论 -
Hadoop初探之MapReduce+HBase实例
一、环境配置 这里选择的环境是hadoop-0.20.2和hbase-0.90.4,Hadoop环境配置参看这里,HBase环境配置请看这里。 需要注意的是,本文的需求是在Hadoop上跑MapReduce job来分析日志并将结果持久化到HBase,所以,在编译程序时,Hadoop需要用到HBase和Zookeeper包,因此,需要分别将hbase-0.90.转载 2015-07-28 08:55:28 · 766 阅读 · 0 评论 -
Spark之WordCount
配置好了Spark的集群环境,尝试弄个WordCount的例子,下面是具体的例子代码(javaAPI实现)package com.test;import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.ap原创 2015-08-19 08:48:27 · 391 阅读 · 0 评论 -
zookeeper集群环境的搭建
我安装zookeeper的集群是用到了五个节点:分别是slave1,slav2,slave3。也就是说要在这五个节点上部署zookeeper。这里需要注意一点:zookeeper集群的节点数必须是奇数,并且至少为3个。这里涉及到zookeeper的选举算法。1、首先肯定是从官网下载相应的tar包,并解压 网址:http://zookeeper.apache.org/release转载 2015-08-24 09:06:42 · 1212 阅读 · 0 评论 -
Hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase以表的形转载 2015-07-29 17:46:11 · 428 阅读 · 0 评论 -
浅谈MongoDB
原创 2015-08-11 19:33:13 · 591 阅读 · 0 评论 -
Hadoop+Flume+Kafka+Zookeeper集群环境搭建(一)
Hadoop+Flume+Kafka+Zookeeper集群环境搭建1.部署基础条件1.1 硬件条件IPhostname192.168.100.103mater192.168.100.104flumekafka1192.168.100.105flumekafka2原创 2015-07-29 14:09:57 · 5347 阅读 · 0 评论 -
Elasticsearch集群环境的搭建步骤
一、环境介绍与安装准备 1、环境说明 2台虚拟机,OS为ubuntu13.04,ip分别为xxx.xxx.xxx.140和xxx.xxx.xxx.145。 2、安装准备 ElasticSearch(简称ES)由java语言实现,运行环境依赖java。ES 1.x版本,官方推荐至少使用jdk1.6的环境,建议使用orac转载 2015-08-11 19:57:17 · 647 阅读 · 0 评论 -
Elasticsearch基本概念与Demo说明
Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共同持转载 2015-07-30 15:25:39 · 443 阅读 · 0 评论 -
Elasticsearch、MongoDB和Hadoop比较
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文档,MongoDB存着JSON文档,或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配置完成很多同养的事情转载 2015-07-30 20:01:15 · 486 阅读 · 0 评论 -
MongoDB与Elasticsearch达到数据同步的一点尝试
1.首先要搭建MongoDB的集群环境(可以参考的个人博客:http://blog.csdn.net/xuguokun1986) 2.比较关键的一点是安装MongoDB和Elasticsear向关联的一个插件,插件的安装方法是(操作目录是集群环境 的master节点的/home/bms/mongodb-3.0.5/bin目录): ./plugin -原创 2015-08-01 14:29:43 · 1344 阅读 · 0 评论 -
MongoDB值Replcia Set集群环境部署
说明:该集群环境的硬件环境与本人博客的“Hadoop+Flume+Kafka+Zookeeper集群环境搭建”的环境是一致的。 1.服务器环境 主节点:192.168.100.103 备节点:192.168.100.104 备节点:192.168.100.105 仲原创 2015-07-31 16:58:44 · 1172 阅读 · 0 评论 -
Elasticsearch与MongoDB 数据同步及分布式集群搭建 (一)
Elasticsearch通过River可以与多种数据源Wikipedia, MongoDB, CouchDB, RabbitMQ, RSS, Sofa, JDBC, FileSystem,Dropbox等同步,公司的业务是用 MongoDB,今天测试环境虚拟机上配置了一下Elasticsearch 与 MongoDB的同步,作个大概的过程记录,主要利用richardwilly98 / ela转载 2015-08-14 17:39:36 · 535 阅读 · 0 评论 -
Java代码查存es的简单代码
public static void main(String[] args) { Client client = new TransportClient() .addTransportAddress(new InetSocketTransportAddress("192.168.100.103", 9300)); IndexResponse response = nul原创 2015-08-14 10:06:06 · 2379 阅读 · 0 评论 -
MongoDB与Elasticsearch的进一步研究(一)
今天遇见的的一个问题是:通过elasticsearch建立了索引(myindex),当mongodb对应的集合中增加数据的时候,能在elasticsearch中查询到。但是,当mongodb中删除数据的时候,elasticsearch确没有相应的变动,也就是说数据没有达到同步。 首先看下我开始创索引的命令: 1 2 3 4 5 6 7原创 2015-08-04 17:34:04 · 476 阅读 · 0 评论 -
Kafka与ZooKeeper的配置
1. 环境是Linux操作系统,现有三台虚拟机(IP分别是192.168.100.104、192.168.100.105、192.168.100.106) 2. 首先要做的事情是将上述三个虚拟机的的hostname分别进行修改为:flumekafka1、flumekafka2、flumekafka3 3. 下面进行相关的配置: (1)虚拟机(192.16原创 2015-07-23 13:35:20 · 1364 阅读 · 0 评论 -
Flume(NG)架构设计要点及配置实践
Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。架构设计要点转载 2015-07-24 08:43:58 · 720 阅读 · 0 评论 -
flume的几个经典配置案例
一、source是spooldir、channel是memory,sink是hbase a1.sources = r1 a1.sinks = hbaseSink a1.channels = memChannel ##########the type of channel ismemory原创 2015-07-23 17:01:37 · 703 阅读 · 0 评论 -
消息系统Kafka介绍
1、 概述Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数据。活跃的流式数据在web网站应用中非常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。传统的日志分析系统提供了一种离线处理日志信息的可扩展方案,但若要进行实时处理,通常会有较大延迟。转载 2015-07-25 08:42:04 · 463 阅读 · 0 评论 -
Mongodb与Elasticsearch配合使用进一步研究(二)
有一个问题:Mongodb与Elasticsearch通过River连接起来之后,想通过Elasticsearch查询存储在Mongodb上面的一段时间内的数据。 解决方案一:开始想在Mongodb中存入时间类型(Date),然后通过Elasticsearch进行检索一段时间内的信息,但是问题出现了,存入Mongdb内的数据总是和当前时间总是差8个小时。后来发现 jvm里面的时区和M原创 2015-08-05 10:50:05 · 2317 阅读 · 0 评论 -
Kafka 对比 ActiveMQ
Kafka 是LinkedIn 开发的一个高性能、分布式的消息系统,广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。虽然不是作为传统的MQ来设计,在大部分情况,Kafaka 也可以代替原先ActiveMQ 等传统的消息系统。Kafka 将消息流按Topic 组织,保存消息的服务器称为Broker,消费者可以订阅一个或者多个Topic。为了均衡负载,一个Topic 的消息又可以划分转载 2015-07-24 17:06:12 · 606 阅读 · 0 评论 -
Kafka VS ActiveMQ
Kafka 是LinkedIn 开发的一个高性能、分布式的消息系统,广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。虽然不是作为传统的MQ来设计,在大部分情况,Kafaka 也可以代替原先ActiveMQ 等传统的消息系统。Kafka 将消息流按Topic 组织,保存消息的服务器称为Broker,消费者可以订阅一个或者多个Topic。为了均衡负载,一个Topic 的消息又可以划分转载 2015-07-24 17:11:17 · 513 阅读 · 0 评论 -
MongoDB集群——分片
1、分片的结构及原理分片集群结构分布: 分片集群主要由三种组件组成:mongos,config server,shard1)MONGOS数据库集群请求的入口,所有的请求都通过mongos进行协调,不需要在应用程序添加一个路由选择器,mongos自己就是一个请求分发中心,它负责把对应的数据请求请求转发到对应的shard服务器上。在生产环境通常有多个mong转载 2015-08-06 08:50:14 · 462 阅读 · 0 评论 -
Spark集群环境的搭建
一、Scala环境的配置1)登录scala的官网下载scala-2.10.5.tgz2)将scala-2.10.5.tgz拷贝到master的/home/bms目录下3)在/home/bms目录下解压scala-2.10.5.tgz。命令是:tar -zxvf scala-2.10.5.tgz4)编辑master的/etc/profile文件,在其中添加如下两行配置expo原创 2015-08-18 16:47:50 · 479 阅读 · 0 评论 -
Mongodb与Spring配合使用的例子
Spring已经把Monggodb包装得这么爽。原创 2015-08-07 12:48:24 · 1137 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理的新贵
摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分转载 2015-08-20 08:37:28 · 534 阅读 · 0 评论 -
Spark Streaming小结
Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算转载 2015-08-20 08:40:50 · 421 阅读 · 0 评论 -
将hadoop安装文件放置到了非hadoop用户授权的目录下的系列坑之一
环境描述:搭建了一个4台机器的hadoop集群环境,分别创建了用户hadoop1。1)首先解决了的问问题是实现master与其余三个slave的ssh无密码通信问题。2)安装hadoop的环境遇见下列问题:首先:在master上用scp命令向其余的slave拷贝hadoop-2.6.0目录时候,还让输入slave的密码,咋回事呢?原因:我是将hadoop-2.6.0放在了/home原创 2015-08-21 17:35:48 · 1815 阅读 · 0 评论 -
利用Eclipse构建Spark集成开发环境
Spark:利用Eclipse构建Spark集成开发环境2014-01-07 10:36 佚名 dongxicheng.org 我要评论(0) 字号:T | T前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利转载 2015-09-12 10:00:05 · 611 阅读 · 0 评论 -
Kafka->SparkStreaming
目的:将kafka输出的数据直接发给SparkStreeaming代码实现:package com.test;import java.util.Map;import java.util.HashMap;import java.util.regex.Pattern;import scala.Tuple2;import com.google.common.collect.Lis原创 2015-09-06 20:22:56 · 2315 阅读 · 0 评论 -
Mongodb之JavaApi调用例子
package cn.ac.iie;import java.net.UnknownHostException;import java.text.DateFormat;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Itera原创 2015-09-28 19:10:25 · 564 阅读 · 0 评论 -
Mongodb的相关文档整理(一)
1. 目前的集群环境Master:192.168.100.103Slave:192.168.100.104Slave:192.168.100.105Arbiter:192.168.100.1062. 集群启动方法2.1 Master:192.168.100.103在/home/bms/mongodb-3.0.5目录下执行以下命令./mon原创 2015-09-29 17:16:43 · 352 阅读 · 0 评论 -
Mondb连接池的使用案例
1.Mongo的实例其实就是一个数据库连接池,这个连接池里默认有10个链接。我们没有必要重新实现这个链接池,但是我们可以更改这个连接池的配置。因为Mongo的实例就是一个连接池,所以,项目中最好只存在一个Mongo的实例。常见的配置参数:connectionsPerHost:每个主机的连接数threadsAllowedToBlockForConnectionMultipli原创 2015-09-29 15:05:20 · 742 阅读 · 0 评论 -
如何将操做日志中的字符串类型的时间转化成logstash中的@timestamp
目标:将操做日志中的字符串类型的时间格式转化成@timestamp环境:与上几次博客的环境一致方法:首先由于日志的格式有很多种,Logstash自带的正则表达式可能不满足我们的需求,但是我们可以通过 grok插件引入自己定义的正则表达式。具体步骤:在Logstash的安装目录下/home/hadoop1/bms/logstash-1.5.4/conf下创原创 2015-11-03 19:17:07 · 7430 阅读 · 0 评论 -
补充上一篇博客
在上一篇博客中,我是将我的字符中的时间类型赋值给了@timestamp,但是有些时候是需要保留该字段的额真实值的,所以完全可以进行下面的配置将自己转化过来的时间存储到指定的field中,配置如下:input{ file{ path => "/home/hadoop1/bms/mylog/http.log" start_position => "beginning"原创 2015-11-03 19:38:56 · 547 阅读 · 0 评论 -
SBT安装
1、下载sbt通用平台压缩包:sbt-0.13.5.tgz2、建立目录,解压文件到所建立目录12$ sudo mkdir /home/scala/sbt$ sudo tar zxvf sbt-0.13.5.tgz -C /opt/scala/ 3、建立启动sbt的脚本文件/*选定一个原创 2015-10-19 18:17:39 · 692 阅读 · 0 评论 -
sbt打包WordCount的过程
1.在安装有spark的客户端上安装sbt(请参考上一篇博客)2.在一台slave终端机的/home/hadoop1/xuguokun/下创建WordCount文件夹。3.创建build.sbt文件,该文件的里面的内容如下:name := "o2o-spark"version := "0.1"scalaVersion := "2.10.4"libraryDependencies原创 2015-10-20 11:03:14 · 1207 阅读 · 0 评论 -
MongoDB集群搭建及Sharding的实现思路
MongoDB集群搭建MongoDB的复制集群类型:·主从模式(master/slave)·副本集模式(replica set)副本及模式至少3个节点(一主二从),从节点负责复制主节点的oplog到本地并且应用到本地从而实现冗余。(·arbiter:仅参与选举,但不持有任何数据·0优先级:可以触发选举,但是不能被选举成为主节点·可以使用rep转载 2015-10-08 18:23:31 · 574 阅读 · 0 评论 -
ES的操作的整理1
package com.test.es;import java.io.IOException;import java.util.concurrent.ExecutionException;import org.codehaus.jackson.map.ObjectMapper;import org.elasticsearch.ElasticsearchException;import原创 2015-10-23 10:52:24 · 690 阅读 · 0 评论