- 博客(31)
- 资源 (9)
- 收藏
- 关注
原创 Spark---Word Count
Point 1:Java版本package com.Spark.wordcount;//use spark-assembly-1.6.0-hadoop2.4.0.jarimport java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org
2017-06-30 18:28:35 455
原创 Spark的运行模式
Point 1:Spark on Standalone Standalone模式是Spark实现的资源调度框架,其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中,也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时,Driver在Master节点上运行;当使用spark-submit工具提交
2017-06-29 19:17:10 370
原创 Spark配置—Yarn模式
Step 1: 可以尝试先搭建HA模式,然后Yarn模式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73822832Step 2: 在node11节点上执行命令:vi ~/.bash_profilesource ~/.bash_profile添加如下属性:export HADOOP_INSTALL=
2017-06-28 19:10:58 1481
原创 Spark配置—HA模式
Step 1: 可以尝试先搭建伪分布式,然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73733916Step 2: 在node11节点上执行命令:vi /opt/apps/spark/spark-1.6.0-bin-hadoop2.6/conf/spark-env.sh添加如下属性:ex
2017-06-27 19:52:29 606
原创 Spark配置—Standlone模式
Step 1: 下载Spark版本:根据HDFS的版本进行下载,—–本文对应的是Spark 1.6.0 HDFS 2.6.0 http://spark.apache.org/downloads.html Step 2: 在node11节点执行命令:mkdir -p /opt/apps/sparkcd /opt/apps/sparkStep 3: 使用xftp将下载的spark包上传到上述
2017-06-26 11:44:45 1819
原创 Hive和HBase的整合原理
Point 1: 配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类。 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可
2017-06-24 13:28:12 8117
原创 Hive与HBase的整合
Step 1:把hive的Lib目录下hive-hbase-handler-1.2.1.jar cp到hbase/lib 下 同时把hbase中的所有的jar,cp到hive/lib执行命令:cp /opt/apps/hive/apache-hive-1.2.1-bin/lib/hive-hbase-handler-1.2.1.jar /opt/apps/HBase/hbase-1.1.3/li
2017-06-24 13:20:14 394
原创 Spark Transformation和Action
Point 1:什么是Transformation? transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDPoint 2:什么是action? action是得到一个值,或者一个结果(直接将RDD cache到内存中) 所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计
2017-06-23 18:57:59 272
原创 Spark原理(三)
Point 1:资源管理与作业调度 Spark对于资源管理与作业调度可以使用Standalone(独立模式),Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用,但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现,得益于Spark天生支持多种Scheduler和Executor的良好设计,对
2017-06-22 18:18:10 271
原创 Spark原理(二)
Point 1:Spark工作原理图 Point 2: Resilient Distributed Dataset(RDD)弹性分布数据集RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示以被分区,不可改变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序
2017-06-21 18:54:32 222
原创 Spark原理(一)
Point 1:什么是Spark? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要
2017-06-20 19:11:01 324
原创 Sqoop原理
Point 1:什么是Sqoop? Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Point 2:Sqoop的特征 Sqoop是一个用来将Had
2017-06-19 18:21:02 592
原创 MapReduce配置
Step 1: 搭建Hadoop集群和Zookeeper集群: http://blog.csdn.net/ymf827311945/article/details/71566137 http://blog.csdn.net/ymf827311945/article/details/71258273Step 2: 执行命令:vi /opt/apps/hadoop/hadoop-2.6.0/et
2017-06-17 11:25:22 640
原创 Sqoop配置
Step 1: Sqoop URL: http://apache.claz.org/sqoop/1.4.6/ 版本:1.4.6Step 2: 到上述地址下载Sqoop 1.4.6Step 3: 在一个节点上(node11)上执行命令:mkdir -p /opt/apps/SqoopStep 4: 使用xftp将下载的Sqoop tar包上传到上面的路径 Step 5: 执行命令:tar
2017-06-17 10:45:02 335
原创 HBase基本代码实现(二)
Step 1:public void deleteCell(String tableName, String rowkey,String cf,String column){ HTableInterface table = null; try { table = hTablePool.getTable(tableName) ;
2017-06-16 18:51:11 285
原创 HBase基本代码实现(一)
Step 1: 加载设置 HConnection hTablePool = null; static Configuration conf =null; public HBaseDAOImp() { conf = new Configuration(); String zk_list = "node12,node13,node14";
2017-06-16 18:47:28 572
原创 Zookeeper之分布式锁
Step 1:private int threadId; private ZooKeeper zk = null; private String selfPath; private String waitPath; private String LOG_PREFIX_OF_THREAD; private static final int SESSION_TIM
2017-06-15 19:53:35 256
原创 HBase之MapReduce
需求:使用MapReduce计算HBase列式数据库中某人的通话数量Step 1: Mapper:public class MyMapper extends TableMapper<IntWritable, IntWritable>{ protected void map( ImmutableBytesWritable key, Result
2017-06-14 17:59:18 225
原创 HBase之Protocolbuffer应用
Step 1: 使用Protocolbuffer生成Cdr.java文件 http://blog.csdn.net/ymf827311945/article/details/72923577Step 2: Phonetest.java private Configuration config =null; private byte[] cf ="cf1".getBytes();
2017-06-13 17:44:18 625
原创 MapReduce之人脉计算
需求: 小明 老王 如花 林志玲 老王 小明 凤姐 如花 小明 李刚 凤姐 林志玲 小明 李刚 凤姐 郭美美 李刚 如花 凤姐 林志玲 郭美美 凤姐 林志玲 凤姐 如花 老王 林志玲 郭美美Step 1: User.java private String user; private String other; private
2017-06-12 17:40:49 354
原创 Protocol Buffer原理
Point 1: Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了 C++、Java、Python 三种语言的 APIPoint 2:关于Protocol Buffer的一个小例子使用 Protobuf
2017-06-08 17:12:14 459
原创 Protocolbuffer配置
Point 1:什么是ProtocolBuffer protocolbuffer(以下简称PB)是google 的一种数据交换的格式,它独立于语言,独立于平台。google 提供了多种语言的实现:java、c#、c++、go 和 python,每一种实现都包含了相应语言的编译器以及库文件。由于它是一种二进制的格式,比使用 xml 进行数据交换快许多。可以把它用于分布式应用之间的数据通信或者异构环境
2017-06-08 16:33:20 417
原创 HRegionServer的详解
Point 1: HRegionServer一般和DataNode在同一台机器上运行,实现数据的本地性。Point 2: HRegionServer包含多个HRegion,由WAL(HLog)、BlockCache、MemStore、HFile组成。1.WAL即Write Ahead Log,在早期版本中称为HLog,它是HDFS上的一个文件,如其名字所表示的,所有写操作都会先保证将数据写入这个
2017-06-08 15:36:07 9865 1
原创 Flume原理
Point 1:什么是Flume? Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统。现在已经是Apache Top项目。Github地址。同Flume相似的日志收集系统还有Facebook Scribe,Apache Chuwka,Apache Kafka(也是LinkedIn的)Point 2: Flume传输的数据的基本单位是event,如果是文本文件,通常是一行记
2017-06-08 15:25:00 1587
原创 Flume的配置
Flume URL: http://archive.apache.org/dist/flume/1.6.0/Step 1: 在上面下载1.6版本的FlumeStep 2: 在任意一个节点上执行命令:mkdir -p /opt/apps/FlumeStep 3: 使用xftp将下载的文件上传到该目录下 Step 4: 执行命令:———-进行解压tar -zxvf /opt/apps/Flu
2017-06-07 17:18:02 249
原创 HBase的读写过程
Point 1: hbase使用MemStore和StoreFile存储对表的更新Point2: 数据在更新时首先写入Log(WAL log)和内存(MemStore)中,MemStore中的数据是排序的,当MemStore累计到一定阈值时,就会创建一个新的MemStore,并 且将老的MemStore添加到flush队列,由单独的线程flush到磁盘上,成为一个StoreFile。于此同时,系
2017-06-06 16:45:48 621
原创 HBase的物理存储
Point 1: Table 在行的方向上分割为多个HRegion Point 2: region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion Point 3: HRegion是Hbase中分布式存储和负载均衡的最
2017-06-05 17:18:54 630
原创 HBase Shell命令
1.进入hbase shell console $HBASE_HOME————指的是HBase的安装路径$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami2.表的管理1)查看有哪些表
2017-06-03 11:56:06 313
原创 HBase的优化
Point1: 生活中的数据基本上都是非结构化的数据,可以从HBase 提取一部分数据作为结构化数据,然后用Hive和HBase结合一下,使用Hive进行查询Point 2: HBase + Redis(客户端的缓存)——一对非常好的搭档Point 3:HBase的缺点 1.查询不灵活,不能使用cloumn过滤查询 2.不支持全文索引,使用solr和hbase整合可以完成全文搜索 3.HB
2017-06-03 11:44:08 369
原创 HBase原理
Point 1:什么是HBase? HBase是一个分布式的、面向列的开源数据库,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Point 2:HBase的底层存储 Hbase需要借助HDFS来作为底层存储Point 3: HDFS存取压缩文件,为了存取的文件更多
2017-06-02 18:12:40 351
原创 HBase之完全分布式搭建
Step 1: 可以尝试先搭建伪分布式,然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/72822704Step 2: 在搭建伪分布式的节点上执行命令: vi /opt/apps/HBase/hbase-1.1.3/conf/hbase-env.sh 修改如下属性:HBASE_MANAGES
2017-06-01 18:31:36 343
nginx-1.8.1.tar.gz
2017-05-04
nginx-1.8.1
2017-05-04
nginx-1.8.0.tar.gz
2017-05-03
zookeeper-3.4.8
2017-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人