自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (9)
  • 收藏
  • 关注

原创 Spark---Word Count

Point 1:Java版本package com.Spark.wordcount;//use spark-assembly-1.6.0-hadoop2.4.0.jarimport java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org

2017-06-30 18:28:35 455

原创 Spark的运行模式

Point 1:Spark on Standalone Standalone模式是Spark实现的资源调度框架,其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中,也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时,Driver在Master节点上运行;当使用spark-submit工具提交

2017-06-29 19:17:10 370

原创 Spark配置—Yarn模式

Step 1: 可以尝试先搭建HA模式,然后Yarn模式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73822832Step 2: 在node11节点上执行命令:vi ~/.bash_profilesource ~/.bash_profile添加如下属性:export HADOOP_INSTALL=

2017-06-28 19:10:58 1481

原创 Spark配置—HA模式

Step 1: 可以尝试先搭建伪分布式,然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73733916Step 2: 在node11节点上执行命令:vi /opt/apps/spark/spark-1.6.0-bin-hadoop2.6/conf/spark-env.sh添加如下属性:ex

2017-06-27 19:52:29 606

原创 Spark配置—Standlone模式

Step 1: 下载Spark版本:根据HDFS的版本进行下载,—–本文对应的是Spark 1.6.0 HDFS 2.6.0 http://spark.apache.org/downloads.html Step 2: 在node11节点执行命令:mkdir -p /opt/apps/sparkcd /opt/apps/sparkStep 3: 使用xftp将下载的spark包上传到上述

2017-06-26 11:44:45 1819

原创 Hive和HBase的整合原理

Point 1: 配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类。 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可

2017-06-24 13:28:12 8117

原创 Hive与HBase的整合

Step 1:把hive的Lib目录下hive-hbase-handler-1.2.1.jar cp到hbase/lib 下 同时把hbase中的所有的jar,cp到hive/lib执行命令:cp /opt/apps/hive/apache-hive-1.2.1-bin/lib/hive-hbase-handler-1.2.1.jar /opt/apps/HBase/hbase-1.1.3/li

2017-06-24 13:20:14 394

原创 Spark Transformation和Action

Point 1:什么是Transformation? transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDPoint 2:什么是action? action是得到一个值,或者一个结果(直接将RDD cache到内存中) 所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计

2017-06-23 18:57:59 272

原创 Spark原理(三)

Point 1:资源管理与作业调度 Spark对于资源管理与作业调度可以使用Standalone(独立模式),Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用,但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现,得益于Spark天生支持多种Scheduler和Executor的良好设计,对

2017-06-22 18:18:10 271

原创 Spark原理(二)

Point 1:Spark工作原理图 Point 2: Resilient Distributed Dataset(RDD)弹性分布数据集RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示以被分区,不可改变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序

2017-06-21 18:54:32 222

原创 Spark原理(一)

Point 1:什么是Spark? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要

2017-06-20 19:11:01 324

原创 Sqoop原理

Point 1:什么是Sqoop? Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Point 2:Sqoop的特征 Sqoop是一个用来将Had

2017-06-19 18:21:02 592

原创 MapReduce配置

Step 1: 搭建Hadoop集群和Zookeeper集群: http://blog.csdn.net/ymf827311945/article/details/71566137 http://blog.csdn.net/ymf827311945/article/details/71258273Step 2: 执行命令:vi /opt/apps/hadoop/hadoop-2.6.0/et

2017-06-17 11:25:22 640

原创 Sqoop配置

Step 1: Sqoop URL: http://apache.claz.org/sqoop/1.4.6/ 版本:1.4.6Step 2: 到上述地址下载Sqoop 1.4.6Step 3: 在一个节点上(node11)上执行命令:mkdir -p /opt/apps/SqoopStep 4: 使用xftp将下载的Sqoop tar包上传到上面的路径 Step 5: 执行命令:tar

2017-06-17 10:45:02 335

原创 HBase基本代码实现(二)

Step 1:public void deleteCell(String tableName, String rowkey,String cf,String column){ HTableInterface table = null; try { table = hTablePool.getTable(tableName) ;

2017-06-16 18:51:11 285

原创 HBase基本代码实现(一)

Step 1: 加载设置 HConnection hTablePool = null; static Configuration conf =null; public HBaseDAOImp() { conf = new Configuration(); String zk_list = "node12,node13,node14";

2017-06-16 18:47:28 572

原创 Zookeeper之分布式锁

Step 1:private int threadId; private ZooKeeper zk = null; private String selfPath; private String waitPath; private String LOG_PREFIX_OF_THREAD; private static final int SESSION_TIM

2017-06-15 19:53:35 256

原创 HBase之MapReduce

需求:使用MapReduce计算HBase列式数据库中某人的通话数量Step 1: Mapper:public class MyMapper extends TableMapper<IntWritable, IntWritable>{ protected void map( ImmutableBytesWritable key, Result

2017-06-14 17:59:18 225

原创 HBase之Protocolbuffer应用

Step 1: 使用Protocolbuffer生成Cdr.java文件 http://blog.csdn.net/ymf827311945/article/details/72923577Step 2: Phonetest.java private Configuration config =null; private byte[] cf ="cf1".getBytes();

2017-06-13 17:44:18 625

原创 MapReduce之人脉计算

需求: 小明 老王 如花 林志玲 老王 小明 凤姐 如花 小明 李刚 凤姐 林志玲 小明 李刚 凤姐 郭美美 李刚 如花 凤姐 林志玲 郭美美 凤姐 林志玲 凤姐 如花 老王 林志玲 郭美美Step 1: User.java private String user; private String other; private

2017-06-12 17:40:49 354

原创 Protocol Buffer原理

Point 1: Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了 C++、Java、Python 三种语言的 APIPoint 2:关于Protocol Buffer的一个小例子使用 Protobuf

2017-06-08 17:12:14 459

原创 Protocolbuffer配置

Point 1:什么是ProtocolBuffer protocolbuffer(以下简称PB)是google 的一种数据交换的格式,它独立于语言,独立于平台。google 提供了多种语言的实现:java、c#、c++、go 和 python,每一种实现都包含了相应语言的编译器以及库文件。由于它是一种二进制的格式,比使用 xml 进行数据交换快许多。可以把它用于分布式应用之间的数据通信或者异构环境

2017-06-08 16:33:20 417

原创 HRegionServer的详解

Point 1: HRegionServer一般和DataNode在同一台机器上运行,实现数据的本地性。Point 2: HRegionServer包含多个HRegion,由WAL(HLog)、BlockCache、MemStore、HFile组成。1.WAL即Write Ahead Log,在早期版本中称为HLog,它是HDFS上的一个文件,如其名字所表示的,所有写操作都会先保证将数据写入这个

2017-06-08 15:36:07 9865 1

原创 Flume原理

Point 1:什么是Flume? Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统。现在已经是Apache Top项目。Github地址。同Flume相似的日志收集系统还有Facebook Scribe,Apache Chuwka,Apache Kafka(也是LinkedIn的)Point 2: Flume传输的数据的基本单位是event,如果是文本文件,通常是一行记

2017-06-08 15:25:00 1587

原创 Flume的配置

Flume URL: http://archive.apache.org/dist/flume/1.6.0/Step 1: 在上面下载1.6版本的FlumeStep 2: 在任意一个节点上执行命令:mkdir -p /opt/apps/FlumeStep 3: 使用xftp将下载的文件上传到该目录下 Step 4: 执行命令:———-进行解压tar -zxvf /opt/apps/Flu

2017-06-07 17:18:02 249

原创 HBase的读写过程

Point 1: hbase使用MemStore和StoreFile存储对表的更新Point2: 数据在更新时首先写入Log(WAL log)和内存(MemStore)中,MemStore中的数据是排序的,当MemStore累计到一定阈值时,就会创建一个新的MemStore,并 且将老的MemStore添加到flush队列,由单独的线程flush到磁盘上,成为一个StoreFile。于此同时,系

2017-06-06 16:45:48 621

原创 HBase的物理存储

Point 1: Table 在行的方向上分割为多个HRegion Point 2: region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就会有越来越多的Hregion Point 3: HRegion是Hbase中分布式存储和负载均衡的最

2017-06-05 17:18:54 630

原创 HBase Shell命令

1.进入hbase shell console $HBASE_HOME————指的是HBase的安装路径$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami2.表的管理1)查看有哪些表

2017-06-03 11:56:06 313

原创 HBase的优化

Point1: 生活中的数据基本上都是非结构化的数据,可以从HBase 提取一部分数据作为结构化数据,然后用Hive和HBase结合一下,使用Hive进行查询Point 2: HBase + Redis(客户端的缓存)——一对非常好的搭档Point 3:HBase的缺点 1.查询不灵活,不能使用cloumn过滤查询 2.不支持全文索引,使用solr和hbase整合可以完成全文搜索 3.HB

2017-06-03 11:44:08 369

原创 HBase原理

Point 1:什么是HBase? HBase是一个分布式的、面向列的开源数据库,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Point 2:HBase的底层存储 Hbase需要借助HDFS来作为底层存储Point 3: HDFS存取压缩文件,为了存取的文件更多

2017-06-02 18:12:40 351

原创 HBase之完全分布式搭建

Step 1: 可以尝试先搭建伪分布式,然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/72822704Step 2: 在搭建伪分布式的节点上执行命令: vi /opt/apps/HBase/hbase-1.1.3/conf/hbase-env.sh 修改如下属性:HBASE_MANAGES

2017-06-01 18:31:36 343

Python-3.5.2-AMD-64bit

Python 3.5.2是TensorFlow支持的版本,适合用来进行机器学习和数据挖掘

2017-10-11

Redis_Jar_For_Session

使用Redis配置Session一致性所需要的jar包

2017-07-31

Memcachedlib_For_Session

使用Memcached解决session一致性问题所需要的jar包

2017-07-29

zookeeper.tar.gz

zookeeper的下载包

2017-05-06

nginx-1.8.1.tar.gz

2017-05-04

nginx-1.8.1

2017-05-04

nginx-1.8.0.tar.gz

2017-05-03

zookeeper-3.4.8

2017-05-03

Centos-6.8-minimal

Centos-6.8-minimal

2017-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除