2017年06月_Star-Technology

原创 Spark---Word Count

Point 1：Java版本package com.Spark.wordcount;//use spark-assembly-1.6.0-hadoop2.4.0.jarimport java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org

2017-06-30 18:28:35 455

Point 1：Spark on Standalone Standalone模式是Spark实现的资源调度框架，其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时，Driver在Master节点上运行；当使用spark-submit工具提交

2017-06-29 19:17:10 370

原创 Spark配置—Yarn模式

Step 1：可以尝试先搭建HA模式，然后Yarn模式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73822832Step 2：在node11节点上执行命令:vi ~/.bash_profilesource ~/.bash_profile添加如下属性：export HADOOP_INSTALL=

2017-06-28 19:10:58 1481

原创 Spark配置—HA模式

Step 1：可以尝试先搭建伪分布式，然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/73733916Step 2：在node11节点上执行命令：vi /opt/apps/spark/spark-1.6.0-bin-hadoop2.6/conf/spark-env.sh添加如下属性：ex

2017-06-27 19:52:29 606

原创 Spark配置—Standlone模式

Step 1：下载Spark版本：根据HDFS的版本进行下载，—–本文对应的是Spark 1.6.0 HDFS 2.6.0 http://spark.apache.org/downloads.html Step 2：在node11节点执行命令：mkdir -p /opt/apps/sparkcd /opt/apps/sparkStep 3：使用xftp将下载的spark包上传到上述

2017-06-26 11:44:45 1819

原创 Hive和HBase的整合原理

Point 1：配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作，基本原理就是利用两者本身对外的API接口互相进行通信，两者通信主要是依靠hive_hbase-handler.jar工具类。但请注意：使用Hive操作HBase中的表，只是提供了便捷性，hiveQL引擎使用的是MapReduce，对于性能上，表现比较糟糕，在实际应用过程中可

2017-06-24 13:28:12 8117

原创 Hive与HBase的整合

Step 1：把hive的Lib目录下hive-hbase-handler-1.2.1.jar cp到hbase/lib 下同时把hbase中的所有的jar，cp到hive/lib执行命令：cp /opt/apps/hive/apache-hive-1.2.1-bin/lib/hive-hbase-handler-1.2.1.jar /opt/apps/HBase/hbase-1.1.3/li

2017-06-24 13:20:14 394

原创 Spark Transformation和Action

Point 1:什么是Transformation? transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDDPoint 2：什么是action？ action是得到一个值，或者一个结果（直接将RDD cache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计

2017-06-23 18:57:59 272

原创 Spark原理（三）

Point 1：资源管理与作业调度 Spark对于资源管理与作业调度可以使用Standalone(独立模式)，Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用，但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现，得益于Spark天生支持多种Scheduler和Executor的良好设计，对

2017-06-22 18:18:10 271

原创 Spark原理（二）

Point 1：Spark工作原理图 Point 2： Resilient Distributed Dataset（RDD）弹性分布数据集RDD是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示以被分区，不可改变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序

2017-06-21 18:54:32 222

原创 Spark原理（一）

Point 1：什么是Spark？ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要

2017-06-20 19:11:01 324

原创 Sqoop原理

Point 1：什么是Sqoop？ Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Point 2：Sqoop的特征 Sqoop是一个用来将Had

2017-06-19 18:21:02 592

原创 MapReduce配置

Step 1：搭建Hadoop集群和Zookeeper集群： http://blog.csdn.net/ymf827311945/article/details/71566137 http://blog.csdn.net/ymf827311945/article/details/71258273Step 2：执行命令：vi /opt/apps/hadoop/hadoop-2.6.0/et

2017-06-17 11:25:22 640

原创 Sqoop配置

Step 1： Sqoop URL： http://apache.claz.org/sqoop/1.4.6/ 版本：1.4.6Step 2：到上述地址下载Sqoop 1.4.6Step 3：在一个节点上（node11）上执行命令：mkdir -p /opt/apps/SqoopStep 4：使用xftp将下载的Sqoop tar包上传到上面的路径 Step 5：执行命令：tar

2017-06-17 10:45:02 335

原创 HBase基本代码实现（二）

Step 1：public void deleteCell(String tableName, String rowkey,String cf,String column){ HTableInterface table = null; try { table = hTablePool.getTable(tableName) ;

2017-06-16 18:51:11 285

原创 HBase基本代码实现（一）

Step 1: 加载设置 HConnection hTablePool = null; static Configuration conf =null; public HBaseDAOImp() { conf = new Configuration(); String zk_list = "node12,node13,node14";

2017-06-16 18:47:28 572

原创 Zookeeper之分布式锁

Step 1：private int threadId; private ZooKeeper zk = null; private String selfPath; private String waitPath; private String LOG_PREFIX_OF_THREAD; private static final int SESSION_TIM

2017-06-15 19:53:35 256

原创 HBase之MapReduce

需求：使用MapReduce计算HBase列式数据库中某人的通话数量Step 1： Mapper：public class MyMapper extends TableMapper<IntWritable, IntWritable>{ protected void map( ImmutableBytesWritable key, Result

2017-06-14 17:59:18 225

原创 HBase之Protocolbuffer应用

Step 1：使用Protocolbuffer生成Cdr.java文件 http://blog.csdn.net/ymf827311945/article/details/72923577Step 2： Phonetest.java private Configuration config =null; private byte[] cf ="cf1".getBytes();

2017-06-13 17:44:18 625

原创 MapReduce之人脉计算

需求：小明老王如花林志玲老王小明凤姐如花小明李刚凤姐林志玲小明李刚凤姐郭美美李刚如花凤姐林志玲郭美美凤姐林志玲凤姐如花老王林志玲郭美美Step 1： User.java private String user; private String other; private

2017-06-12 17:40:49 354

原创 Protocol Buffer原理

Point 1： Protocol Buffers 是一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了 C++、Java、Python 三种语言的 APIPoint 2：关于Protocol Buffer的一个小例子使用 Protobuf

2017-06-08 17:12:14 459

原创 Protocolbuffer配置

Point 1：什么是ProtocolBuffer protocolbuffer(以下简称PB)是google 的一种数据交换的格式，它独立于语言，独立于平台。google 提供了多种语言的实现：java、c#、c++、go 和 python，每一种实现都包含了相应语言的编译器以及库文件。由于它是一种二进制的格式，比使用 xml 进行数据交换快许多。可以把它用于分布式应用之间的数据通信或者异构环境

2017-06-08 16:33:20 417

原创 HRegionServer的详解

Point 1： HRegionServer一般和DataNode在同一台机器上运行，实现数据的本地性。Point 2： HRegionServer包含多个HRegion，由WAL(HLog)、BlockCache、MemStore、HFile组成。1.WAL即Write Ahead Log，在早期版本中称为HLog，它是HDFS上的一个文件，如其名字所表示的，所有写操作都会先保证将数据写入这个

2017-06-08 15:36:07 9865 1

原创 Flume原理

Point 1：什么是Flume？ Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统。现在已经是Apache Top项目。Github地址。同Flume相似的日志收集系统还有Facebook Scribe，Apache Chuwka，Apache Kafka(也是LinkedIn的)Point 2： Flume传输的数据的基本单位是event，如果是文本文件，通常是一行记

2017-06-08 15:25:00 1587

原创 Flume的配置

Flume URL： http://archive.apache.org/dist/flume/1.6.0/Step 1：在上面下载1.6版本的FlumeStep 2：在任意一个节点上执行命令：mkdir -p /opt/apps/FlumeStep 3：使用xftp将下载的文件上传到该目录下 Step 4：执行命令：———-进行解压tar -zxvf /opt/apps/Flu

2017-06-07 17:18:02 249

原创 HBase的读写过程

Point 1： hbase使用MemStore和StoreFile存储对表的更新Point2：数据在更新时首先写入Log(WAL log)和内存(MemStore)中，MemStore中的数据是排序的，当MemStore累计到一定阈值时，就会创建一个新的MemStore，并且将老的MemStore添加到flush队列，由单独的线程flush到磁盘上，成为一个StoreFile。于此同时，系

2017-06-06 16:45:48 621

原创 HBase的物理存储

Point 1： Table 在行的方向上分割为多个HRegion Point 2： region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分会两个新的Hregion。当table中的行不断增多，就会有越来越多的Hregion Point 3： HRegion是Hbase中分布式存储和负载均衡的最

2017-06-05 17:18:54 630

原创 HBase Shell命令

1.进入hbase shell console $HBASE_HOME————指的是HBase的安装路径$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami2.表的管理1）查看有哪些表

2017-06-03 11:56:06 313

原创 HBase的优化

Point1：生活中的数据基本上都是非结构化的数据，可以从HBase 提取一部分数据作为结构化数据，然后用Hive和HBase结合一下，使用Hive进行查询Point 2： HBase + Redis（客户端的缓存）——一对非常好的搭档Point 3：HBase的缺点 1.查询不灵活，不能使用cloumn过滤查询 2.不支持全文索引，使用solr和hbase整合可以完成全文搜索 3.HB

2017-06-03 11:44:08 369

原创 HBase原理

Point 1：什么是HBase？ HBase是一个分布式的、面向列的开源数据库，HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Point 2：HBase的底层存储 Hbase需要借助HDFS来作为底层存储Point 3： HDFS存取压缩文件，为了存取的文件更多

2017-06-02 18:12:40 351

原创 HBase之完全分布式搭建

Step 1：可以尝试先搭建伪分布式，然后完全分布式只是在这个基础上做了一些修改而已 http://blog.csdn.net/ymf827311945/article/details/72822704Step 2：在搭建伪分布式的节点上执行命令： vi /opt/apps/HBase/hbase-1.1.3/conf/hbase-env.sh 修改如下属性：HBASE_MANAGES

2017-06-01 18:31:36 343

Python-3.5.2-AMD-64bit

Redis_Jar_For_Session

Memcachedlib_For_Session

zookeeper.tar.gz

nginx-1.8.1.tar.gz

nginx-1.8.1

nginx-1.8.0.tar.gz

zookeeper-3.4.8

Centos-6.8-minimal

空空如也