2016年07月_yunpiao123456

原创 Struts2入门示例教程

回顾Struts2的使用过程，网上搜的教程多多少少都会有点问题，重新记录下创建过程，方便查阅。1、下载Struts2的jar包下载地址：http://archive.apache.org/dist/struts/binaries/我用的是struts-2.3.14-all.zip这个版本2、创建一个web project项目下面给出所有文件均创建完成后的工程

2016-07-28 12:49:04 440 1

原创 struts2的核心和工作原理

在学习struts2之前，首先我们要明白使用struts2的目的是什么？它能给我们带来什么样的好处？设计目标 Struts设计的第一目标就是使MVC模式应用于web程序设计。在这儿MVC模式的好处就不在提了。技术优势 Struts2有两方面的技术优势，一是所有的Struts2应用程序都是基于client/server HTTP交换协议，The Jav

2016-07-28 12:47:37 842

原创数据分析系统Hive

Hive概述 Hive是由facebook开源，最初用于解决海量结构化的日志数据统计问题。其是构建在Hadoop之上的数据仓库。数据计算使用MR，数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL。类似SQL，但不完全相同。通常用于进行离线数据处理（采用MapReduce）。可认为Hive是一个HQL-MR的语言翻译器。上述代码是ma

2016-07-13 15:27:08 1044

原创 Hadoop数据收集与入库系统Flume与Sqoop

Hadoop提供了一个中央化的存储系统，其有利于进行集中式的数据分析与数据共享。 Hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。常见的两种数据来源。一种是分散的数据源：机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据：传统关系型数据库（MySQL、Oracle）、磁盘阵列以及磁带。 Flume由

2016-07-12 20:09:29 8564

原创 Zookeeper基本原理与应用场景

Zookeeper是一个针对大型分布式系统的可靠协调系统。提供的功能包括：配置维护、名字服务、分布式同步、组服务等。目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper已经成为Hadoop生态系统中的基础组件。Zookeeper有如下特点：最终一致性：为客户端展示同一视图，这是zookeeper最重要的功能。

2016-07-12 14:48:02 4743

原创 Hbase编程实践

Hbase 访问方式 Hbase 访问方式包括：（2）、Native Java API ：最常规和高效的访问方式；（3）、HBase Shell ： HBase的命令行工具，最简单的接口，适合HBase管理使用；（4）、Thrift Gateway ：利用Thrift序列化技术，支持

2016-07-06 21:29:57 3110

原创 Hbase的应用场景、原理及架构分析

HBase概述 HBase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储。从逻辑上讲，HBase将数据按照表、行和列进行存储。如图所示，Hbase构建在HDFS之上，Hadoop之下。其内部管理的文件全部存储在HDFS中。与HDFS相比两者都具有良好的容错性

2016-07-06 20:17:54 1884 1

原创 MapReduce 2.0编程实践（涉及多语言编程）

Hadoop提供了三种编程方式：Java（最原始的方式、Hadoop Streaming（支持多语言）以及Hadoop Pipes（支持C/C++）。Java编程接口是所有编程方式的基础。不同的编程接口只是暴露给用户的形式不同而已，内部执行引擎是一样的。不同编程方式效率不同。与Linux管道机制一致，通过标准输入输出实现进程间通信。几个举例：

2016-07-05 20:21:56 3899 1

原创 MapReduce 2.0应用场景、原理与基本架构

现介绍计算框架MapReduce。MapReduce一个应用场景是有大量文件，里面存储了单词，且一个单词占一行。执行任务是如何统计每个单词出现的次数？类似应用场景有搜索引擎中，统计最流行的K个搜索词以及统计搜索词频率，帮助优化搜索词提示。 MapReduce将作业的整个运行过程分为两个阶段：Map阶段和Reduce阶段 Map阶段由一定数量的Map

2016-07-05 19:15:36 5139

本节，主要介绍yarn的基本原理以及资源调度。在hadoop1.0不能满足多系统集成的背景下孕育了yarn的产生。由于多分布式系统可以很好的集成，因此yarn的出现使得整个集群的运维成本大大降低。同时，yarn可以很好的利用集群资源，避免资源的浪费。除此之外，yarn的出现实现了集群的数据共享问题。不同的分布式计算框架可以实现数据的共享，比如hadoop的mapreduce输出可以作为storm的

2016-07-01 19:24:36 17811

原创 Hadoop生态系统概述

已经不是第一天接触hadoop了，但是系统的学习一直没有进行，为了能更快的成长，决定从今天开始系统的学习大数据。并做相关技术记录。ps：希望不要三分钟热度，半途而废。要为未来的战争时刻准备着...第一次接触hadoop是在清华大学网络研究院，并对此产生浓厚的兴趣。以上都是题外话，下面开始切入正题，本系列文章打算以hadoop为起点，围绕其对hbase、hive、pig、sqoo

2016-07-01 16:12:43 4742

yunpiao123456的专栏