2015年11月_灯惉

12月 11月

原创 HIVE 简介

1、什么是Hive？ Hive是基于Hadoop文件系统之上的数据仓库架构，它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换、加载）工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言--Hive QL，Hive QL允许用户进行和SQL相似的操作，它可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能。还允许开发人员方便的使用Mapper和

2015-11-30 17:15:23 440

转载数据分析实例：在一线城市的你，生活有多苦逼

摘要: 曾经，“逃离北上广”成为年轻人中一个口号式的选择，但是，这个口号根本就没喊上多久，就没人响应了，因为，“逃离北上广”的人又都回来了。只有“北上广”加上深圳，才聚集着中国最多的资源、最好的机会，逃是逃不 ... 曾经，“逃离北上广”成为年轻人中一个口号式的选择，但是，这个口号根本就没喊上多久，就没人响应了，因为，“逃离北上广”的人又都回来了。只有“北

2015-11-20 16:06:39 587

原创 MapReduce原理

1、MapReduce简介 MapReduce是现今一个非常流行的分布式计算框架，它被设计成用于并行计算海量数据，第一个提出该技术框架的是Google公司，MapReduce框架的核心步骤主要分两部分：Map和Reduce，当你向MapReduce提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后

2015-11-20 10:50:28 698

原创 Hadoop HDFS原理

1 Hadoop搭建环境：虚拟机操作系统： CentOS6.6 64位，单核，1G内存JDK：1.7.0_55 64位Hadoop：1.1.2 2 HDFS原理 HDFS（Hadoop distributied File System）是一个分布式文件系统，是谷歌GFS文件系统的山寨版，它具有高容错性并提供了高吞吐量的数据访问，非常适合大规模数据集上的应用，它提供了一个高容错性

2015-11-18 22:26:05 628

转载 Hadoop HDFS

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量，并提供更轻松地访问。为了存储这些庞大的数据，这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失，在发生故障时。HDFS也使得可用于并行处理的应用程序。 HDFS的特点它适

2015-11-17 17:02:56 385

原创 Hadoop是什么？

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。 Hadoop的架构在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层

2015-11-17 17:00:17 698

原创 Hadoop大数据解决方案

传统的企业方法在这种方法中，一个企业将有一个计算机存储和处理大数据。对于存储而言，程序员会自己选择的数据库厂商，如Oracle，IBM等的帮助下完成，用户交互使用应用程序进而获取并处理数据存储和分析。局限性这种方式能完美地处理那些可以由标准的数据库服务器来存储，或直至处理数据的处理器的限制少的大量数据应用程序。但是，当涉及到处理大量的可

2015-11-17 16:54:01 1030

原创毕业3年

写给那些曾经在我生命里肆无忌惮地陪伴我，和我一起挥霍青春的人。毕业三年，从学校里面走出来，随着时间的印证，现实已经把梦击打的粉碎，也不知道什么时候学会专注的过日子，专注的去做饭、打扫屋子、洗擦锅灶，也许这也是生活。 2015年，是我幸福的一年，在这一年中，我挣扎在城市的边缘为自己，同时也为我，和我的生命里生命里肆无忌惮地陪伴着我，一起挥霍青春的我们安置一个

2015-11-15 15:32:09 367