hadoop
greekw
用我双手和我的思维去码出丰富的世界
展开
-
hadoop书籍(二)—《hive权威指南》笔记
hive 权威1、创建数据库create database if not exists financialscomment ‘hold all financial tables’with dbproperties(‘creator’=‘wuwc’,‘date’=‘2019-12-09’);2、设置变量和属性set hive.cli.print.current.db=true;3、删除...原创 2019-12-13 21:45:58 · 748 阅读 · 0 评论 -
CDH系列(一)—CDH组件目录,主机资源分配和端口说明
目录:/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/bin/postgres ...原创 2019-12-06 11:11:56 · 1728 阅读 · 0 评论 -
hadoop书籍(一)—《大数据技术体系详解:原理、架构与实践》笔记
《大数据技术体系详解:原理、架构与实践_董西成(著)》flume篇如何保证以下情况,flume不会丢失数据Agent所在机器突然crash,机器重启后恢复;Agent所在机器突然crash,机器重启后无法恢复;假设公司有10台web应用,试说明如何收集这些机器弄下nginx的日志(存放目录:/var/log/nginx),并保证数据不丢失情况下存在hdfs,请给出...原创 2019-11-29 18:43:51 · 1143 阅读 · 0 评论 -
sqoop系列(一)—sqoop框架概述
Sqoop就是将常用的MapReduce(数据导入导出)进行封装,通过传递参数的形式,运行MapReduce任务。Map任务(分,批量,并行)原创 2019-10-17 11:46:27 · 291 阅读 · 0 评论 -
hadoop基础(五)—hadoop各组件配置和启动
hadoop配置文件默认配置(相对应的jar)core-defaut.xml配置fs.trash 垃圾回收机制hdfs-defaut.xmlyarn-defaut.xmlmapred-defaut.xml自定义配置($HADOOP_HOME/etc/hadoop)core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-si...原创 2019-10-11 23:14:11 · 394 阅读 · 0 评论 -
hadoop协作框架(一)—sqoop的安装,配置和使用
版本选择和下载CDH http://archive.cloudera.com/cdh5/CDH 5.3.x 版本,非常的稳定,好用 cdh-5.3.6,各个版本之间的依赖和兼容不用 hadoop-2.5.0-cdh5.3.6.tar.gzhive-0.13.1-cdh5.3.6.tar.gzzookeeper-3.4.5-cdh5.3.6.tar.gzsqoop-1....原创 2018-06-24 11:42:30 · 468 阅读 · 0 评论 -
hive基础(一)——hive概述,架构和作用
hive 是什么Mapreduce 的编程的不变形,没有固定的格式数据分析是一个数据仓库的工具ETL 数据的转换和提前解决海量结构化日志的数据统计构建在hadoop 之上,将结构化的数据文件映射成一张表,并提供SQL 查询功能HIVE 特性处理的数据存在HDFS分析数据底层实现在MAPREDUCE执行程序运行的YARNHIVE在生态系统的位置...原创 2020-07-06 18:25:33 · 509 阅读 · 0 评论 -
hadoop基础(三)—YARN的架构
YARN概述 Yarn本来只是MapReduce的一部分,后来变成了Hadoop一个独立的项目 概括来说,Hadoop YARN的目的是使得Hadoop数据处理能力超越MapReduce。众所周知,Hadoop HDFS是Hadoop的数据存储层,Hadoop MapReduce是数据处理层。然而,MapReduce已经不能满足今天广泛的数据处理需求,如实时/准实时计算,图计算等。而...原创 2018-02-24 07:49:04 · 1128 阅读 · 0 评论 -
hadoop基础(二)—HDFS的架构
HDFS概述 它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战。HDFS最初是作为Apache Nutch Web搜索引擎项目的基础架构构建的。HDFS是Apache Hadoop Core项目的一部分。http://hado原创 2018-02-05 23:27:07 · 344 阅读 · 0 评论 -
hadoop基础(一)—初识hadoop
haoop的起源 Hadoop是Apache软件基金会的顶级开源项目,是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父,他打造了目前在云计算和大数据领域里如日中天的Hadoop。 Hadoop的发音是[hædu:p],Hadoop 这个名字不是一个缩写,而是一个虚构的名字。Doug Cutting解释原创 2018-02-05 23:17:26 · 476 阅读 · 0 评论