大数据
zengshangchun
这个作者很懒,什么都没留下…
展开
-
大数据开发
hadoop环境搭建1,概念``1.1,理论1)集群:指的是多台设备构成一个完整的应用,这些多台设备就构成一个集群2)hadoop hadoop=hdfs+运算框架。 hadoop的运算框架有两种:mapreduce(第一代运算框架)和 yarn(第二代运算框架)3)hdfs hdfs=hadoop dfs;d->分布式,fs-&amp原创 2019-01-04 18:32:52 · 1033 阅读 · 0 评论 -
maperuce运算框架
1,概念 mapreduce 运算框架主要实现hadoop 的数据处理,数据处理中 流经过5个节点。 数据流:input -> spilt -> map -> shuffle -> reduce(最后reduce输出) 1.1,input:是将被运算的数据切成默认64M的快(block),方便后续运算。 1.2,split:切片,将 inpu...原创 2019-01-11 17:20:25 · 215 阅读 · 0 评论 -
hadoop hbase 项目
1,bulkloading 批量导入工具 1.1,环境准备 1)新建文本数据 music1.txt,music2.txt music1.txt: 编号(rowkey) 歌名(song) 歌手(singer) 歌手性别(gender) 节奏 (ryghme) ...原创 2019-01-17 19:33:22 · 420 阅读 · 0 评论 -
hive 安装与使用
1,概念2,hive 安装 1)获取 hive 安装包并解压 /home/hduser/下 2)hive 是在 hadoop 基础上的一种数据仓库,必须在环境变量 $HADOOP_HOME 3)配置 hive 环境变量HIVE_HOME与PATH(/etc/profile) 4)conf 下配置 hive-site.xml ...原创 2019-01-18 17:41:50 · 170 阅读 · 0 评论 -
hbase 数据库 的安装与简单应用
1,概念 hbase 是一个可以建立在 hdfs 上的分布式 nosql 数据库。 hbase 有三种安装方式:单机,伪分布式,完全分布式。 单机 hbase:hbase 数据库的数据文件存在单一的一台设备上,使用的是该设备的文件系统。 伪分布式 hbase:hbase 数据库的数据文件存在一台设备构成的 hdfs 上,数据库分主从结构。...原创 2019-01-15 21:23:37 · 5516 阅读 · 2 评论