Hadoop
文章平均质量分 63
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
Flume导入文本文件到HBase
1. 用Java编写自定义的序列化类,通过jar形式放入flume/lib中自定义类MinputHbase, 实现接口HbaseEventSerializer, 重写其所有方法package com;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.conf.C...原创 2018-06-22 15:44:38 · 1657 阅读 · 1 评论 -
在CentOS7下配置Hive
1. 前期准备安装jdk 1.8.0安装hadoop 2.9.0安装mysql 5.6.39下载mysql的jar包 mysql-connector-java-5.1.38.jar下载hive安装包 hive 2.3.32. 配置环境变量解压缩到/home/hadoop/hive-2.3.3修改/etc/profile添加hive的环境变量, 同时确保hadoop环境变...原创 2018-06-08 11:31:57 · 2090 阅读 · 2 评论 -
Hive简介和WordCount
1. Hive简介原创 2018-06-08 17:19:37 · 358 阅读 · 0 评论 -
CentOS7环境下Hbase集群的配置
0. 前提jdk 1.8.0hadoop 2.9.0zookeeper 3.4.61. 下载解压缩hbase-1.2.6-bin.tar.gz2. 修改配置文件/home/hadoop/hbase-1.2.6/conf 生成tmp数据目录/home/hadoop/hbase-1.2.6/hbasedata修改hbase-site.xml,添加节点信息&lt...原创 2018-06-15 17:32:34 · 751 阅读 · 0 评论 -
Hive与HBase结合实现HiveQL语句操作HBase表
0. 上传完整的jar文件到hive/lib中 删除hive/lib下所有文件解压上传以下jar到该目录 1. 修改hive-site.xml <name>hbase.zookeeper.quorum</name> <value&am原创 2018-06-25 11:44:59 · 1212 阅读 · 0 评论 -
Zookeeper简介
1. ZooKeeper是一个分布式协调服务,用于管理大量主机。分布式应用程序并发的在网络中上运行,通过协调不同节点上进程以快速有效的方式完成特定任务。分布式应用程序特点: 高可用,可扩展,透明分布式程序缺点: 竞争条件,死锁,数据的不一致2. zookeeper功能 功能 简介 命名服务 按名称识别集群中的节点。它与DNS类似,但是用于节点。...原创 2018-05-23 14:47:47 · 1065 阅读 · 0 评论 -
Hadoop简介和常用命令
1. hadoop的节点存储文件首先在NameNode节点中以镜像文件方式保存DataNode节点的目录结构多个DataNode节点负责分布式存储,默认3个节点NameNode通知客户端已准备好存储节点,可以开始存储数据文件直接写入第一个DataNode节点(数据块形式,512k)由第一个节点拷贝至其他节点每完成一个数据块的全节点拷贝,就以日志形式反馈给前节点和文件以及NameNo...原创 2018-05-23 14:47:06 · 1401 阅读 · 0 评论 -
CentOS7下配置Hadoop集群和Zookeeper集群
1.版本centos7 64位,VM虚拟机12.0,jdk 1.8.0hadoop 2.9.0zookeeper 3.4.6 2.Hadoop集群的配置0. 下载解压安装文件解压命令tar -xzvf 压缩文件名 文件夹路径1. 修改hadoop-env.sh添加jdk环境export JAVA_HOME=/usr/java/jdk1.8.0_144 文...原创 2018-05-23 13:10:58 · 1143 阅读 · 0 评论 -
HBase简介
1. HBase简介HBase是什么建立在Hadoop HDFS之上的分布式面向列的数据库HBase特点高可靠,高性能,面向列,可伸缩的分布式存储系统,可横向扩展HBase与HDFS的区别 HDFS HBase 存储大容量文件的分布式文件系统 建立在HDFS上的数据库 不支持快速单独记录查询 支持在较大表中快速查询 ...原创 2018-06-19 16:42:19 · 296 阅读 · 0 评论 -
CentOS7环境下Spark集群的配置
1. 解压缩到/home/hadoop/spark-2.2.0scala-2.11.72. 配置环境变量/etc/profile为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.shscala写入binspark写入bin和sbin3...原创 2018-07-02 17:29:56 · 1128 阅读 · 0 评论 -
MapReduce练习之二次排序
0. 运行环境idea+hadoop 2.9.0 本地调试, 各个类分开写输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 91. MyJob主方法所在类package com;import org.apache.hadoop.conf.Configuration;impo...原创 2018-05-31 16:16:37 · 567 阅读 · 1 评论 -
Windows下idea中实现Hadoop本地测试功能
0. 目标Hadoop默认没有windows版本Hadoop集群部署在Linux虚拟机上,通过idea编写的MR代码和输入文件要打包jar发送给Linux为便于测试MR代码是否正确, 希望在idea上运行MR1. 解压hadoop到windows硬盘中 https://blog.csdn.net/wxfghy/article/details/80450469 win...原创 2018-05-31 11:25:34 · 3131 阅读 · 0 评论 -
windows7下java代码从远程hadoop服务上下载文件
1. 在windows7下无法下载远程hdfs服务上的文件1. 问题原因hadoop官方不支持windows平台,没有windows版本的hadoop,想在windows上运行hadoop很麻烦官方下载的hadoop安装包中缺少两个文件hadoop.dll和winutils.exe,用于支持windows2. 解决方法下载hadoop安装包并解压缩到windows硬盘中,可...原创 2018-05-25 13:28:03 · 1483 阅读 · 0 评论 -
MapReduce练习之Top k
1. 输入文件格式algorithm,liuyifei,75,85,62,48,54,96,15 computer,huangjiaju,85,75,86,85,85 english,liuyifei,76,95,86,74,68,74,48 english,huangdatou,48,58,67,86,15,33,85 algorithm,huanglei,76,95,86,74,6...原创 2018-06-04 16:19:55 · 772 阅读 · 0 评论 -
HDFS特性和常用功能
1. 官方文档:http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html2. 概念:Hadoop Distributed File System Hadoop的分布式文件系统3. 基本特点:高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和...原创 2018-05-24 10:21:39 · 5486 阅读 · 0 评论 -
MapReduce简介和wordcount
MapReduce简介WordCountMyMapMyReduceMyJobpackage com;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.ha...原创 2018-05-29 07:13:13 · 742 阅读 · 0 评论 -
MapReduce练习之共同好友
0. 问题通过mapreduce找出用户A,B,C…中每两个人所共同拥有的好友都有谁输入文件 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A...原创 2018-06-05 13:51:47 · 556 阅读 · 1 评论 -
MapReduce练习之倒排索引
0. 问题TF-IDF实现统计多个文档中一个单词出现的频数和出现在哪个文档中 在map中读取当前文档的每一行数据,得到当前文档路径mapkey(单词:文档路径),mapvalue(数值1)在map端设置Combiner类(整合数据,减少向reduce端传输数据的网络开销)将map的输出重新组合输出<单词,文档路径:单词频数>输入文件为三篇txt英文文档输出文件格式为 ...原创 2018-06-06 10:26:02 · 329 阅读 · 0 评论 -
Hiveql增删改查常用语句
0. 数据类型基本类型 数据类型 长度 格式 tinyint 1 byte 20 smalint 2 byte 20 int 4 byte 20 bigint 8 byte 20 boolean 布尔 true float 单精度浮点数 3.14 double 双精...原创 2018-06-13 16:35:35 · 8020 阅读 · 0 评论 -
Sqoop导入导出MySQL与HDFS数据
1. CentOS7环境下安装sqoop下载地址, 这里选择1.4.7版本sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz http://archive.apache.org/dist/sqoop/1.4.7/传输到linux中,解压缩修改系统环境变量/etc/profile, 添加sqoop/bin, 同时确保export HADOOP_HOME进入sqoo...原创 2018-06-13 17:05:30 · 2884 阅读 · 0 评论 -
HBase shell和Java基本命令
1. HBase shell 命令 功能 list 查看表,命名空间,命名空间下的表 scan 全表扫描 put 插入单行数据 get 读取数据 create 创建表,命名空间 drop 删除表,命名空间2. HBase Java初始化和关闭 Connection con; H...原创 2018-06-21 14:01:08 · 477 阅读 · 0 评论 -
Flume安装与简介
0. CentOS7下安装Flume 官方文档 http://flume.apache.org/FlumeUserGuide.html修改配置文件flume-env.sh/home/hadoop/flume-1.8.0/confcp flume-env.sh.template flume-env.sh修改Java_home路径export JAVA_HOME=...原创 2018-06-21 15:37:05 · 179 阅读 · 0 评论 -
Hadoop总结
0. Hadoop开源的分布式系统基础架构优点对大量数据进行分布式处理可靠, 假设硬件失效为常态, 针对失败节点进行重新分布处理高效, 并行处理提高处理速度可伸缩, 在横向扩展至上千个节点, 可处理PB级数据低成本, 项目开源,与同类产品比较成本低廉相关组件包括HDFSMapReduceYarnHiveHBaseZooKeeperSqoopFlu...原创 2018-07-20 11:23:44 · 3737 阅读 · 0 评论