![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop生态
鲲鹏小飞猪
这个作者很懒,什么都没留下…
展开
-
docker安装cloudera版本的hadoop
官网:https://hub.docker.com/r/cloudera/quickstart/前提条件:机器已安装好docker1、执行以下命令,获取docker版hadoop:docker pull cloudera/quickstart:latest2、启动Hadoop:docker run --privileged=true --hostname=quickstart.cloudera -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 5007原创 2020-07-16 09:18:16 · 630 阅读 · 0 评论 -
HDFS扩容操作
hdfs扩容操作1、df查看需要挂载的硬盘目录2、 在分区的挂载目录[/data]下新建子目录/dfs/dn,执行命令:mkdir -p /data/dfs/dn3、 修改dn目录的权限:chown -R hdfs:hadoop /data/dfs/dn这样hdfs才能使用该目录(每一个分区都要新建/dfs/dn)4、登录cloudera manager管理界面...原创 2020-01-01 09:25:32 · 422 阅读 · 0 评论 -
CDH中启用Spark Thrift
1.文档编写目的CDH 自带的Spark 不支持Spark Thrift,因为spark-assembly jar...转载 2019-12-05 22:39:13 · 607 阅读 · 0 评论 -
Cloudera Manager安装Kafka集群
一、前提条件和环境1、环境:CDH5.16.x|Centos7.x|scala 2.112、CM和CDH环境已经搭建完成。在CDH上集成Kafka,要求用CDH上的Zookeeper管理Kafka。二、相关软件下载cloudera官网kafka:https://docs.cloudera.com/documentation/kafka/latest/topics/kafka_p...原创 2019-11-26 22:58:45 · 2119 阅读 · 0 评论 -
离线环境下安装Cloudera Manager和CDH 5.16.2版本
第一部分 准备工作:系统环境搭建三台centos7.2的服务器,63为主节点如下:172.20.122.67 bigdata001172.20.122.63 bigdata002172.20.122.68 bigdata003以下操作均用root用户操作配置host(所有节点)/etc/hosts172.20.122.67 bigdata001172.20.122.6...原创 2019-10-18 10:21:39 · 2252 阅读 · 2 评论 -
hbase和hive数据同步
首先,我们在hbase中创建一张表create 'user_sysc', {NAME => 'info'}然后,我们在hive中执行[root@bd-130 ~]# beeline -u 'jdbc:hive2://192.168.128.130:10000/default' -n hive -p hiveCREATE EXTERNAL TABLE user_...原创 2019-03-29 08:29:26 · 2188 阅读 · 0 评论 -
Impala和hive数据同步
[root@bd-130 ~]# beeline -u 'jdbc:hive2://192.X.X.X:10000/default' -n hive -p hive首先,我们在hive命令行执行show databases;可以看到有以下几个数据库:然后,我们在impala同样执行show databases;可以看到:目前的数据库都是一样的(除系统外)。下...原创 2019-03-28 14:57:39 · 3349 阅读 · 0 评论 -
Mapreduce生成Hfile文件,加载到hbase问题汇总
Hfile在hbase表中的底层数据形式:默认default下面1、Can't get master address from ZooKeeper; znode data == nullhbase(main):001:0> listTABLE ...原创 2019-03-28 14:50:26 · 2327 阅读 · 0 评论 -
Hive表级血缘分析java demo
表级血缘分析import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.LinkedHashMap;import java.util.Map;import java.util.Stack;import java.util.TreeSe...原创 2019-03-28 14:49:31 · 2350 阅读 · 0 评论 -
Hbase自带工具
运行调试工具:1、Canary检测HBase系统状态的工具,检测粒度可以是列族、Region或Region Server等hbase org.apache.hadoop.hbase.tool.Canaryhbase org.apache.hadoop.hbase.tool.Canary<tablename>...2、hbck用于检查HBase...原创 2019-03-28 14:50:48 · 909 阅读 · 0 评论 -
Cloudera CCA131培训考试要点
培训课程官方文档:https://www.cloudera.com/documentation/enterprise/latest/topics/admin_rm.htmlcloudera 管理cloudera 分析(pig,impala,hive)cloudera 开发cloudera hbase常用组件Avro 通用的数据存储格式(行级)Flume 采集(...原创 2019-04-25 10:45:47 · 2900 阅读 · 2 评论 -
Java Spark读取Hbase数据,将结果写入HDFS文件
环境:Hadoop2.6,Spark2.1, jdk1.8注意:hadoop集群启用了kerberos认证,不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求:读取Hbase表zyl_user,按年龄降序将对应的人进行排序输出到HDFS上。数据表zyl_user如下:hbase(main):002:0> scan 'zyl_user'ROW ...原创 2019-06-07 12:52:02 · 6513 阅读 · 0 评论 -
Hive insert方式小文件合并问题
CREATE EXTERNAL TABLE `hbase_test_3`(`id` int,`last_name` string,`f...原创 2019-03-28 14:52:42 · 3051 阅读 · 0 评论 -
TPC-DS测试
TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集一、安装TPC-DS工...原创 2019-03-28 14:52:16 · 5945 阅读 · 1 评论 -
Hive on Spark操作
https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.htmlConfiguring the Hive Dependency on a Spark ServiceBy default, if a Spark service is available, the Hive dependen...原创 2019-03-29 15:49:28 · 2242 阅读 · 0 评论 -
HDFS文件加载到Hive中
本地文件加载到hive表1.在hxl数据库下创建表hive>create table tb_emp_info(id int,name string,age int,tel string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '|'STORED AS TEXTFILE;OKTime taken: 0.29...原创 2019-03-29 15:50:19 · 5955 阅读 · 2 评论 -
Java远程提交YARN MapReduce任务
YARN是可以通过Java程序向hadoop集群提交MapReduce任务的。与普通的任务不同的是,远程提交的Job由于读不到服务器上的mapred-site.xml和yarn-site.xml。这样在本地eclipse中运行的程序是以yarn模式(而不是以local模式运行)运行,可在yarn的监控界面监控到任务的运行状态;package org.apache.hadoop.examp...原创 2019-03-29 15:55:27 · 1593 阅读 · 0 评论 -
Eclipse中开发MapReduce程序步骤
开发环境上是否能运行MapReduce(使用自带的hadoop-examples.jar):hadoop jar ./hadoop-examples.jar pi 10 10000开发前提:一般我们写的mapreduce主程序放在客户端机器上,执行任务时是在集群机器上,所以要将变量从主程序传递到我们自己写的map或者reduce函数中就不能使用全局变量,因为map和reduce函...原创 2019-04-01 08:52:10 · 739 阅读 · 0 评论 -
HIVE到Greenplum数据导入技术
1.启动gpfdist服务:相关参数/usr/local/greenplum-db/bin/gpfdist -d /home/gpadmin/data -p 8787 -l /home/gpadmin/data/interdir/gplog/gpfdist_8787.log-d:存放外部表的目录-p:端口号-l:日志文件2.gpfdist服务的验证:使用jobs命令...原创 2019-04-01 08:52:00 · 4292 阅读 · 2 评论 -
hbase主从同步
如下是hbase的replication验证,测试版本hbase-0.98.6-cdh5.3.3.总体来说可以满足主从间的相互复制.详细描述见下:情况一:主hbase里有表scores分别同步到从hbase1、hbase2的表scores(同步主hbase 102里的表scores到从hbase集群103、104的scores)add_peer '4','19...原创 2019-04-01 08:51:48 · 1473 阅读 · 0 评论 -
CM中postgresql内嵌库表client_config数据过大,如何释放
1、service cloudera-scm-server stop;create table client_configs2 as select * from client_configs;ALTER TABLE ONLY client_configs2 ADD CONSTRAINT client_configs_pkey2 PRIMARY KEY (client_config...原创 2019-03-26 21:22:39 · 323 阅读 · 0 评论 -
CDH版本Flume的数据采集Demo
DEMO:将mysql中的数据采集到HDFS上面1、在CM界面中添加角色:2、增加配置agent.channels.ch1.type = memoryagent.sources.sql-source.channels = ch1agent.channels = ch1agent.sinks = HDFSagent.sources = sql-...原创 2019-03-27 08:46:56 · 2310 阅读 · 0 评论 -
hadoop权限操作
新增用户:useradd zyl1一、将新建用户zyl1赋予hdfs用户权限执行查询hdfs没有权限:Permission deniedgroups hbase (查看用户所属组)[root@cdh129130 ~]# hadoop fs -ls /hbasels: Permission denied: user=zyl1, access=READ_EXE...原创 2019-03-27 09:06:45 · 3610 阅读 · 0 评论 -
java认证Kerberos主动登录
一、hive主动登录// 设置jvm启动时krb5的读取路径参数System.setProperty("java.security.krb5.conf", propertie.getProperty("kerberos.krb5.path"));if(configuration == null){configuration = new Con...原创 2019-03-27 09:08:24 · 5983 阅读 · 0 评论 -
HDFS ACL权限控制
默认umask是022,即目录是755,文件644hdfs acl权限生效的算法规则(1)如果是owner,则取owner的权限(2)如果针对用户设置了ACL,则用户的ACL生效(3)如果用户在组里,则取各组ACL的并集(4)其他情况,取other的权限(5)default权限:设置default之后,对新添加的文件和目录生效,对于现有的文件和目录不生效。如:目录...原创 2019-03-29 08:29:46 · 813 阅读 · 0 评论 -
HDFS benchmark 基准测试
一. Hadoop基准测试Hadoop自带了几个基准测试,被打包在几个jar包中。本文主要是cloudera版本测试[root@bd129118 hadoop-0.20-mapreduce]# ls /opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/hadoop* | egrep "examples|test"...原创 2019-03-28 14:53:49 · 814 阅读 · 0 评论 -
hdfs备份操作
allowSnapshot: Access denied for user root. Superuser privilege is required切换成hdfs用户,执行hdfs dfsadmin -allowSnapshot hdfs目录查询该目录是否可以备份;-bash-4.1$ hdfs dfsadmin -allowSnapshot /user/qxmAllowi...原创 2019-03-29 15:45:29 · 1216 阅读 · 0 评论