![](https://img-blog.csdnimg.cn/20190717210828367.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据学习之路
文章平均质量分 68
记录学习过程中的点点滴滴,为后来者铺路
天一涯
希望每天都有新收获~
展开
-
phoenix中删除表映射(保留hbase中的数据)
1删除Phoenix上的映射表,demo是我的表名DELETE from SYSTEM.CATALOG where TABLE_NAME ='demo';2删除hbase中phoenix的表描述打开hbase shell,依次执行以下命令:disable 'demo'alter 'demo',METHOD=>'table_att_unset',NAME=>'coprocessor$1'alter 'demo',METHOD=>'table_att_unset',NA原创 2021-04-20 18:52:12 · 1121 阅读 · 0 评论 -
phoenix upsert 插入大量数据时的异常
使用phoenix upsert 插入大量数据时出现异常:java.sql.SQLException: ERROR 730 (LIM02): MutationState size is bigger than maximum allowed number of bytes具体报错:解决方法:主要修改三个参数配置:phoenix.mutate.batchSize:执行过程中被批处理并自动提交的行数,调大此参数phoenix.mutate.maxSize :客户端批处理的最.转载 2021-04-19 20:10:19 · 1531 阅读 · 0 评论 -
Phoenix各个属性的含义
Phoenix各个参数的含义及设置:属性名称 属性描述 默认值 phoenix.query.timeoutMs 查询超时时间,默认为10分钟,单位:毫秒 600000 phoenix.query.keepAliveMs 当客户端的线程超过线程池的核心线程数量时,空闲线程等等待任务的默认时间。超过这个时间,空闲线程就会关闭,默认是60s 60000 phoenix.query.threadPoolSize 客户端线程池的线程数量,当集群扩大时,这个数.转载 2021-04-19 20:05:56 · 850 阅读 · 0 评论 -
hbase目录结构及元数据修复
最近知识星球有人问浪尖,自己的hbase集群元数据丢失了,但是数据还在,是否能够修复,其实这种情况下利用数据的hfile去修复元数据很常见,也有很多时候我们是生成hfile加载进hbase。那么他又问了,假设数据也丢失了,或者数据存在大量坏块,是否能进行修复。首先要先修复坏块,一本有副本,假设不是所有数据副本一起损坏,通过清除坏块,修复副本,然后再逆向修复hbase的元数据也是可行的。但是如果清除坏块之后数据丢了,那也可以修复hbase元数据,只是丢了数据而已。HBase中的元数据表中记录了Regi转载 2021-04-16 10:47:19 · 1391 阅读 · 0 评论 -
phoenix使用总结
phoenix映射HBase默认情况下,直接在hbase中创建的表,通过phoenix是查看不到的。如果要在phoenix中操作由hbase创建的表,则需要在phoenix中进行表的映射。映射方式有两种:视图映射和表映射。Phoenix创建的视图映射是【只读】的,所以只能用来做查询,无法通过视图对源数据进行修改等操作。视图映射通过create view创建,例如:create view “test”(empid varchar primary key,“name”.“firstname”原创 2021-04-14 20:07:55 · 1349 阅读 · 0 评论 -
HDFS 副本存放磁盘选择策略详解
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当我们往 HDFS 上写入新的数据块,DataNode 将会使用 volume 选择策略来为这转载 2020-12-17 19:41:10 · 1014 阅读 · 0 评论 -
hdfs配置多块硬盘存储
datanode配置多个数据存储地址,涉及到以下两个配置项dfs.name.dirDetermines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for原创 2020-12-17 19:34:16 · 1076 阅读 · 0 评论 -
HBase原理之LSM Tree
HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,其采用LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache的架构方式保证HBase的查询速度。一、LSM-tree原理LSM-tree起源于1996 年的一篇论文《The Log-Structured Merge-Tree (LSM-Tree)》,现在在 NoSQL 系统里非常常见,基本已经成为必选方案了,本文介绍一下 LSM-tree 的主要思想。LSM原创 2020-09-20 16:47:45 · 820 阅读 · 0 评论 -
spark之Dataset
@InterfaceStability.Stablepublic class Dataset<T>extends Objectimplements scala.Serializabl1)Dataset是面向特定领域的强类型集合2)每个Dataset具有一个称为DataFrame的无类型视图,该视图是Row的Dataset。3)与RDD类似,DataSet包含Transformation和Action两种操作。4)两种创建Dataset的方式:使用SparkSessio.原创 2020-09-15 19:13:06 · 479 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide
https://spark.apache.org/docs/1.6.3/sql-programming-guide.html#sqlSpark SQL中所有功能的入口点是SQLContext类或其派生类。创建SQLContext的方式如下:JavaSparkContext sc = ...; // An existing JavaSparkContext.SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);..原创 2020-08-26 21:09:30 · 291 阅读 · 0 评论 -
CDH问题处理
现象:CDH所有服务报异常,HDFS提示存储空间为0;在CDH管理界面中能够看到集群中所有的主机,但是主机的信息看不到。处理过程:1)试图重启agent,但是所有的DataNode都提示agent正在运行2)jps查看进程发现根本没有java进程在运行3)运行cloudera-scm-agent status显示进程已死,但PID文件仍存4)通过在cloudera-scm-agent脚本中输出PID文件名字,定位到PID文件5)可以发现PID文件是个空文件,将PID文件删除6)启原创 2020-08-15 23:09:17 · 2116 阅读 · 0 评论 -
HBase过滤器Filter总结
一、HBase的scan可通过setStartRow、setStopRow对rowkey范围进行过滤二、HBase中的get、scan都支持过滤器,过滤器在服务端生效,这样可以保证被过滤掉的数据不会被传送到客户端,从而提高了代码运行的效率。三、过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,hbase中过滤器分类:1、RowFilter说明:筛选出匹配的所有的行,支持基于行键过滤数据,可以执行精确匹配,子字符串匹配或正则表达式匹配,过滤掉不匹配的数据。用法:使用Binary原创 2020-06-13 13:06:38 · 3874 阅读 · 1 评论 -
HBASE性能调优
一、服务端调优1、参数配置1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.hregion.max.filesize :配置region大小,0.94.12版本默认是10G,region的大...转载 2020-05-09 11:40:49 · 1154 阅读 · 0 评论 -
大数据系列的默认端口(hbase,hadoop,hived等)
组件Daemon端口配置说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输50075dfs.datanode.http.addresshttp服务的端口50475dfs.datanode.https.addresshttps服务的端口50020dfs.datan...转载 2020-04-19 20:32:20 · 1984 阅读 · 0 评论 -
CDH管理界面查看各组件的版本
安装好的CDH如果查看hive的版本呢,1、官网2、管理界面中官网查看一般看到的都是CDH系统默认自带的版本,如果你的CDH在运行的过程中升级过,那再参考官网的版本就会出现错误。参考:http://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo_55x.html#co...原创 2020-02-24 20:27:11 · 5573 阅读 · 0 评论 -
CDH jar包路径
/opt/cloudera-manager/cm-5.9.2/share/cmf/common_jars原创 2020-02-24 20:27:34 · 2176 阅读 · 0 评论 -
Maven项目中引入CDH jar包
我们使用maven时,一般会将中央仓库配置为阿里云的镜像,但是项目中用到的CDH相关的jar包并不存在于该中央仓库中。1、CDH的中央仓库CDH提供了中央仓库,官方文档参考:https://docs.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.html2、官方给了两种项目中...原创 2020-02-19 10:24:23 · 2270 阅读 · 0 评论 -
MapReduce作业运行流程
基本概念MapReduce采用了Master/Slave架构,包括一个Master和若干个Slave,Master上运行JobTracker,Slave运行TaskTrackerJobTracker:初始化作业,分配作业,TaskTracker与其进行通信,协调监控整个作业TaskTracker:定期与JobTracker通信,执行Map和Reduce任务HDFS:保存作业的数据、配置、j...原创 2020-02-18 10:42:46 · 1542 阅读 · 0 评论