大数据
文章平均质量分 50
果木
这个作者很懒,什么都没留下…
展开
-
elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决
elasticsearch6升级7后hive映射表报错es hadoop illegal argument canot detect es version 问题解决原创 2022-08-08 11:48:48 · 983 阅读 · 1 评论 -
Hadoop集群kerbros认证取消主机未kdestory flink sql 写hive问题
flink kerberos kdestroy原创 2022-06-10 17:09:37 · 444 阅读 · 0 评论 -
mongodb入门-mongod的坑
拉链表mongodbmongobooster1 日期格式 按日期范围统计时 时分秒需带上2 avg 函数 与其他大部分一样3 group by原创 2021-03-02 17:27:36 · 209 阅读 · 0 评论 -
Hive Ha配置手把手详解-基于zookeeper配置cdh集群的HiveServer2负载均衡
1.1 修改代理token的存储实现类修改为org.apache.hadoop.hive.thrift.DBTokenStore1.2 增加HiveServer2 实例1.3 在配置中搜索到 hive-site.xml 的 HiveServer2 高级配置代码段(安全阀)配置如下两项<!--默认为false,配置为true HiveServer2会动态分配客户端--><property><name>hive.server2.support.dy原创 2021-03-01 11:08:53 · 2007 阅读 · 2 评论 -
Hive HA配置手把手详解-基于Haproxy配置cdh集群的HiveServer2负载均衡
背景需求hive 在离线分析,数仓中是最常用的工具,业务人员不需要熟悉mr,编程基础就可以通过sql操作数据。hive 的性能及稳定性在生产中必须保证。hive可以通过HAPROXY进行多节点负载均衡来达到目的。前提环境准备可用的基于cdh搭建的hadoop集群,并且Hdfs 、yarn、hive等安装完毕可用,cloudera manager可用进入hive服务配置,添加两个及以上的hive metastore和serveryum -y install ha...原创 2021-02-26 17:08:28 · 1586 阅读 · 2 评论 -
Zookeeper应用原理入门
转载自https://zhuanlan.zhihu.com/p/69114539?utm_source=wechat_session很多中间件,比如Kafka、Hadoop、HBase,都用到了 Zookeeper,于是很多人就会去了解这个 Zookeeper 到底是什么,为什么它在分布式系统里有着如此无可替代的地位。在踩了很多坑之后,我决定来回答下这个问题。其实学任何一项技术,首先都要弄明白,为什么需要这项技术。为什么需要 Zookeeper正经点来回答,就是我们需要一个用起来像单机但转载 2021-02-22 11:54:00 · 265 阅读 · 0 评论 -
spark submit 指定资源池-CDH Hadoop集群运维记录
spark-submit --master yarn --class com.bcht.application.FlowCountMinStreamingWenShan \--jars $SPARK_HOME/mysql-connector-java-8.0.20.jar --driver-memory 512M --driver-cores 1 --executor-memory 512M --executor-cores 1 --num-executors 1 \--queue root.us.原创 2021-02-19 14:55:39 · 569 阅读 · 0 评论 -
一种基于shell的实时流处理任务的监控重启程序-spark streaming job on yarn
#!/bin/bashrunning_app=`yarn application -list -appStates RUNNING 2>/dev/null | grep application_ |grep 5min | awk '{print $1}'`echo running_app=$running_appif [[ ! -n "$running_app" ]]; then echo "app is not running" spark-submit --...原创 2021-02-18 17:03:22 · 423 阅读 · 4 评论 -
CDH Hadoop集群运维记录-日常问题一
service cloudera-scm-agent restart 重启过一会再刷新看cm集群的状态若出现时钟偏差问题首先 service ntpd stop 手工更新一次 ntpdate –d nn1(一般是集群的nn1节点) service ntpd start 最后Service cloudera-scm-agent restart问题解决:...原创 2021-02-18 16:18:09 · 238 阅读 · 0 评论 -
greenplum(六) 现场常见由业务导致的故障
1 应用侧发现执行调度时出现连接重置,需重新连接数据库的问题问题现象:问题代码:select c.bcyc_id,c.acyc_id,c.eparchy_code, c.city_code, 'E0_001_01', count(distinct c.user_id) , coalesce( (select coun...原创 2018-06-30 10:16:02 · 2609 阅读 · 0 评论 -
greenplum(五) greenplum开发笔记之建表规范
背景:某运营商经分分析系统 底层数据仓库; 离线分析系统 物理模型表 表多批量操作 批量插入、更新 ,truncate操作,全表分组分析等。1 非分区表 ,建表样例语句:--drop table dwctr.tc_term_xxx;create table dwctr.tc_term_xxx( acyc_id integer not null ...原创 2018-04-17 16:20:21 · 4845 阅读 · 0 评论 -
greenplum(四)greenplum 常用数据库管理语句,sql工具
原文地址:https://blog.csdn.net/you_xian/article/details/78549756在greenplum 使用过程中积累的一些常用查询语句,整理出来备忘。欢迎各位留言补充。都是SQL命令以及数据字典的使用。熟悉数据字典非常重要。三个重要的schema:pg_catalog,pg_toolkit,information_schema,其中information_s...转载 2018-04-17 14:13:33 · 2532 阅读 · 0 评论 -
greenplum(三) gp工具命令及工具函数语句,持续更新.....
1 命令行导入文本数据到表psql -d bass_gp -h 10.243.4.145 -p 5432 -U dwadm -c "\copy dwtmp.tmp_test(cellid) from /data/22.txt "bass_gp 是数据库名及database名10.243.4.145 ip地址 5432 是端口号dwadm 账号2原创 2018-02-01 21:53:26 · 4445 阅读 · 0 评论 -
greenplum(五) 性能小结记录
greenplum(五) 性能小结记录原创 2017-07-23 17:35:28 · 1557 阅读 · 0 评论 -
Greenplum 数据库 集群安装部署(生产环境) 所需硬件
Greenplum 数据库安装部署(生产环境)硬件配置:16 台 IBM X3650,节点配置:CPU 2 * 8core,内存 128GB,硬盘 16 * 900GB,万兆网卡。万兆交换机。安装需求:1台Master,1台Standby Master,14台Segment计算节点。安装步骤:Master节点安装创建GP安装配置文件并配置ssh互信关闭防火墙及开转载 2017-07-23 17:15:43 · 3730 阅读 · 1 评论