大数据
Yuchen914
毕业于北京理工
展开
-
StarRocks导入报错close index channel failed解决方案
Tablet_versions超限问题解决方案报错:ype:LOAD_RUN_FAIL; msg:close index channel failed, load_id=fddba07e-ea0e-41c7-9e27-21cdde73319c原因:导入频率太快,compaction没能及时合并导致版本数过多,默认版本数1000应急解决方案:tablet_max_versions这个条大些可以恢复 ,默认是1000, 但调大会影响查询速率稳妥处理方案:1.增大单次导入数据量,降低频率2原创 2022-02-17 14:48:27 · 1395 阅读 · 1 评论 -
关于StarRocks --- REPLACE_IF_NOT_NULL场景
关于REPLACE_IF_NOT_NULL这个聚合类型的含义是当且仅当新导入数据是非NULL值时会发生替换行为, 如果新导入的数据是NULL,那么StarRocks仍然会保留原值。 注意:如果用在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL,那么StarRocks仍然会将其转化NULL,不会向用户报错。建表示例:create table t1_not_null (inc_date datetime,uid int,v1 string REPLACE_IF_NOT_NUL原创 2022-02-17 14:42:39 · 1573 阅读 · 0 评论 -
StarRocks:BACKUP/RESTORE操作流程文档
StarRocks中备份恢复操作详解备份与恢复的文档说明地址:https://docs.starrocks.com/zh-cn/main/administration/Backup_and_restore总体流程:先创建云端仓库用于备份与恢复(新老集群都要创建云端仓库,REPOSITORY名字要相同,BROKER Name要查看集群的broker名称);在老集群准备好需要进行迁移备份的表,Backup到云端仓库;再从云端仓库Restore到新集群。新集群当中不用事先创建好需要备份恢复的表,因为在原创 2021-12-02 11:08:40 · 1129 阅读 · 2 评论 -
使用StarRocks遇到的问题汇总 FAQ
日常记录 不断更新导入insert into问题:insert的时候报这个错,是什么情况?sql:ssb-flat_insert.flat insert error. Msg: (1064, ‘index channel has intoleralbe failure’)问题截图:解决方式:streaming_load_rpc_max_alive_time_sec=2400tablet_writer_open_rpc_timeout_sec=120be/conf/be.conf 配置中原创 2021-12-01 10:49:28 · 7301 阅读 · 0 评论 -
StarRocks企业版更换Mysql
StarRocksManager 需要使用 MySQL 来存储管理机器相关信息,包括监控的元信息等,StarRocksManager 会创建一个 database 存储相关信息DorisDBManager使用时,MySQL如果更换,需要进行以下步骤:./centerctl.sh stop allmysql database dump 到新的 实例中修改 dorisdb-manager-xxxx/center/conf/ 中的 web.conf center_service.conf 中m原创 2021-11-23 17:15:32 · 920 阅读 · 0 评论 -
大数据Kylin介绍(作用+介绍)
1.Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。2.Kylin特点Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。(1) 标准SQL接口:Kylin是以标准的SQL作为对外服务的接口。(2) 支持超大数据集:Kylin对于大数据的支撑能力可能是目前所有原创 2020-12-09 19:40:04 · 1959 阅读 · 0 评论 -
CDH简单介绍及体系架构的理解(优点和功能)
1、官网介绍:CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。2、为什么选择C原创 2020-11-18 14:55:14 · 3694 阅读 · 0 评论 -
Flink--对parallelism 和 slot的理解
概述parallelism指的是并行度的意思。在 Flink 里面代表每个任务的并行度,适当的提高并行度可以大大提高 job 的执行效率,比如你的 job 消费 kafka 数据过慢,适当调大可能就消费正常了。slot指的是插槽的意思,flink中任务的并行性由每个 Task Manager 上可用的 slot 决定。如何设置flink job的parallelism在flink的配置文件中flink-conf.yaml,默认的并行度为1;在以shell的方式提交flink job的时候,可以使用原创 2020-11-18 14:16:19 · 1005 阅读 · 0 评论