Yuchen914-CSDN博客

原创 StarRocks导入报错close index channel failed解决方案

Tablet_versions超限问题解决方案报错：ype:LOAD_RUN_FAIL; msg:close index channel failed, load_id=fddba07e-ea0e-41c7-9e27-21cdde73319c原因：导入频率太快，compaction没能及时合并导致版本数过多，默认版本数1000应急解决方案：tablet_max_versions这个条大些可以恢复，默认是1000，但调大会影响查询速率稳妥处理方案：1.增大单次导入数据量，降低频率2

2022-02-17 14:48:27 1815 1

原创关于StarRocks --- REPLACE_IF_NOT_NULL场景

关于REPLACE_IF_NOT_NULL这个聚合类型的含义是当且仅当新导入数据是非NULL值时会发生替换行为，如果新导入的数据是NULL，那么StarRocks仍然会保留原值。注意：如果用在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL，那么StarRocks仍然会将其转化NULL，不会向用户报错。建表示例：create table t1_not_null (inc_date datetime,uid int,v1 string REPLACE_IF_NOT_NUL

2022-02-17 14:42:39 2121

原创 StarRocks：BACKUP/RESTORE操作流程文档

StarRocks中备份恢复操作详解备份与恢复的文档说明地址：https://docs.starrocks.com/zh-cn/main/administration/Backup_and_restore总体流程：先创建云端仓库用于备份与恢复(新老集群都要创建云端仓库,REPOSITORY名字要相同,BROKER Name要查看集群的broker名称)；在老集群准备好需要进行迁移备份的表,Backup到云端仓库；再从云端仓库Restore到新集群。新集群当中不用事先创建好需要备份恢复的表，因为在

2021-12-02 11:08:40 1544 2

原创使用StarRocks遇到的问题汇总 FAQ

日常记录不断更新导入insert into问题:insert的时候报这个错，是什么情况？sql:ssb-flat_insert.flat insert error. Msg: （1064, ‘index channel has intoleralbe failure’）问题截图:解决方式:streaming_load_rpc_max_alive_time_sec=2400tablet_writer_open_rpc_timeout_sec=120be/conf/be.conf 配置中

2021-12-01 10:49:28 9557

原创 StarRocks企业版更换Mysql

StarRocksManager 需要使用 MySQL 来存储管理机器相关信息，包括监控的元信息等，StarRocksManager 会创建一个 database 存储相关信息DorisDBManager使用时，MySQL如果更换，需要进行以下步骤：./centerctl.sh stop allmysql database dump 到新的实例中修改 dorisdb-manager-xxxx/center/conf/ 中的 web.conf center_service.conf 中m

2021-11-23 17:15:32 1109

原创 StarRocks企业版更换Manager所在节点手册

copy ~/.local/lib/python2.7/site-packages/supervisor-4.2.0_dm_xxxxx.egg 到新机器对应目录（xxxxx版本号在dorisdb-manager/center/supervisor/bin/supervisord 文件中可以找到）copy center的dorisdb-manager到新机器上关闭原机器的center所有服务开启新机器的center所有服务即可...

2021-11-23 17:14:05 1054

原创 ClickHouse概述原理及用途

一．概述随着物联网IOT时代的来临，IOT设备感知和报警存储的数据越来越大，有用的价值数据需要数据分析师去分析。大数据分析成了非常重要的环节。当然近两年开启的开源大潮，为大数据分析工程师提供了十分富余的工具。但这同时也增加了开发者选择合适的工具的难度，尤其对于新入行的开发者来说。学习成本，框架的多样化和复杂度成了很大的难题。例如kafka,hdfs,spark,hive 等等组合才能产生最后的分析结果。把各种开源框架、工具、库、平台人工整合到一起所需工作之复杂，是大数据领域开发和数据分析师常有的抱怨之一

2020-12-21 10:50:08 1435

原创大数据Kylin介绍(作用+介绍)

1.Kylin定义Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。2.Kylin特点Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。(1) 标准SQL接口：Kylin是以标准的SQL作为对外服务的接口。(2) 支持超大数据集：Kylin对于大数据的支撑能力可能是目前所有

2020-12-09 19:40:04 2336

原创 CDH简单介绍及体系架构的理解(优点和功能)

1、官网介绍:CDH是Cloudera的100％开源平台发行版，包括Apache Hadoop，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。简单来说：CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件），使得集群的安装可以从几天的时间缩短为几个小时，运维人数也会从数十人降低到几个人，极大的提高了集群管理的效率。2、为什么选择C

2020-11-18 14:55:14 4204

原创 Flink--对parallelism 和 slot的理解

概述parallelism指的是并行度的意思。在 Flink 里面代表每个任务的并行度，适当的提高并行度可以大大提高 job 的执行效率，比如你的 job 消费 kafka 数据过慢，适当调大可能就消费正常了。slot指的是插槽的意思，flink中任务的并行性由每个 Task Manager 上可用的 slot 决定。如何设置flink job的parallelism在flink的配置文件中flink-conf.yaml，默认的并行度为1；在以shell的方式提交flink job的时候，可以使用

2020-11-18 14:16:19 1191

原创 ETL讲解及理论过程概述

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store，操作型数据存储)中——这个过

2020-11-11 09:39:21 1522

Yuchen914的博客