- 博客(113)
- 资源 (1)
- 收藏
- 关注
原创 ElasticSearch dense_vector向量查询-Java实现
本文介绍如何使用ElasticSearch的Java High Level API执行向量查询,向量类型为dense_vector。
2023-05-31 19:53:50 1816
原创 ElasticSearch dense_vector向量写入-Java实现
本文介绍了如何使用Java High level API 完成dense_vector类型向量的写入,内容包含了单个文档的索引和批量文档的索引。
2023-05-31 19:30:36 1074
原创 SeaweedFS学习笔记:服务自启动
SeaweedFS官方仅提供了一个可以执行的weed程序包, 如果希望实现SeaweedFS相关服务在主机启动的时候跟随启动的话,则需要做额外的配置。SeaweedFS相关服务的自启动在Linux可通过systemd来实现。
2023-05-17 22:00:00 1084
原创 SeaweedFS学习笔记:Volume 管理
本文介绍了SeaweedFS Volume的修复和重平衡,以及如何通过脚本的方式定时执行修复和重平衡的操作
2023-05-11 07:00:00 1193
原创 SeaweedFS学习笔记:Replication(复制)
在SeaweedFS中, 所有写入请求都是强一致性的,所有的副本写成功才算成功。只要有其中一个副本写失败,则正写入请求都是失败的。这使得读请求非常的快。SeaweedFS的存储层可以支持Replication,但不是以文件为粒度,而是以Volume为粒度来进行。x,y,z的取值可以为0,1,2。每一种复制类型会产生的volume副本数是 x+y+z+1。修改完之后,与复制类型不匹配的volume会变成只读的状态,执行。命令可使这些volume的副本数与复制类型一致。: 指定datacenter。
2023-05-09 08:00:00 757
原创 SeaweedFS学习笔记:Filer服务,目录与文件
本文介绍了SeaweedFS Filer服务基本用法,启动命令,读写流程,Filer Store以及数据加密
2023-05-08 19:00:00 2170
原创 Apache Doris 系列: 自动分桶(Auto Bucket)
本来介绍了分桶不规范,分桶数过多和过少带来的问题;分桶数规范的建议;以及自动分桶功能的使用。
2023-03-29 15:59:05 798
原创 Apache DophinScheduler 定时调度Python脚本
本文通过定时调度Python的例子演示了Apache DophinScheduler 的基本操作:* 创建租户* 指定用户的租户* 创建Python环境* 创建项目* 创建工作流* 上线项目* 设置调度时间* 上线定时管理* 查看日志
2023-03-20 16:51:11 784
原创 Apache DophinScheduler Standalone(单机)模式部署
本文介绍Apache DolpinScheduler Standalone 的部署流程Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
2023-03-17 17:45:13 1767
原创 Flink SQL 性能优化记录
在处理流式数据时, Flink SQL的ROW_NUMBER,Group by等操作会产生大量的回撤数据,对下游的算子产生巨大的压力,下游算子处理不过来便会产生反压,造成延迟。如下图,前面两个SQL算子产生的回撤流,给下游的KeyedProcess和Sink算子带来的巨大的压力。
2023-03-13 15:00:49 803
原创 Flink SQL UDF自定义函数collect_list实现及其泛型化
Flink SQL1.10 没有collect_list函数,可以通过自定义函数的方式实现。文章最后介绍自定义函数的泛型化。
2023-02-23 18:49:13 1128
原创 Flink SQL使用Row_number去重是否会导致状态无限增长
在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景,那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长?Flink SQL使用Row_number去重时,状态中只会保留最新的1或者n条数据,单个主键的状态不会无限增长。观察一段时间, 发现状态的大小稳定在186KB, 不再增长。状态只保留了最新的2000条数据。接下来,通过以下实验观察状态的增长来解答以上的问题。
2023-02-23 17:02:44 945
原创 Apache Doris 系列:Bucket(分桶)数量设置建议
Apache Doris集群上线运行一段时间后,随着越来越多的数据增长,集群每次重启后一周左右,读写就会开始变得越来越慢,直到无法正常进行读写。注:表的数据量可以通过 SHOW DATA。命令查看,结果除以副本数,即表的数据量。
2023-02-09 10:26:46 2055
原创 Flink官方例子解析:带窗口的WordCount
本篇介绍的是带窗口的WordCount,使用窗口函数countWindow。countWindow是一种计数窗口,有固定窗口和滑动窗口两种用法。学习更多Flink的相关知识。
2023-02-01 18:11:02 529
原创 Flink官方例子解析:WordCount
今天介绍的是官方子项目flink-examples-streaming里面的WordCount例子。WordCount ,中文:单词统计,是大数据计算常用的例子。
2023-01-31 17:40:39 1759
原创 Flink官方例子解析:工具类CLI
CLI(org.apache.flink.streaming.examples.wordcount.util.CLI) 这个工具类在官方的大多数例子中都会使用到, 因此本文先对这个类进行介绍。这个类比较简单,主要用于封装传入的参数,如–input, --output。
2023-01-30 16:10:32 374
原创 Apache Doris 系列: 基础篇-使用BitMap函数精准去重(2)
Apache Doris 原有的BitMap函数虽然比较通用, 但在亿级别的BitMap大基数并交计算性能较差,解决方案:将bitmap列的值按照范围划分,不同范围的值存储在不同的bucket上,确保在不同bucket的bitmap值是正交的。在查询的时候,先对不同bucket的bitmap值完成聚合计算,上层的FE节点只需合并聚合过的数据并输出即可。如此会极大的改善计算效率,和解决FE节点成为计算瓶颈的问题。
2023-01-28 16:55:40 1846
原创 Apache Doris 系列: 基础篇-BitMap索引
本文基于SSB测试数据创建BitMap索引,对比索引创建前后的性能,并给出使用的建议
2023-01-13 16:15:05 1572
原创 Apache Doris 系列: 基础篇-单独更新一列
本文举例说明Apache Doris如何实现单独更新一列,数据表使用 Aggregate 聚合模型。需要更新的字段使用关键字REPLACE_IF_NOT_NULL。
2023-01-10 15:59:03 2101 3
原创 使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris, Apache Doris使用唯一模型,实现更新/删除操作
2023-01-07 14:11:48 1773 1
原创 Apache Doris 系列: 基础篇-Flink SQL写入Doris
本文介绍 Flink SQL如何流式写入 Apache Doris
2022-09-22 22:38:35 4528 7
原创 Apache Doris 系列: 基础篇-Flink DataStream 读写Doris
本来介绍Flink Doris connector 通过 DataStream API 读写 Apache Doris
2022-09-18 19:13:41 3168 1
原创 Apache Doris 系列: 基础篇-Routine Load
Routine Load 支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。接下来通过一个案例介绍 Routine Load 的使用。部署单节点Kafka准备测试数据并导入kafka导入数据到 Doris。
2022-09-17 17:40:30 1926
原创 Apache Doris 系列: 基础篇-JAVA执行Stream Load
Stream Load 的本质是调用 Doris BE 节点的 HTTP API 来实现数据的导入,因为我们可以用JAVA HTTP CLIENT 来实现数据的导入。
2022-09-16 21:38:44 1971
原创 Apache Doris 系列: 基础篇-Stream Load
Stream Load 提供 HTTP API 提交数据导入任务,支持本地数据文件(csv,json)的导入。同步导入保证数据原子性,导入一批数据时,要么全部成功,要么全部失败。
2022-09-15 22:10:18 907
原创 Apache Doris 系列: 基础篇-创建数据表
本文介绍 Doris 怎么创建表及其他的相关操作。连接 Doris部署完成 Doris 之后,可以通过任意 MySQL 客户端来连接 Doris。 mysql -u<username> -P<query_port> -h<FE_IP>注意:这里连接 Doris ,指的是连接 Doris FE,连接的 IP 地址就是 FE 节点 IP 地址,端口是 FE 的 query_port 默认是9030创建数据库使用 root 用户登录,创
2022-09-14 20:39:33 2251
原创 Apache Doris 系列: 基础篇-安装部署
系统准备系统版本Ubuntu系统或者Centos系统皆可, 本文采用Ubuntu 18.04.6 LTS(下载地址:https://releases.ubuntu.com/bionic/)。配置系统参数echo "0" > /proc/sys/vm/swappinessecho "0" > /proc/sys/vm/overcommit_memorysysctl -p修改/etc/security/limits.conf, 在文件末尾追加以下配置* sof
2022-09-13 22:30:25 2168
小文件存储SeaweedFS技术指南
2023-05-06
大数据Spark面试题汇总
2023-04-12
SeaweedFS 架构说明文档 英文版
2023-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人