修破立生-CSDN博客

原创基于Python 和 DeepSeek API 实现文本分类

本文介绍使用 Python 结合 DeepSeek API 实现文本分类的技术博客。先阐述代码实现文本分类的功能，包括创建 DeepSeek 类、classifier 函数及 main 函数的运作。详细分析代码各部分，还探讨利用大模型进行文本分类，对比传统方法在特征工程、数据需求等方面的差异，总结该方法简单易用，却需注意 API 费用与提示优化。

2025-03-05 17:21:42 1772

原创 Milvus 数据批量导入实战：Python代码解析

在数据安全要求高或网络受限的离线场景下，如金融、科研机构内部，常需进行安全的数据迁移。本文介绍用 Python 向 Milvus 数据库批量导入数据的方法。通过导入sys等库，解析命令行参数获取关键信息，定义函数将数据列表转为DataFrame后插入集合。为使用者提供了在离线及其他场景下，利用 Python 和 Milvus 实现高效数据存储与管理的实用指导。

2025-03-05 15:46:53 1514

原创 Milvus 数据批量导出实战：Python 代码解析

由于 Milvus 在单次查询中所能返回的数据量存在固有约束，当处理数据量庞大的 Collection 时，需采用多次查询的策略。本文详细阐述了如何运用多次查询的方式，将 Milvus 中的数据进行分批导出，以有效应对数据量过大带来的挑战。

2025-03-04 16:50:56 1156

原创从 Milvus 中导出数据到 JSON 文件的实践

如何导出Milvus Collection的数据到json文件

2025-03-04 16:33:02 1221

原创 ElasticSearch dense_vector向量查询-Java实现

本文介绍如何使用ElasticSearch的Java High Level API执行向量查询，向量类型为dense_vector。

2023-05-31 19:53:50 2433

原创 ElasticSearch dense_vector向量写入-Java实现

本文介绍了如何使用Java High level API 完成dense_vector类型向量的写入，内容包含了单个文档的索引和批量文档的索引。

2023-05-31 19:30:36 1549

原创对话ChatGPT，大模型时代到来

本文记录了作者与ChatGPT关于大模型时代的对话，并简单测试了ChatGPT在歌曲作词方面的能力。

2023-05-20 09:27:23 2242

原创 SeaweedFS学习笔记：服务自启动

SeaweedFS官方仅提供了一个可以执行的weed程序包，如果希望实现SeaweedFS相关服务在主机启动的时候跟随启动的话，则需要做额外的配置。SeaweedFS相关服务的自启动在Linux可通过systemd来实现。

2023-05-17 22:00:00 1532

原创 SeaweedFS学习笔记：Benchmark性能测试工具

本文介绍了SeaweedFS的性能测试工具Benchmark的用法以及例子

2023-05-12 08:30:00 1519

原创 SeaweedFS学习笔记：Nginx配置Filer负载均衡

本文介绍如何通过配置Nginx实现SeaweedFS Filer服务的负载均衡

2023-05-12 07:00:00 744

原创 SeaweedFS学习笔记：S3-API

本文介绍了SeaweedFS兼容AWS S3 API的实现机制以及使用案例

2023-05-11 20:00:00 3976

原创 SeaweedFS学习笔记：Volume 管理

本文介绍了SeaweedFS Volume的修复和重平衡，以及如何通过脚本的方式定时执行修复和重平衡的操作

2023-05-11 07:00:00 1889

原创 SeaweedFS学习笔记：调优

本文从磁盘、内存、CPU、索引、并发等方面介绍了SeaweedFS的调优手段

2023-05-10 20:00:00 1661

原创 SeaweedFS学习笔记：Master server的故障转移

本文介绍了SeaweedFS Master服务的故障转移机制

2023-05-10 08:00:00 400

原创 SeaweedFS学习笔记：TTL 配置数据存活时间

本文介绍通过TTL配置数据存活时间，以及数据过期后的处理机制

2023-05-09 19:00:00 1534

原创 SeaweedFS学习笔记：Replication（复制）

在SeaweedFS中，所有写入请求都是强一致性的，所有的副本写成功才算成功。只要有其中一个副本写失败，则正写入请求都是失败的。这使得读请求非常的快。SeaweedFS的存储层可以支持Replication，但不是以文件为粒度，而是以Volume为粒度来进行。x,y,z的取值可以为0,1,2。每一种复制类型会产生的volume副本数是 x+y+z+1。修改完之后，与复制类型不匹配的volume会变成只读的状态，执行。命令可使这些volume的副本数与复制类型一致。: 指定datacenter。

2023-05-09 08:00:00 1236

原创 SeaweedFS学习笔记：Filer服务，目录与文件

本文介绍了SeaweedFS Filer服务基本用法，启动命令，读写流程，Filer Store以及数据加密

2023-05-08 19:00:00 3559

原创 SeaweedFS学习笔记：架构和快速入门

本文介绍了SeaweedFS的架构，主要组件，以及快速入门的操作案例

2023-05-08 08:00:00 1938

原创 Apache Doris 系列：自动分桶(Auto Bucket)

本来介绍了分桶不规范，分桶数过多和过少带来的问题；分桶数规范的建议；以及自动分桶功能的使用。

2023-03-29 15:59:05 1339

原创 Apache DophinScheduler 定时调度Python脚本

本文通过定时调度Python的例子演示了Apache DophinScheduler 的基本操作：* 创建租户* 指定用户的租户* 创建Python环境* 创建项目* 创建工作流* 上线项目* 设置调度时间* 上线定时管理* 查看日志

2023-03-20 16:51:11 1034

原创 Apache DophinScheduler Standalone（单机）模式部署

本文介绍Apache DolpinScheduler Standalone 的部署流程Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

2023-03-17 17:45:13 2023

原创 Flink SQL 性能优化记录

在处理流式数据时， Flink SQL的ROW_NUMBER，Group by等操作会产生大量的回撤数据，对下游的算子产生巨大的压力，下游算子处理不过来便会产生反压，造成延迟。如下图，前面两个SQL算子产生的回撤流，给下游的KeyedProcess和Sink算子带来的巨大的压力。

2023-03-13 15:00:49 1219

原创 Flink SQL UDF自定义函数collect_list实现及其泛型化

Flink SQL1.10 没有collect_list函数，可以通过自定义函数的方式实现。文章最后介绍自定义函数的泛型化。

2023-02-23 18:49:13 1561

原创 Flink SQL使用Row_number去重是否会导致状态无限增长

在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景，那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长？Flink SQL使用Row_number去重时，状态中只会保留最新的1或者n条数据，单个主键的状态不会无限增长。观察一段时间，发现状态的大小稳定在186KB，不再增长。状态只保留了最新的2000条数据。接下来，通过以下实验观察状态的增长来解答以上的问题。

2023-02-23 17:02:44 1454 1

原创 Apache Doris 系列：Bucket(分桶)数量设置建议

Apache Doris集群上线运行一段时间后，随着越来越多的数据增长，集群每次重启后一周左右，读写就会开始变得越来越慢，直到无法正常进行读写。注：表的数据量可以通过 SHOW DATA。命令查看，结果除以副本数，即表的数据量。

2023-02-09 10:26:46 3007

原创 Flink官方例子解析：带窗口的WordCount

本篇介绍的是带窗口的WordCount，使用窗口函数countWindow。countWindow是一种计数窗口，有固定窗口和滑动窗口两种用法。学习更多Flink的相关知识。

2023-02-01 18:11:02 676

原创 Flink官方例子解析：WordCount

今天介绍的是官方子项目flink-examples-streaming里面的WordCount例子。WordCount ，中文：单词统计，是大数据计算常用的例子。

2023-01-31 17:40:39 2282

原创 Flink官方例子解析：工具类CLI

CLI(org.apache.flink.streaming.examples.wordcount.util.CLI) 这个工具类在官方的大多数例子中都会使用到，因此本文先对这个类进行介绍。这个类比较简单，主要用于封装传入的参数，如–input, --output。

2023-01-30 16:10:32 484

原创 Flink官方例子解析：Flink源码子项目flink-examples

本文介绍了Flink官方demo代码的获取方法

2023-01-30 14:58:40 1607

原创 Apache Doris 系列：基础篇-使用BitMap函数精准去重（2）

Apache Doris 原有的BitMap函数虽然比较通用，但在亿级别的BitMap大基数并交计算性能较差，解决方案：将bitmap列的值按照范围划分，不同范围的值存储在不同的bucket上，确保在不同bucket的bitmap值是正交的。在查询的时候，先对不同bucket的bitmap值完成聚合计算，上层的FE节点只需合并聚合过的数据并输出即可。如此会极大的改善计算效率，和解决FE节点成为计算瓶颈的问题。

2023-01-28 16:55:40 2387

原创 Apache Doris 系列：基础篇-使用BitMap函数精准去重（1）

本文介绍了使用BitMap函数进行精准去重，以及其局限

2023-01-14 11:40:28 2969

原创 Apache Doris 系列：基础篇-BitMap索引

本文基于SSB测试数据创建BitMap索引，对比索引创建前后的性能，并给出使用的建议

2023-01-13 16:15:05 2004

原创 Apache Doris 系列：基础篇-清理垃圾数据

简单介绍垃圾数据产生的原因，以及垃圾数据的清理方法

2023-01-13 16:03:18 2245

原创 Apache Doris 系列：基础篇-单独更新一列

本文举例说明Apache Doris如何实现单独更新一列，数据表使用 Aggregate 聚合模型。需要更新的字段使用关键字REPLACE_IF_NOT_NULL。

2023-01-10 15:59:03 2558 3

原创使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris

使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris, Apache Doris使用唯一模型，实现更新/删除操作

2023-01-07 14:11:48 2026 1

原创 Apache Doris 系列：基础篇-创建动态分区表

Apache Doris 系列：基础篇-创建动态分区表

2022-11-15 20:47:05 2335

原创 Spark SQL 使用 GROUPING SETS 替代 UNION ALL

使用 GROUPING SETS 实现维度的分组聚合计算

2022-09-27 21:29:56 1563

原创 Apache Doris 系列：基础篇-Flink SQL写入Doris

本文介绍 Flink SQL如何流式写入 Apache Doris

2022-09-22 22:38:35 5706 7

原创 Apache Doris 系列：基础篇-Flink DataStream 读写Doris

本来介绍Flink Doris connector 通过 DataStream API 读写 Apache Doris

2022-09-18 19:13:41 3727 1

原创 Apache Doris 系列：基础篇-Routine Load

Routine Load 支持用户提交一个常驻的导入任务，通过不断的从指定的数据源读取数据，将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式，从 Kakfa 导入 CSV 或 Json 格式的数据。接下来通过一个案例介绍 Routine Load 的使用。部署单节点Kafka准备测试数据并导入kafka导入数据到 Doris。

2022-09-17 17:40:30 2444

小文件存储SeaweedFS技术指南

该文档包含以下内容： 1. SeaweedFS的架构和组件说明 2. SeaweedFS Master API 3. SeaweedFS Volume API 4. SeaweedFS Filer API 5. SeaweedFS的配置 6. SeaweedFS S3 API 7. SeaweedFS 与大数据Hadoop,Spark,Hbase,Presto的集成 8. SeaweedFS的复制和备份 9. 安全 10. 高级使用 11. 维护该文档为英文版，如需中文版的笔记欢迎与博主联系。

2023-05-06

大数据Spark面试题汇总

大数据Spark面试题汇总，共有79道面试题以及题目的解答部分题目如下： 1. spark 的有几种部署模式，每种模式特点？ 2. Spark 为什么比 mapreduce 快？ 3. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异？ 5. spark 的优化怎么做？ 6. 数据本地性是在哪个环节确定的？ 7. RDD 的弹性表现在哪几点？ 8. RDD 有哪些缺陷？ 9. Spark 的 shuffle 过程？ 10. Spark 的数据本地性有哪几种？ 11. Spark 为什么要持久化，一般什么场景下要进行 persist 操作？ 12. 介绍一下 join 操作优化经验？ 13. 描述 Yarn 执行一个任务的过程？ 14. Spark on Yarn 模式有哪些优点？ 15. 谈谈你对 container 的理解？ 16. Spark 使用 parquet 文件存储格式能带来哪些好处？ 17. 介绍 parition 和 block 有什么关联关系？ 18. Spark 应用程序的执行过程是什么？

2023-04-12

SeaweedFS 架构说明文档英文版

文档对SeaweedFS的架构进行了介绍，包括： Blob Storage File Storage Remote Storage Cache FUSE Mount Object Storage Hadoop Compatable File System APIs Replication and Backup Administration Security

2023-04-08

draw.io画图工具 diagrams

支持UML、流程图、ER图等 windows版本，免安装 visio竞品

2022-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人