自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 资源 (1)
  • 收藏
  • 关注

原创 贪心算法介绍(Greedy Algorithm)

贪心算法是一种在每一步选择中都采取当前最优解的策略,以期望构建出全局最优解的算法。它的核心思想是“贪心选择性质”,即在每个决策点上,基于当前信息选择最有利的选项,从而希望通过这些局部最优决策累积成全局最优解。贪心算法的实现通常简单直接,易于编码,且执行效率高,这使得它在需要快速响应的大规模问题中非常有用。贪心算法的关键在于其贪心策略的选择,这通常涉及到对问题结构的深入理解。在某些问题中,贪心算法能够保证找到最优解,特别是当问题具有最优子结构和贪心选择性质时。

2024-08-14 17:08:23 1427

原创 使用Ckman部署ClickHouse集群介绍

ClickHouse Manager是一个为ClickHouse数据库量身定制的管理工具,它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源,开源地址为:github.com/housepower/ckman。它通过提供一个直观的图形用户界面(GUI),极大地简化了数据库的管理和操作。这款工具支持多种功能,包括但不限于SQL查询编辑器、数据可视化、实时监控、性能分析、备份与恢复等。

2024-07-03 16:10:07 979

原创 大模型之-Seq2Seq介绍

Seq2Seq(Sequence to Sequence)模型在文本摘要任务中的应用与其在机器翻译中的应用有很多相似之处。文本摘要的目标是从一个长文本中生成一个简短的、语义上等价的摘要。与机器翻译类似,Seq2Seq模型通过编码器和解码器的组合来实现这个任务。编码器(Encoder)编码器将输入的长文本编码成一个固定长度的上下文向量(Context Vector)。通常使用递归神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)来处理输入文本。

2024-06-20 10:46:54 884

原创 机器学习的分类

机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习并做出决策或预测。机器学习(Machine Learning)是一种基于数据驱动的方法,旨在通过自动化的统计模型和算法从数据中学习和提取模式,以进行预测、分类和决策。其核心思想是通过训练数据构建模型,使其在面对新数据时能够准确进行预测和分类。

2024-06-13 18:32:50 4337

原创 Hudi之数据读写探究

操作类型I/O开销CPU开销写入吞吐量磁盘空间利用内存消耗并发处理能力网络开销INSERT-写入最低几乎无需计算吞吐量较高低低一般低BULK_INSERT-批量写需要更多I/O有一些计算需求吞吐量最高较低较低高低UPSERT-更新或写入最高需要较高的计算资源吞吐量最低高较高低高。

2024-05-29 16:40:09 1308

原创 Hudi之TimeLine(时间轴)原理概念

​ 在Apache Hudi中,TimeLine是指,用于跟踪数据湖Hudi中数据的变化历史。TimeLine是Hudi的核心概念之一,用于管理和维护数据湖Hudi中各个数据集的变化历史。具体来说,TimeLine由一系列时间戳(timestamp)和相关的操作事件(如写入、更新、删除)组成,这些事件按时间顺序排列。每个数据集都有自己的TimeLine,用于记录该数据集的变化历史。​ 通过TimeLine,用户可以追溯数据集的变化历史,了解数据是如何随着时间变化的。

2024-05-20 18:01:22 1076

原创 Nextcloud私有云盘-重新定义云存储体验

​ Nextcloud是一个开源的云存储和协作平台,旨在为个人用户、企业和团队提供安全、隐私保护的数据存储和共享解决方案。它允许您在不同设备之间同步、共享文件,提供了强大的协作工具和应用生态系统。:通过Nextcloud,您可以轻松地在不同设备之间同步和共享文件。无论是照片、视频、文档还是其他文件类型,都可以方便地访问和共享。:Nextcloud致力于保护您的数据安全和隐私。它提供端到端加密功能,确保您的数据在传输和存储过程中始终受到保护。

2024-05-10 17:52:20 3452

原创 Python-FastAPI框架使用介绍

FastAPI 关键特性1. **快速高效**:基于 Starlette 和 Pydantic 构建,具有高性能和低延迟的特点,支持异步处理请求,利用 Python 的协程提高并发性能。2. **简单易用**:使用标准的 Python 类型注解来定义 API 的输入和输出参数,无需编写大量的文档和验证代码。3. **自动生成文档**:通过访问 `/docs` 路径可以查看自动生成的交互式 API 文档,包含了每个端点的详细说明、请求和响应的模型结构以及示例请求和响应。4. **数据验证**:利用

2024-04-16 18:28:20 7896

原创 python多方式操作elasticsearch介绍

​ Elasticsearch DSL(Domain Specific Language 领域特定语言)是 Elasticsearch 官方提供的一个 Python 客户端库,它允许开发者以一种更加 Pythonic 和直观的方式与 Elasticsearch 进行交互和查询。DSL 不是一种编程语言,而是一种专门针对某一领域(如 Elasticsearch 查询语言)设计的语言。在 Elasticsearch 中,DSL 用于构建复杂的搜索查询、聚合操作和过滤条件。

2024-03-30 16:43:20 1528

原创 Python库-FuzzyWuzzy使用介绍

FuzzyWuzzy是一个 Python 库,旨在提供模糊字符串匹配的功能。它能够比较两个字符串之间的相似度,即使它们在拼写或格式上略有不同。通过使用各种算法和方法,如基于字符、基于单词的匹配,以及部分匹配和排序匹配等技术,FuzzyWuzzy 能够有效地处理文本数据中的拼写错误、近义词和重复项。这使得它在数据清洗、搜索功能、自动完成和信息抽取等场景中非常实用。FuzzyWuzzy 提供了简单易用的 API,使得开发者可以轻松地将其集成到自己的项目中,并快速实现字符串匹配和相似度比较的功能。

2024-03-28 19:34:00 80758

原创 Presto简介、部署、原理和使用介绍

​ Presto是由Facebook开发的一款开源的分布式SQL查询引擎,最初于2012年发布,并在2013年成为Apache项目的一部分;Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。Presto官方网站:https://prestosql.io/​ Presto被广泛用作即席查询引擎,用户可以使用标准的SQL语句向Presto提交查询,并且能够在几秒钟或更短的时间内获取结果。

2024-02-28 17:48:47 5426

原创 IDC机房交换机核心技术与应用指南

​ 交换机(Switch)是一种用于电脑网络的设备,它连接多个设备(如计算机、打印机、服务器等)到同一网络内,允许这些设备互相通信。交换机工作在OSI(开放式系统互联)模型的第二层,即数据链路层,这使得它能够使用物理设备的MAC(媒体访问控制)地址来传输数据。​ 在基本层面上,交换机的功能是接收来自连接设备的数据包,并决定如何有效地将这些数据包转发到目的地。这通常是通过检查每个数据包的MAC地址来实现的。

2024-01-26 18:06:16 1862

原创 ZooKeeper中bin目录4个脚本执行文件详解

ZooKeeper中bin目录中有如下4个可执行脚本:这些脚本是 ZooKeeper 的一部分,用于管理和操作 ZooKeeper 实例。zkCleanup.sh:zkCli.sh:zkEnv.sh:zkServer.sh:下文将逐个详细介绍4个 ZooKeeper 相关脚本的使用、参数、场景和注意事项连接到 ZooKeeper:创建节点:读取节点数据:参数介绍: 接受连接参数,如 ZooKeeper 服务器地址。场景:用于与 ZooKeeper 交互、创建、读取、更新、删除节点等。 脚本是 ZooKee

2023-12-12 17:36:55 1581

原创 业务场景中Hive解析Json常用案例

json_serde库提供了一种在Hive中直接将JSON格式的数据解析成表的方式,可简化处理流程。现在希望建立一张表,使得表可以直接映射上数据文件hive中建表age int,将json文件上传至建表对应hdfs路径# 也可以通过hive的sql命令行直接load数据文件查看表数据验证可以看到数据文件8行记录,成功映射对应了hive中wangt_666_json表的8条数据。

2023-12-04 18:00:31 1413

原创 Greenplum管理和监控工具-gpcc-web介绍

1. **集群监控和状态**:`gpcc-web`提供了有关整个Greenplum数据库集群状态的实时信息。您可以查看主机、段、表空间等级别的性能数据、状态和报警信息。这有助于及时识别和解决性能问题。2. **查询性能监控**:您可以监视正在运行的查询的性能,包括查询执行计划、资源消耗和查询运行时间。这有助于识别潜在的性能瓶颈和优化查询。3. **备份和恢复管理**:`gpcc-web`允许您配置和监视数据库备份策略,并提供了还原数据库的功能。这有助于确保数据的备份和可恢复性。

2023-11-02 09:10:20 1535 2

原创 入侵防御系统(IPS)网络安全设备介绍

​ IPS设备是网络安全的关键组成部分,用于检测和防止恶意攻击和入侵尝试。它们通过流量分析、签名检测和异常检测来实现这一目标,并可以采取各种防御措施。IPS设备还与其他安全设备集成,以提供全面的安全性和监控。然而,IPS设备也存在一些挑战和限制,需要不断演进以适应不断变化的网络威胁。在未来,IPS设备将继续发展,采用新技术来提高安全性和效率,以应对不断增加的网络威胁。

2023-10-07 17:34:44 13682 2

原创 图数据库Nebula_Graph界面工具安装与使用

NebulaGraph Studio是一款可以通过 Web 访问的开源图数据库可视化工具,是 Nebula Graph 官方提供的图形用户界面(GUI)工具,它提供了更直观的方式来管理和查询图数据库。Nebula Studio 支持可视化的模式管理、数据查询、图可视化、数据导入导出等功能,使用户能够更轻松地操作数据库。 Nebula Graph Dashboard 是 Nebula Graph 数据库的可视化管理工具,它提供了一个直观的图形用户界面(GUI)来监控、管理和操作

2023-09-21 15:11:47 1840

原创 Nebula Graph图数据库教程介绍

Space(空间)在 Nebula Graph 中,Space 可以类比为数据库。就像关系型数据库中可以有多个数据库,Nebula Graph 中可以有多个 Space。每个 Space 可以看作是一个独立的数据存储区域,用于存储不同类型的数据。比喻Space 就像是一个大仓库,您可以在仓库中存放不同类型的货物,每个货物都有自己的存储区域。Tag(标签)和 Vertex(顶点)在 Nebula Graph 中,Tag 类似于表,而 Vertex 类似于表中的行。Tag 定义了一组属性

2023-09-14 11:56:10 3444

原创 SQL中的CASE WHEN语句:从基础到高级应用指南

SQL中的CASE WHEN语句是一种灵活的条件逻辑工具,用于查询中根据条件生成不同结果。它处理多种条件,可嵌套使用,适用于简单判断到复杂业务规则。无论数据转换还是业务分析,CASE WHEN都是不可或缺的工具。

2023-08-30 18:01:27 11838 1

原创 Python实现企业微信群告警

​ 企业微信群机器人是一个强大的工具,用于实现监控告警和信息通知。机器人发送不同类型的消息通知,我们合理利用企业微信群机器人,可以提升团队的响应速度和业务稳定性,在实际工作中提升效率和效果。

2023-08-24 16:50:57 1906

原创 (WAF)Web应用程序防火墙介绍

​ Web应用程序防火墙(WAF)在保护Web应用程序免受各种网络攻击方面发挥着关键作用。它通过监控、检测和防护恶意请求,提供了一道坚实的防线,保护用户数据、隐私和业务连续性。然而,要充分发挥其作用,WAF需要与其他安全措施结合使用,同时也需要管理员的定期维护和优化。通过综合的安全策略,可以实现强大的Web应用程序安全。​ Web应用程序防火墙(WAF)是保护Web应用程序免受各种网络攻击的关键工具。

2023-08-23 17:40:14 3597

原创 MySQL实现数据炸裂拆分(类似Hive的explode函数的拆分数组功能)

在Hive中,"explode"函数用于将数组类型的列拆分为多行,以便对数组中的每个元素进行处理。然而,在MySQL中,并没有直接的类似功能。但是,我们可以使用一些技巧来模拟这个功能,实现在MySQL中拆分数组并进行查询的操作。本文将介绍如何在MySQL中实现类似Hive的"explode"函数的拆分数组功能。​ 场景模拟:假设我们有一个名为`wow_info`的表,其中包含一个包含竖线分隔的数字列表的列`tianfu`,我们希望将每一种天赋拆分为多行进行查询。

2023-07-07 10:48:23 5504 1

原创 阿里开业项目chat2DB-人工智能SQL分析介绍

下载安装包Chat2DB Setup 2.0.1.exe后,直接安装即可,界面非常简洁清晰配置完毕后,使用方式将改变成只需要描写需求即可chat2DB除可以AI智能SQL分析,还可以协助自动生成报表例如,wow_info表中,字段:zhuangbei,代表装备类型,有布甲、皮甲、板甲等等现在想去分析一下每种类型的占比情况在Charts栏中可以选择不同的指标,实现不同维度的数据。

2023-07-05 15:57:25 3649 1

原创 Hive中高频常用的函数和语法梳理及业务场景示例

函数在Hive中被广泛使用,可以用于数据清洗、转换、计算和分析等各种业务场景。根据具体的需求,选择合适的函数可以提高查询和处理数据的效率,并实现所需的功能

2023-06-29 17:09:45 1749

原创 Flink读写Doris操作介绍

​ Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。

2023-05-15 10:55:17 8870 4

原创 Doris的分区Partition和分桶Bucket介绍

Range分区是一种基于分区键对表进行分区的方式,分区键指的是表中的某一列,而Range则是指这个列的值的范围。使用Range分区,可以将数据按照列的值的范围进行划分,将数据分散到不同的节点上,以实现分布式存储和查询分区列通常为时间列,以方便的管理新旧数据Partition 支持通过仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。也支持通过指定上下界,生成一个左闭右开的区间当不使用Partition建表时,系统会自动生成一个和表名同名的,全值范围的 Partition。

2023-05-12 14:23:30 4579

原创 Doris简介、部署、功能介绍以及架构设计

​ Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。

2023-05-10 17:34:44 42351

原创 Flink Table API 和 Flink-SQL使用详解

​ 动态表( Dynamic Tables ) 是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询( Continuous Query )。一个连续查询永远不会终止,结果会生成一个动态表。查询不断更新其动态结果表,以反映其动态输入表上的更改。需要注意的是,连续查询的结果在语义上总是等价于以批处理模式在输入表快照上执行的相同查询的结果。

2023-04-15 15:50:18 1183

原创 Flink容错机制介绍

​ 流的barrier是Flink的Checkpoint中的一个核心概念。可以理解成流数据中加入一个个分界线,多个barrier被插入到数据流中,然后作为数据流的一部分随着数据流动( 有点类似于Watermark )。这些barrier不会跨越流中的数据。​ 每个barrier会把数据流分成两部分: 一部分数据进入当前的快照 , 另一部分数据进入下一个快照。每个barrier携带着快照的id。barrier 不会暂停数据的流动,所以非常轻量级。

2023-04-02 15:56:06 770

原创 Flink State状态机制

​ Operator State算子状态可以用在所有算子上,每个算子子任务或者说每个算子实例共享一个状态,流入这个算子子任务的数据可以访问和更新这个状态注意: 算子子任务之间的状态不能互相访问​ 算子状态的作用范围限定为算子任务。这意味着由同一并行任务所处理的所有数据都可以访问到相同的状态,状态对于同一任务而言是共享的。算子状态不能由相同或不同算子的另一个任务访问。

2023-04-01 15:54:16 490

原创 Flink中的时间语义与WaterMark水印

支持event time的流式处理框架需要一种能够测量event time 进度的方式。比如一个窗口算子创建了一个长度为1小时的窗口,那么这个算子需要知道事件时间已经到达了这个窗口的关闭时间,从而在程序中去关闭这个窗口。​ 事件时间可以不依赖处理时间来表示时间的进度。例如在程序中, 即使处理时间和事件时间有相同的速度,事件时间可能会轻微的落后处理时间。另外一方面,使用事件时间可以在几秒内处理已经缓存在Kafka中多周的数据,这些数据可以照样被正确处理,就像实时发生的一样能够进入正确的窗口。

2023-03-24 16:49:29 470

原创 Flink的window机制

窗口分为两大类: - 基于时间的窗口 - 时间窗口以时间点到来定义窗口的开始(start)和结束(end),所以截取出的就是某一时间段的数据。到达时间时,窗口不再收集数据,触发计算输出结果,并将窗口关闭销毁 - 窗口大小 = 结束时间 - 开始时间- 基于元素个数 - 基于元素的个数来截取数据,到达固定的个数时就触发计算并关闭窗口 - 只需指定窗口大小,就可以把数据分配到对应的窗口中

2023-03-22 16:55:31 844

原创 MongoDB5副本集高可用集群部署

storage:journal:security相关配置项为注释状态,第一次启动使用时,不加载security相关配置,需要机器配置完毕后再配置开启(因为具体的认证配置文件均未生成)PRIMARY和SECONDARY的配置文件没有特别配置不一样的参数,可以复用,角色的配置均在服务启动后访问server调整。

2023-03-08 17:14:29 1018 1

原创 OSSFs挂载工具简介

​ ossfs允许您在Linux系统中将对象存储OSS的存储空间(Bucket)挂载到本地文件系统。挂载完成后,您能够像操作本地文件一样操作OSS的对象(Object),从而实现数据共享。​ 使用起来,可以把存储桶Bucket理解成一个文件夹,进入到文件夹后增删改查目录中的文件,即相当于在操作Bucket。演示体验:这里已经创建了一个Bucket :longgovv在存储桶中创建2个文件夹可以在服务器上查看到与longgovv同步的目录,以上就是直观的使用感受。

2023-03-03 10:53:51 1806

原创 MongoDB5安装部署和使用介绍

storage:fork: trueadmin登录切换数据库注意: use 代表创建并使用,当库中没有数据时默认不显示这个库删除数据库查看表清单> show tables # 或者 > show collections表创建db.createCollection('集合名称', [options])table1字段类型描述capped布尔(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档。

2023-02-22 13:56:10 1128

原创 DataX简介、部署、原理和使用介绍

​ DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

2023-02-17 11:02:58 8491

原创 Maxwell简介、部署、原理和使用介绍

Maxwell是由美国Zendesk公司开源,使用Java编写的MySQL变更数据抓取软件。他会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以JSON的格式发送给Kafka、Kinesis、RabbitMQ、Redis、Google CloudPub/Sub、文件或其它平台等等Maxwell项目官方网站:https://maxwells-daemon.io/

2023-02-15 17:22:42 5605

原创 Elasticsearch-SQL介绍

​ Elasticsearch的SQLjdbc驱动程序是Elasticsearch的一个功能丰富的jdbc驱动程序。它是Type 4驱动程序,这意味着它是一个独立于平台的、独立的、直接到数据库的纯Java驱动程序,可以将JDBC调用转换为Elasticsearch SQL使用官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/sql-jdbc.html查询索引v查询结构数据查询。

2023-02-11 16:13:07 2856 4

原创 elasticsearch8.3.2搭建部署

ES各版本对java版本的需求:- ES 7.x 及之前版本:选择 Java 8- ES 8.x,支持 Java 17 和 Java 18,推荐版本: - 其中对于ES 8.0:Java版本仅支持 Java 17 - ES 8.1及以上版本:支持Java 17 以及 Java 18,建议使用Java 17【注意】1. Java 9、Java 10、Java 12 和 Java 13 均为官方公布的短期版本,ES各版本均不推荐使用这几个2. ES 8.1及以上版本的es对应版本的 L

2023-02-11 15:57:05 1582

原创 hadoop-hdfs集群安全模式详解

安全模式相关命令查看安全模式 hdfs dfsadmin -safemode get进入安全模式状 hdfs dfsadmin -safemode enter离开安全模式 hdfs dfsadmin -safemode leave等待安全模式状态 hdfs dfsadmin -safemode wait dfs.namenode.safemode.min.datanodes 0

2023-01-27 18:38:00 2776

监控yaml压缩包.zip

用于监控搭建使用的yaml文件汇总,以防止文档中yaml文件缺失等遇到的问题

2019-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除