![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
大数据常用框架组件
王亭_666
这个作者很懒,什么都没留下…
展开
-
大模型之-Seq2Seq介绍
Seq2Seq(Sequence to Sequence)模型在文本摘要任务中的应用与其在机器翻译中的应用有很多相似之处。文本摘要的目标是从一个长文本中生成一个简短的、语义上等价的摘要。与机器翻译类似,Seq2Seq模型通过编码器和解码器的组合来实现这个任务。编码器(Encoder)编码器将输入的长文本编码成一个固定长度的上下文向量(Context Vector)。通常使用递归神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)来处理输入文本。原创 2024-06-20 10:46:54 · 358 阅读 · 0 评论 -
机器学习的分类
机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习并做出决策或预测。机器学习(Machine Learning)是一种基于数据驱动的方法,旨在通过自动化的统计模型和算法从数据中学习和提取模式,以进行预测、分类和决策。其核心思想是通过训练数据构建模型,使其在面对新数据时能够准确进行预测和分类。原创 2024-06-13 18:32:50 · 1071 阅读 · 0 评论 -
Hudi之数据读写探究
操作类型I/O开销CPU开销写入吞吐量磁盘空间利用内存消耗并发处理能力网络开销INSERT-写入最低几乎无需计算吞吐量较高低低一般低BULK_INSERT-批量写需要更多I/O有一些计算需求吞吐量最高较低较低高低UPSERT-更新或写入最高需要较高的计算资源吞吐量最低高较高低高。原创 2024-05-29 16:40:09 · 919 阅读 · 0 评论 -
Hudi之TimeLine(时间轴)原理概念
在Apache Hudi中,TimeLine是指,用于跟踪数据湖Hudi中数据的变化历史。TimeLine是Hudi的核心概念之一,用于管理和维护数据湖Hudi中各个数据集的变化历史。具体来说,TimeLine由一系列时间戳(timestamp)和相关的操作事件(如写入、更新、删除)组成,这些事件按时间顺序排列。每个数据集都有自己的TimeLine,用于记录该数据集的变化历史。 通过TimeLine,用户可以追溯数据集的变化历史,了解数据是如何随着时间变化的。原创 2024-05-20 18:01:22 · 858 阅读 · 0 评论 -
Nextcloud私有云盘-重新定义云存储体验
Nextcloud是一个开源的云存储和协作平台,旨在为个人用户、企业和团队提供安全、隐私保护的数据存储和共享解决方案。它允许您在不同设备之间同步、共享文件,提供了强大的协作工具和应用生态系统。:通过Nextcloud,您可以轻松地在不同设备之间同步和共享文件。无论是照片、视频、文档还是其他文件类型,都可以方便地访问和共享。:Nextcloud致力于保护您的数据安全和隐私。它提供端到端加密功能,确保您的数据在传输和存储过程中始终受到保护。原创 2024-05-10 17:52:20 · 1194 阅读 · 0 评论 -
Python-FastAPI框架使用介绍
FastAPI 关键特性1. **快速高效**:基于 Starlette 和 Pydantic 构建,具有高性能和低延迟的特点,支持异步处理请求,利用 Python 的协程提高并发性能。2. **简单易用**:使用标准的 Python 类型注解来定义 API 的输入和输出参数,无需编写大量的文档和验证代码。3. **自动生成文档**:通过访问 `/docs` 路径可以查看自动生成的交互式 API 文档,包含了每个端点的详细说明、请求和响应的模型结构以及示例请求和响应。4. **数据验证**:利用原创 2024-04-16 18:28:20 · 1772 阅读 · 0 评论 -
python多方式操作elasticsearch介绍
Elasticsearch DSL(Domain Specific Language 领域特定语言)是 Elasticsearch 官方提供的一个 Python 客户端库,它允许开发者以一种更加 Pythonic 和直观的方式与 Elasticsearch 进行交互和查询。DSL 不是一种编程语言,而是一种专门针对某一领域(如 Elasticsearch 查询语言)设计的语言。在 Elasticsearch 中,DSL 用于构建复杂的搜索查询、聚合操作和过滤条件。原创 2024-03-30 16:43:20 · 1329 阅读 · 0 评论 -
Python库-FuzzyWuzzy使用介绍
FuzzyWuzzy是一个 Python 库,旨在提供模糊字符串匹配的功能。它能够比较两个字符串之间的相似度,即使它们在拼写或格式上略有不同。通过使用各种算法和方法,如基于字符、基于单词的匹配,以及部分匹配和排序匹配等技术,FuzzyWuzzy 能够有效地处理文本数据中的拼写错误、近义词和重复项。这使得它在数据清洗、搜索功能、自动完成和信息抽取等场景中非常实用。FuzzyWuzzy 提供了简单易用的 API,使得开发者可以轻松地将其集成到自己的项目中,并快速实现字符串匹配和相似度比较的功能。原创 2024-03-28 19:34:00 · 33845 阅读 · 0 评论 -
Presto简介、部署、原理和使用介绍
Presto是由Facebook开发的一款开源的分布式SQL查询引擎,最初于2012年发布,并在2013年成为Apache项目的一部分;Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。Presto官方网站:https://prestosql.io/ Presto被广泛用作即席查询引擎,用户可以使用标准的SQL语句向Presto提交查询,并且能够在几秒钟或更短的时间内获取结果。原创 2024-02-28 17:48:47 · 2549 阅读 · 0 评论 -
ZooKeeper中bin目录4个脚本执行文件详解
ZooKeeper中bin目录中有如下4个可执行脚本:这些脚本是 ZooKeeper 的一部分,用于管理和操作 ZooKeeper 实例。zkCleanup.sh:zkCli.sh:zkEnv.sh:zkServer.sh:下文将逐个详细介绍4个 ZooKeeper 相关脚本的使用、参数、场景和注意事项连接到 ZooKeeper:创建节点:读取节点数据:参数介绍: 接受连接参数,如 ZooKeeper 服务器地址。场景:用于与 ZooKeeper 交互、创建、读取、更新、删除节点等。 脚本是 ZooKee原创 2023-12-12 17:36:55 · 1336 阅读 · 0 评论 -
业务场景中Hive解析Json常用案例
json_serde库提供了一种在Hive中直接将JSON格式的数据解析成表的方式,可简化处理流程。现在希望建立一张表,使得表可以直接映射上数据文件hive中建表age int,将json文件上传至建表对应hdfs路径# 也可以通过hive的sql命令行直接load数据文件查看表数据验证可以看到数据文件8行记录,成功映射对应了hive中wangt_666_json表的8条数据。原创 2023-12-04 18:00:31 · 1330 阅读 · 0 评论 -
Python-大数据分析之常用库
4. 工商企业预测年营业额示例假设我们想要根据企业的注册资本、成立年份、行业等信息来预测企业的年营业额。以下是一个简化的示例 scikit-learn(sklearn)是一个用于机器学习和数据挖掘的Python库,提供了各种机器学习算法实现和简单而有效的工具,用于数据挖掘和数据分析。它建立在NumPy、SciPy和Matplotlib之上,包含了各种机器学习算法和工具,适用于各种机器学习任务。原创 2023-11-22 14:09:23 · 443 阅读 · 0 评论 -
Greenplum管理和监控工具-gpcc-web介绍
1. **集群监控和状态**:`gpcc-web`提供了有关整个Greenplum数据库集群状态的实时信息。您可以查看主机、段、表空间等级别的性能数据、状态和报警信息。这有助于及时识别和解决性能问题。2. **查询性能监控**:您可以监视正在运行的查询的性能,包括查询执行计划、资源消耗和查询运行时间。这有助于识别潜在的性能瓶颈和优化查询。3. **备份和恢复管理**:`gpcc-web`允许您配置和监视数据库备份策略,并提供了还原数据库的功能。这有助于确保数据的备份和可恢复性。原创 2023-11-02 09:10:20 · 1126 阅读 · 2 评论 -
greenplum集群常用运维排障命令汇总
gprecoverseg 优先级顺序 1. gprecoverseg -a --> 2. gprecoverseg --> 3. gprecoverseg -r。表膨胀通常指的是表的物理磁盘空间使用超过了实际需要的大小,导致性能下降和资源浪费,表膨胀问题需要处理,因为它会导致磁盘空间的浪费,减慢查询性能。:这将创建一个新的表,将数据从原始表复制到新表,并替换原始表。这是处理大型膨胀表的更强大选项。:运行VACUUM操作可以帮助清理并释放未使用的磁盘空间。是一个轻量级的操作,适用于小型的膨胀表。原创 2023-10-31 12:39:37 · 404 阅读 · 6 评论 -
图数据库Nebula_Graph界面工具安装与使用
NebulaGraph Studio是一款可以通过 Web 访问的开源图数据库可视化工具,是 Nebula Graph 官方提供的图形用户界面(GUI)工具,它提供了更直观的方式来管理和查询图数据库。Nebula Studio 支持可视化的模式管理、数据查询、图可视化、数据导入导出等功能,使用户能够更轻松地操作数据库。 Nebula Graph Dashboard 是 Nebula Graph 数据库的可视化管理工具,它提供了一个直观的图形用户界面(GUI)来监控、管理和操作原创 2023-09-21 15:11:47 · 1232 阅读 · 0 评论 -
Nebula Graph图数据库教程介绍
Space(空间)在 Nebula Graph 中,Space 可以类比为数据库。就像关系型数据库中可以有多个数据库,Nebula Graph 中可以有多个 Space。每个 Space 可以看作是一个独立的数据存储区域,用于存储不同类型的数据。比喻Space 就像是一个大仓库,您可以在仓库中存放不同类型的货物,每个货物都有自己的存储区域。Tag(标签)和 Vertex(顶点)在 Nebula Graph 中,Tag 类似于表,而 Vertex 类似于表中的行。Tag 定义了一组属性原创 2023-09-14 11:56:10 · 2884 阅读 · 0 评论 -
SQL中的CASE WHEN语句:从基础到高级应用指南
SQL中的CASE WHEN语句是一种灵活的条件逻辑工具,用于查询中根据条件生成不同结果。它处理多种条件,可嵌套使用,适用于简单判断到复杂业务规则。无论数据转换还是业务分析,CASE WHEN都是不可或缺的工具。原创 2023-08-30 18:01:27 · 5461 阅读 · 1 评论 -
Python实现企业微信群告警
企业微信群机器人是一个强大的工具,用于实现监控告警和信息通知。机器人发送不同类型的消息通知,我们合理利用企业微信群机器人,可以提升团队的响应速度和业务稳定性,在实际工作中提升效率和效果。原创 2023-08-24 16:50:57 · 1564 阅读 · 0 评论 -
深入理解窗口函数和使用介绍
想象一家咖啡馆,里面有一堵特殊的墙,我们称之为“洞察之墙”。这堵墙背后有一个魔法窗户,这就是窗口函数。这个窗户可以让你透过它去看到一系列的数据,但是你可以使用特殊的工具,比如望远镜和魔法棒,来查看和分析这些数据。现在,让我们来看看这些工具的具体用途:1. **望远镜 - RANK、DENSE_RANK、ROW_NUMBER:** 想象你站在窗户前,你可以通过使用望远镜,看到墙上的标识。这些标识告诉你每个数据在排序中的位置,就像在一个比赛中知道运动员的排名一样。RANK表示前几名的排名,DENSE_原创 2023-08-23 15:04:53 · 2671 阅读 · 0 评论 -
MySQL实现数据炸裂拆分(类似Hive的explode函数的拆分数组功能)
在Hive中,"explode"函数用于将数组类型的列拆分为多行,以便对数组中的每个元素进行处理。然而,在MySQL中,并没有直接的类似功能。但是,我们可以使用一些技巧来模拟这个功能,实现在MySQL中拆分数组并进行查询的操作。本文将介绍如何在MySQL中实现类似Hive的"explode"函数的拆分数组功能。 场景模拟:假设我们有一个名为`wow_info`的表,其中包含一个包含竖线分隔的数字列表的列`tianfu`,我们希望将每一种天赋拆分为多行进行查询。原创 2023-07-07 10:48:23 · 4683 阅读 · 1 评论 -
阿里开业项目chat2DB-人工智能SQL分析介绍
下载安装包Chat2DB Setup 2.0.1.exe后,直接安装即可,界面非常简洁清晰配置完毕后,使用方式将改变成只需要描写需求即可chat2DB除可以AI智能SQL分析,还可以协助自动生成报表例如,wow_info表中,字段:zhuangbei,代表装备类型,有布甲、皮甲、板甲等等现在想去分析一下每种类型的占比情况在Charts栏中可以选择不同的指标,实现不同维度的数据。原创 2023-07-05 15:57:25 · 3286 阅读 · 1 评论 -
Hive中高频常用的函数和语法梳理及业务场景示例
函数在Hive中被广泛使用,可以用于数据清洗、转换、计算和分析等各种业务场景。根据具体的需求,选择合适的函数可以提高查询和处理数据的效率,并实现所需的功能原创 2023-06-29 17:09:45 · 1569 阅读 · 0 评论 -
Flink读写Doris操作介绍
Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。原创 2023-05-15 10:55:17 · 7820 阅读 · 4 评论 -
Doris的分区Partition和分桶Bucket介绍
Range分区是一种基于分区键对表进行分区的方式,分区键指的是表中的某一列,而Range则是指这个列的值的范围。使用Range分区,可以将数据按照列的值的范围进行划分,将数据分散到不同的节点上,以实现分布式存储和查询分区列通常为时间列,以方便的管理新旧数据Partition 支持通过仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。也支持通过指定上下界,生成一个左闭右开的区间当不使用Partition建表时,系统会自动生成一个和表名同名的,全值范围的 Partition。原创 2023-05-12 14:23:30 · 3519 阅读 · 0 评论 -
Doris简介、部署、功能介绍以及架构设计
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。原创 2023-05-10 17:34:44 · 29842 阅读 · 0 评论 -
Flink Table API 和 Flink-SQL使用详解
动态表( Dynamic Tables ) 是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询( Continuous Query )。一个连续查询永远不会终止,结果会生成一个动态表。查询不断更新其动态结果表,以反映其动态输入表上的更改。需要注意的是,连续查询的结果在语义上总是等价于以批处理模式在输入表快照上执行的相同查询的结果。原创 2023-04-15 15:50:18 · 1005 阅读 · 0 评论 -
Flink容错机制介绍
流的barrier是Flink的Checkpoint中的一个核心概念。可以理解成流数据中加入一个个分界线,多个barrier被插入到数据流中,然后作为数据流的一部分随着数据流动( 有点类似于Watermark )。这些barrier不会跨越流中的数据。 每个barrier会把数据流分成两部分: 一部分数据进入当前的快照 , 另一部分数据进入下一个快照。每个barrier携带着快照的id。barrier 不会暂停数据的流动,所以非常轻量级。原创 2023-04-02 15:56:06 · 694 阅读 · 0 评论 -
Flink State状态机制
Operator State算子状态可以用在所有算子上,每个算子子任务或者说每个算子实例共享一个状态,流入这个算子子任务的数据可以访问和更新这个状态注意: 算子子任务之间的状态不能互相访问 算子状态的作用范围限定为算子任务。这意味着由同一并行任务所处理的所有数据都可以访问到相同的状态,状态对于同一任务而言是共享的。算子状态不能由相同或不同算子的另一个任务访问。原创 2023-04-01 15:54:16 · 444 阅读 · 0 评论 -
Flink中的时间语义与WaterMark水印
支持event time的流式处理框架需要一种能够测量event time 进度的方式。比如一个窗口算子创建了一个长度为1小时的窗口,那么这个算子需要知道事件时间已经到达了这个窗口的关闭时间,从而在程序中去关闭这个窗口。 事件时间可以不依赖处理时间来表示时间的进度。例如在程序中, 即使处理时间和事件时间有相同的速度,事件时间可能会轻微的落后处理时间。另外一方面,使用事件时间可以在几秒内处理已经缓存在Kafka中多周的数据,这些数据可以照样被正确处理,就像实时发生的一样能够进入正确的窗口。原创 2023-03-24 16:49:29 · 425 阅读 · 0 评论 -
Flink的window机制
窗口分为两大类: - 基于时间的窗口 - 时间窗口以时间点到来定义窗口的开始(start)和结束(end),所以截取出的就是某一时间段的数据。到达时间时,窗口不再收集数据,触发计算输出结果,并将窗口关闭销毁 - 窗口大小 = 结束时间 - 开始时间- 基于元素个数 - 基于元素的个数来截取数据,到达固定的个数时就触发计算并关闭窗口 - 只需指定窗口大小,就可以把数据分配到对应的窗口中原创 2023-03-22 16:55:31 · 757 阅读 · 0 评论 -
Flink各类运行环境介绍
独立部署(Standalone)模式由Flink自身提供计算资源,无需其他框架提供资源,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但Flink主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,生产环境普遍采用专业的资源调度框架集成搭配使用,在国内工作环境中,搭配Yarn使用的非常普遍原创 2023-03-12 13:53:13 · 569 阅读 · 0 评论 -
MongoDB5副本集高可用集群部署
storage:journal:security相关配置项为注释状态,第一次启动使用时,不加载security相关配置,需要机器配置完毕后再配置开启(因为具体的认证配置文件均未生成)PRIMARY和SECONDARY的配置文件没有特别配置不一样的参数,可以复用,角色的配置均在服务启动后访问server调整。原创 2023-03-08 17:14:29 · 961 阅读 · 1 评论 -
OSSFs挂载工具简介
ossfs允许您在Linux系统中将对象存储OSS的存储空间(Bucket)挂载到本地文件系统。挂载完成后,您能够像操作本地文件一样操作OSS的对象(Object),从而实现数据共享。 使用起来,可以把存储桶Bucket理解成一个文件夹,进入到文件夹后增删改查目录中的文件,即相当于在操作Bucket。演示体验:这里已经创建了一个Bucket :longgovv在存储桶中创建2个文件夹可以在服务器上查看到与longgovv同步的目录,以上就是直观的使用感受。原创 2023-03-03 10:53:51 · 1681 阅读 · 0 评论 -
MongoDB5安装部署和使用介绍
storage:fork: trueadmin登录切换数据库注意: use 代表创建并使用,当库中没有数据时默认不显示这个库删除数据库查看表清单> show tables # 或者 > show collections表创建db.createCollection('集合名称', [options])table1字段类型描述capped布尔(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档。原创 2023-02-22 13:56:10 · 1040 阅读 · 0 评论 -
DataX简介、部署、原理和使用介绍
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。原创 2023-02-17 11:02:58 · 5459 阅读 · 0 评论 -
Maxwell简介、部署、原理和使用介绍
Maxwell是由美国Zendesk公司开源,使用Java编写的MySQL变更数据抓取软件。他会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以JSON的格式发送给Kafka、Kinesis、RabbitMQ、Redis、Google CloudPub/Sub、文件或其它平台等等Maxwell项目官方网站:https://maxwells-daemon.io/原创 2023-02-15 17:22:42 · 4964 阅读 · 0 评论 -
Elasticsearch-SQL介绍
Elasticsearch的SQLjdbc驱动程序是Elasticsearch的一个功能丰富的jdbc驱动程序。它是Type 4驱动程序,这意味着它是一个独立于平台的、独立的、直接到数据库的纯Java驱动程序,可以将JDBC调用转换为Elasticsearch SQL使用官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/sql-jdbc.html查询索引v查询结构数据查询。原创 2023-02-11 16:13:07 · 2804 阅读 · 4 评论 -
elasticsearch8.3.2搭建部署
ES各版本对java版本的需求:- ES 7.x 及之前版本:选择 Java 8- ES 8.x,支持 Java 17 和 Java 18,推荐版本: - 其中对于ES 8.0:Java版本仅支持 Java 17 - ES 8.1及以上版本:支持Java 17 以及 Java 18,建议使用Java 17【注意】1. Java 9、Java 10、Java 12 和 Java 13 均为官方公布的短期版本,ES各版本均不推荐使用这几个2. ES 8.1及以上版本的es对应版本的 L原创 2023-02-11 15:57:05 · 1113 阅读 · 0 评论 -
hadoop-hdfs集群安全模式详解
安全模式相关命令查看安全模式 hdfs dfsadmin -safemode get进入安全模式状 hdfs dfsadmin -safemode enter离开安全模式 hdfs dfsadmin -safemode leave等待安全模式状态 hdfs dfsadmin -safemode wait dfs.namenode.safemode.min.datanodes 0原创 2023-01-27 18:38:00 · 2666 阅读 · 0 评论 -
JDBC简介及原理和使用介绍
Java数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。 使用Java程序访问数据库时,Java代码并不是直接通过TCP连接去访问数据库,而是通过JDBC接口来访问,而JDBC接口则通过JDBC驱动来实现真正对数据库的访问例如,我们在Java代码中如果要访问MySQL,那么必须编写代码操作JDBC接口。JDBC接口是Java标准库自带的原创 2023-01-12 10:36:41 · 1498 阅读 · 0 评论