
大数据
文章平均质量分 92
大数据常用框架组件
王亭_666
这个作者很懒,什么都没留下…
展开
-
谷歌Firebase Studio在线AI编程使用介绍
官方网站:https://studio.firebase.google.com/云端在线AI编程,使用时,本地电脑无需安装任何应用程序,只需满足网络能访问页面与注册用户登录界面【注意】: 需要科学上网,使用google账号登录即可登录后,左下区域可以创建一个新工程项目(类比于idea、pycharm中的new project)根据自己的需求选择创建新项目根据代码仓库进行已有项目拉取(当前仅支持github、gitlab、bitbucket,试了一下gitee会有红色报错不支持)原创 2025-04-23 14:57:07 · 938 阅读 · 0 评论 -
大模型Prompt提示词越狱相关知识
Prompt是指你向AI输入的内容,它直接指示AI该做什么任务或生成什么样的输出,简而言之, Prompt就是你与AI之间的“对话内容”,可以是问题、指令、描述或者任务要求,目的是引导AI进行特定的推理,生成或操作,从而得到预期的结果。在人工智能领域,特别是大语言模型(如GPT-4、deepseek、Gemini等)快速发展的背景下,prompt越狱(Prompt Jailbreaking)成为了一个备受关注的安全议题。一般称为“提示词越狱”或“提示词劫持”。原创 2025-04-09 16:01:39 · 1157 阅读 · 0 评论 -
RAGFlow部署与使用介绍-深度文档理解和检索增强生成
RAGFlow作为新一代智能文档处理平台,深度融合检索增强生成(RAG)技术与自动化工作流引擎,为企业级知识管理提供全栈解决方案。通过结合多模态解析、语义理解与智能推理能力,重塑了非结构化数据处理范式。传统的生成模型在回答复杂问题时常常依赖于预训练数据的广度与深度,而检索增强生成(Retrieval-Augmented Generation,简称RAG)则有效结合了检索与生成的优势,为各类应用场景提供了更为灵活、高效的解决方案。能够针对性的进行解答。原创 2025-04-03 17:36:11 · 1283 阅读 · 0 评论 -
Ollama+open-webui搭建私有本地大模型详细教程
Ollama 是一个轻量级的 AI 模型运行时,专注于简化 AI 模型的部署和使用。它支持多种预训练模型(如 Llama、Vicuna、Dolly 等),并且可以在本地运行,无需复杂的基础设施。Ollama 的设计理念是让 AI 模型的使用变得像运行普通程序一样简单,同时确保数据和隐私的安全性。 Ollama 正在不断优化和扩展,未来会支持更多模型类型、更高效的性能优化,以及更友好的用户界面。Ollama的目标是成为 AI 模型部署领域的标准工具,让更多人能够轻松使用原创 2025-04-01 17:47:39 · 1051 阅读 · 0 评论 -
AI智能体OpenManus使用介绍
OpenManus是MetaGPT团队在3小时内复刻Manus核心功能的开源AI智能体项目。它采用模块化Agent系统,包含主代理、规划代理和工具调用代理等角色,可自由组合功能模块创建定制AI助手。OpenManus具有实时反馈机制,能可视化展示思考链、任务进度和文件生成过程。它配备强大的工具链,如浏览器自动化、Python代码执行器、网络搜索工具和文件处理系统,可处理复杂任务。OpenManus全免费且支持本地部署,无需邀请码,用户可外挂任意大模型API,灵活配置。原创 2025-03-13 15:27:24 · 2741 阅读 · 0 评论 -
Dify部署与使用介绍-生成式 AI 应用创新引擎
Dify融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间,使其可以专注在创新和业务需求上原创 2025-03-05 17:06:16 · 3755 阅读 · 0 评论 -
VSCode集成deepseek使用介绍(Visual Studio Code)
随着AI辅助编程工具的快速发展,VSCode作为一款轻量级、高度可扩展的代码编辑器,已成为开发者首选的工具之一。DeepSeek作为AI模型,结合Roo Code插件,能够为开发者提供智能代码生成、调试辅助、需求分析等功能,极大提升了开发效率。这种组合顺应了AI与开发工具深度融合的趋势,尤其适合快速原型开发和小型项目原创 2025-02-20 11:35:14 · 2014 阅读 · 0 评论 -
深度学习中损失函数(loss function)介绍
在深度学习的宏伟城堡中,损失函数扮演着国王的角色,它决定了模型训练的方向和目标。损失函数,也被称为代价函数,是衡量模型预测与实际结果之间差异的函数。在深度学习的训练过程中,我们的目标就是最小化这个损失函数,就像是在一场游戏中,我们的目标是获得尽可能低的失误和丢分。 损失函数的选择对于模型的训练至关重要。不同的问题可能需要不同的损失函数。比如在图像识别中,我们可能需要一个能够处理大量类别的损失函数,这时候交叉熵损失就是一个很好的选择。原创 2024-12-13 10:23:48 · 1410 阅读 · 0 评论 -
Wekan看板安装部署与使用介绍
Wekan 是一个开源的看板式项目管理工具,它的配置相对简单,因为大多数功能都是开箱即用的。它允许用户以卡片的形式组织和跟踪任务,非常适合敏捷开发和日常任务管理。Wekan 的核心功能包括看板、列表和卡片,用户可以在看板上创建多个列表,每个列表代表任务的不同状态,如待办、进行中和已完成。每张卡片则代表一个具体的任务,可以包含详细的描述、截止日期、成员分配和评论。 Wekan 支持实时协作,团队成员可以同时在线编辑和讨论任务,确保信息的即时更新和共享。原创 2024-11-20 11:13:58 · 3215 阅读 · 0 评论 -
OpenProject安装部署与使用介绍
OpenProject是一个功能全面的开源项目管理软件,它提供了一套集成的工具来支持项目规划、协作和监控。它的核心功能包括任务和问题跟踪、时间管理、新闻和文档管理,以及集成版本控制系统。OpenProject支持敏捷和瀑布项目管理方法,允许团队使用看板和甘特图来组织和监控项目进度。 该软件以其灵活性和可定制性而闻名,用户可以根据项目需求调整工作流程和界面。OpenProject还提供了丰富的报表功能,帮助团队成员和管理层洞察项目状态和性能。原创 2024-11-19 17:36:35 · 8227 阅读 · 0 评论 -
PyTorch使用教程-深度学习框架
PyTorch是一个广泛使用的开源机器学习框架,特别适合深度学习的应用。它以其动态计算图而闻名,允许在运行时修改模型,使得实验和调试更加灵活。PyTorch提供了强大的GPU加速功能,支持自动微分,简化了梯度计算和模型训练。此外,PyTorch拥有直观的API,与Python深度集成,使得它易于学习和使用。它还拥有一个庞大的社区和丰富的生态系统,包括预训练模型和专用库,适用于计算机视觉、自然语言处理等多种任务。PyTorch的灵活性和强大的功能使其成为研究人员和开发者的首选工具之一。原创 2024-11-18 17:41:44 · 1650 阅读 · 0 评论 -
贪心算法介绍(Greedy Algorithm)
贪心算法是一种在每一步选择中都采取当前最优解的策略,以期望构建出全局最优解的算法。它的核心思想是“贪心选择性质”,即在每个决策点上,基于当前信息选择最有利的选项,从而希望通过这些局部最优决策累积成全局最优解。贪心算法的实现通常简单直接,易于编码,且执行效率高,这使得它在需要快速响应的大规模问题中非常有用。贪心算法的关键在于其贪心策略的选择,这通常涉及到对问题结构的深入理解。在某些问题中,贪心算法能够保证找到最优解,特别是当问题具有最优子结构和贪心选择性质时。原创 2024-08-14 17:08:23 · 1937 阅读 · 0 评论 -
使用Ckman部署ClickHouse集群介绍
ClickHouse Manager是一个为ClickHouse数据库量身定制的管理工具,它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源,开源地址为:github.com/housepower/ckman。它通过提供一个直观的图形用户界面(GUI),极大地简化了数据库的管理和操作。这款工具支持多种功能,包括但不限于SQL查询编辑器、数据可视化、实时监控、性能分析、备份与恢复等。原创 2024-07-03 16:10:07 · 1326 阅读 · 0 评论 -
大模型之-Seq2Seq介绍
Seq2Seq(Sequence to Sequence)模型在文本摘要任务中的应用与其在机器翻译中的应用有很多相似之处。文本摘要的目标是从一个长文本中生成一个简短的、语义上等价的摘要。与机器翻译类似,Seq2Seq模型通过编码器和解码器的组合来实现这个任务。编码器(Encoder)编码器将输入的长文本编码成一个固定长度的上下文向量(Context Vector)。通常使用递归神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)来处理输入文本。原创 2024-06-20 10:46:54 · 1846 阅读 · 0 评论 -
机器学习的分类
机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习并做出决策或预测。机器学习(Machine Learning)是一种基于数据驱动的方法,旨在通过自动化的统计模型和算法从数据中学习和提取模式,以进行预测、分类和决策。其核心思想是通过训练数据构建模型,使其在面对新数据时能够准确进行预测和分类。原创 2024-06-13 18:32:50 · 7004 阅读 · 0 评论 -
Hudi之数据读写探究
操作类型I/O开销CPU开销写入吞吐量磁盘空间利用内存消耗并发处理能力网络开销INSERT-写入最低几乎无需计算吞吐量较高低低一般低BULK_INSERT-批量写需要更多I/O有一些计算需求吞吐量最高较低较低高低UPSERT-更新或写入最高需要较高的计算资源吞吐量最低高较高低高。原创 2024-05-29 16:40:09 · 2057 阅读 · 0 评论 -
Hudi之TimeLine(时间轴)原理概念
在Apache Hudi中,TimeLine是指,用于跟踪数据湖Hudi中数据的变化历史。TimeLine是Hudi的核心概念之一,用于管理和维护数据湖Hudi中各个数据集的变化历史。具体来说,TimeLine由一系列时间戳(timestamp)和相关的操作事件(如写入、更新、删除)组成,这些事件按时间顺序排列。每个数据集都有自己的TimeLine,用于记录该数据集的变化历史。 通过TimeLine,用户可以追溯数据集的变化历史,了解数据是如何随着时间变化的。原创 2024-05-20 18:01:22 · 1675 阅读 · 0 评论 -
Nextcloud私有云盘-重新定义云存储体验
Nextcloud是一个开源的云存储和协作平台,旨在为个人用户、企业和团队提供安全、隐私保护的数据存储和共享解决方案。它允许您在不同设备之间同步、共享文件,提供了强大的协作工具和应用生态系统。:通过Nextcloud,您可以轻松地在不同设备之间同步和共享文件。无论是照片、视频、文档还是其他文件类型,都可以方便地访问和共享。:Nextcloud致力于保护您的数据安全和隐私。它提供端到端加密功能,确保您的数据在传输和存储过程中始终受到保护。原创 2024-05-10 17:52:20 · 6922 阅读 · 0 评论 -
Python-FastAPI框架使用介绍
FastAPI 关键特性1. **快速高效**:基于 Starlette 和 Pydantic 构建,具有高性能和低延迟的特点,支持异步处理请求,利用 Python 的协程提高并发性能。2. **简单易用**:使用标准的 Python 类型注解来定义 API 的输入和输出参数,无需编写大量的文档和验证代码。3. **自动生成文档**:通过访问 `/docs` 路径可以查看自动生成的交互式 API 文档,包含了每个端点的详细说明、请求和响应的模型结构以及示例请求和响应。4. **数据验证**:利用原创 2024-04-16 18:28:20 · 14380 阅读 · 2 评论 -
python多方式操作elasticsearch介绍
Elasticsearch DSL(Domain Specific Language 领域特定语言)是 Elasticsearch 官方提供的一个 Python 客户端库,它允许开发者以一种更加 Pythonic 和直观的方式与 Elasticsearch 进行交互和查询。DSL 不是一种编程语言,而是一种专门针对某一领域(如 Elasticsearch 查询语言)设计的语言。在 Elasticsearch 中,DSL 用于构建复杂的搜索查询、聚合操作和过滤条件。原创 2024-03-30 16:43:20 · 1749 阅读 · 0 评论 -
Python库-FuzzyWuzzy使用介绍
FuzzyWuzzy是一个 Python 库,旨在提供模糊字符串匹配的功能。它能够比较两个字符串之间的相似度,即使它们在拼写或格式上略有不同。通过使用各种算法和方法,如基于字符、基于单词的匹配,以及部分匹配和排序匹配等技术,FuzzyWuzzy 能够有效地处理文本数据中的拼写错误、近义词和重复项。这使得它在数据清洗、搜索功能、自动完成和信息抽取等场景中非常实用。FuzzyWuzzy 提供了简单易用的 API,使得开发者可以轻松地将其集成到自己的项目中,并快速实现字符串匹配和相似度比较的功能。原创 2024-03-28 19:34:00 · 109621 阅读 · 0 评论 -
Presto简介、部署、原理和使用介绍
Presto是由Facebook开发的一款开源的分布式SQL查询引擎,最初于2012年发布,并在2013年成为Apache项目的一部分;Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。Presto官方网站:https://prestosql.io/ Presto被广泛用作即席查询引擎,用户可以使用标准的SQL语句向Presto提交查询,并且能够在几秒钟或更短的时间内获取结果。原创 2024-02-28 17:48:47 · 10045 阅读 · 0 评论 -
ZooKeeper中bin目录4个脚本执行文件详解
ZooKeeper中bin目录中有如下4个可执行脚本:这些脚本是 ZooKeeper 的一部分,用于管理和操作 ZooKeeper 实例。zkCleanup.sh:zkCli.sh:zkEnv.sh:zkServer.sh:下文将逐个详细介绍4个 ZooKeeper 相关脚本的使用、参数、场景和注意事项连接到 ZooKeeper:创建节点:读取节点数据:参数介绍: 接受连接参数,如 ZooKeeper 服务器地址。场景:用于与 ZooKeeper 交互、创建、读取、更新、删除节点等。 脚本是 ZooKee原创 2023-12-12 17:36:55 · 2052 阅读 · 0 评论 -
业务场景中Hive解析Json常用案例
json_serde库提供了一种在Hive中直接将JSON格式的数据解析成表的方式,可简化处理流程。现在希望建立一张表,使得表可以直接映射上数据文件hive中建表age int,将json文件上传至建表对应hdfs路径# 也可以通过hive的sql命令行直接load数据文件查看表数据验证可以看到数据文件8行记录,成功映射对应了hive中wangt_666_json表的8条数据。原创 2023-12-04 18:00:31 · 1598 阅读 · 0 评论 -
Python-大数据分析之常用库
4. 工商企业预测年营业额示例假设我们想要根据企业的注册资本、成立年份、行业等信息来预测企业的年营业额。以下是一个简化的示例 scikit-learn(sklearn)是一个用于机器学习和数据挖掘的Python库,提供了各种机器学习算法实现和简单而有效的工具,用于数据挖掘和数据分析。它建立在NumPy、SciPy和Matplotlib之上,包含了各种机器学习算法和工具,适用于各种机器学习任务。原创 2023-11-22 14:09:23 · 783 阅读 · 0 评论 -
Greenplum管理和监控工具-gpcc-web介绍
1. **集群监控和状态**:`gpcc-web`提供了有关整个Greenplum数据库集群状态的实时信息。您可以查看主机、段、表空间等级别的性能数据、状态和报警信息。这有助于及时识别和解决性能问题。2. **查询性能监控**:您可以监视正在运行的查询的性能,包括查询执行计划、资源消耗和查询运行时间。这有助于识别潜在的性能瓶颈和优化查询。3. **备份和恢复管理**:`gpcc-web`允许您配置和监视数据库备份策略,并提供了还原数据库的功能。这有助于确保数据的备份和可恢复性。原创 2023-11-02 09:10:20 · 2018 阅读 · 2 评论 -
greenplum集群常用运维排障命令汇总
gprecoverseg 优先级顺序 1. gprecoverseg -a --> 2. gprecoverseg --> 3. gprecoverseg -r。表膨胀通常指的是表的物理磁盘空间使用超过了实际需要的大小,导致性能下降和资源浪费,表膨胀问题需要处理,因为它会导致磁盘空间的浪费,减慢查询性能。:这将创建一个新的表,将数据从原始表复制到新表,并替换原始表。这是处理大型膨胀表的更强大选项。:运行VACUUM操作可以帮助清理并释放未使用的磁盘空间。是一个轻量级的操作,适用于小型的膨胀表。原创 2023-10-31 12:39:37 · 755 阅读 · 6 评论 -
图数据库Nebula_Graph界面工具安装与使用
NebulaGraph Studio是一款可以通过 Web 访问的开源图数据库可视化工具,是 Nebula Graph 官方提供的图形用户界面(GUI)工具,它提供了更直观的方式来管理和查询图数据库。Nebula Studio 支持可视化的模式管理、数据查询、图可视化、数据导入导出等功能,使用户能够更轻松地操作数据库。 Nebula Graph Dashboard 是 Nebula Graph 数据库的可视化管理工具,它提供了一个直观的图形用户界面(GUI)来监控、管理和操作原创 2023-09-21 15:11:47 · 2838 阅读 · 0 评论 -
Nebula Graph图数据库教程介绍
Space(空间)在 Nebula Graph 中,Space 可以类比为数据库。就像关系型数据库中可以有多个数据库,Nebula Graph 中可以有多个 Space。每个 Space 可以看作是一个独立的数据存储区域,用于存储不同类型的数据。比喻Space 就像是一个大仓库,您可以在仓库中存放不同类型的货物,每个货物都有自己的存储区域。Tag(标签)和 Vertex(顶点)在 Nebula Graph 中,Tag 类似于表,而 Vertex 类似于表中的行。Tag 定义了一组属性原创 2023-09-14 11:56:10 · 4519 阅读 · 0 评论 -
SQL中的CASE WHEN语句:从基础到高级应用指南
SQL中的CASE WHEN语句是一种灵活的条件逻辑工具,用于查询中根据条件生成不同结果。它处理多种条件,可嵌套使用,适用于简单判断到复杂业务规则。无论数据转换还是业务分析,CASE WHEN都是不可或缺的工具。原创 2023-08-30 18:01:27 · 15046 阅读 · 1 评论 -
Python实现企业微信群告警
企业微信群机器人是一个强大的工具,用于实现监控告警和信息通知。机器人发送不同类型的消息通知,我们合理利用企业微信群机器人,可以提升团队的响应速度和业务稳定性,在实际工作中提升效率和效果。原创 2023-08-24 16:50:57 · 2358 阅读 · 0 评论 -
深入理解窗口函数和使用介绍
想象一家咖啡馆,里面有一堵特殊的墙,我们称之为“洞察之墙”。这堵墙背后有一个魔法窗户,这就是窗口函数。这个窗户可以让你透过它去看到一系列的数据,但是你可以使用特殊的工具,比如望远镜和魔法棒,来查看和分析这些数据。现在,让我们来看看这些工具的具体用途:1. **望远镜 - RANK、DENSE_RANK、ROW_NUMBER:** 想象你站在窗户前,你可以通过使用望远镜,看到墙上的标识。这些标识告诉你每个数据在排序中的位置,就像在一个比赛中知道运动员的排名一样。RANK表示前几名的排名,DENSE_原创 2023-08-23 15:04:53 · 4953 阅读 · 1 评论 -
MySQL实现数据炸裂拆分(类似Hive的explode函数的拆分数组功能)
在Hive中,"explode"函数用于将数组类型的列拆分为多行,以便对数组中的每个元素进行处理。然而,在MySQL中,并没有直接的类似功能。但是,我们可以使用一些技巧来模拟这个功能,实现在MySQL中拆分数组并进行查询的操作。本文将介绍如何在MySQL中实现类似Hive的"explode"函数的拆分数组功能。 场景模拟:假设我们有一个名为`wow_info`的表,其中包含一个包含竖线分隔的数字列表的列`tianfu`,我们希望将每一种天赋拆分为多行进行查询。原创 2023-07-07 10:48:23 · 6755 阅读 · 1 评论 -
阿里开业项目chat2DB-人工智能SQL分析介绍
下载安装包Chat2DB Setup 2.0.1.exe后,直接安装即可,界面非常简洁清晰配置完毕后,使用方式将改变成只需要描写需求即可chat2DB除可以AI智能SQL分析,还可以协助自动生成报表例如,wow_info表中,字段:zhuangbei,代表装备类型,有布甲、皮甲、板甲等等现在想去分析一下每种类型的占比情况在Charts栏中可以选择不同的指标,实现不同维度的数据。原创 2023-07-05 15:57:25 · 4257 阅读 · 1 评论 -
Hive中高频常用的函数和语法梳理及业务场景示例
函数在Hive中被广泛使用,可以用于数据清洗、转换、计算和分析等各种业务场景。根据具体的需求,选择合适的函数可以提高查询和处理数据的效率,并实现所需的功能原创 2023-06-29 17:09:45 · 2040 阅读 · 0 评论 -
Flink读写Doris操作介绍
Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。原创 2023-05-15 10:55:17 · 10441 阅读 · 4 评论 -
Doris的分区Partition和分桶Bucket介绍
Range分区是一种基于分区键对表进行分区的方式,分区键指的是表中的某一列,而Range则是指这个列的值的范围。使用Range分区,可以将数据按照列的值的范围进行划分,将数据分散到不同的节点上,以实现分布式存储和查询分区列通常为时间列,以方便的管理新旧数据Partition 支持通过仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。也支持通过指定上下界,生成一个左闭右开的区间当不使用Partition建表时,系统会自动生成一个和表名同名的,全值范围的 Partition。原创 2023-05-12 14:23:30 · 6360 阅读 · 0 评论 -
Doris简介、部署、功能介绍以及架构设计
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。原创 2023-05-10 17:34:44 · 50727 阅读 · 0 评论 -
Flink Table API 和 Flink-SQL使用详解
动态表( Dynamic Tables ) 是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询( Continuous Query )。一个连续查询永远不会终止,结果会生成一个动态表。查询不断更新其动态结果表,以反映其动态输入表上的更改。需要注意的是,连续查询的结果在语义上总是等价于以批处理模式在输入表快照上执行的相同查询的结果。原创 2023-04-15 15:50:18 · 1320 阅读 · 0 评论 -
Flink容错机制介绍
流的barrier是Flink的Checkpoint中的一个核心概念。可以理解成流数据中加入一个个分界线,多个barrier被插入到数据流中,然后作为数据流的一部分随着数据流动( 有点类似于Watermark )。这些barrier不会跨越流中的数据。 每个barrier会把数据流分成两部分: 一部分数据进入当前的快照 , 另一部分数据进入下一个快照。每个barrier携带着快照的id。barrier 不会暂停数据的流动,所以非常轻量级。原创 2023-04-02 15:56:06 · 860 阅读 · 0 评论