自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 哪种js的去重方式针对百万级数据量级更高效

场景推荐方案Kettle 中 JS 去重(万级以下)双重循环(简单)Kettle 中 JS 去重(十万~百万级)Object 哈希法(本文推荐)生产环境百万级去重改用Sort rows步骤你当前的问题,用Object哈希法即可完美解决,既兼容 Kettle,又高效可靠。

2026-01-23 15:53:50 419

原创 TiDB的简单介绍

让开发者像使用单机 MySQL 一样,轻松驾驭 PB 级分布式数据库。对开发者:告别分库分表,专注业务逻辑对 DBA:自动扩缩容、自愈、可视化运维对企业:一套系统支撑交易+分析,降低 TCO(总拥有成本)🌐开源地址📚官方文档如果你正在面临MySQL 扩展瓶颈或需要实时分析能力,TiDB 是一个值得认真评估的现代化数据库解决方案。

2026-01-22 16:15:55 905

原创 Oracle存储过程与触发器的详细介绍

存储过程是一组预编译的 SQL 语句和 PL/SQL 逻辑,存储在数据库中。可被应用程序多次调用,提高性能、减少网络传输、增强安全性。触发器是与表/视图/数据库事件关联的 PL/SQL 程序。当特定事件(如INSERTUPDATEDELETE)发生时,自动执行。组件核心价值典型场景存储过程封装可复用业务逻辑批量处理、API 接口、复杂计算触发器自动化数据维护审计日志、自动时间戳、数据校验🌟记住存储过程 = 你主动调用的“函数”触发器 = 数据库自动执行的“监听器”

2026-01-22 14:52:29 743

原创 MySQL的权限管理的简单介绍

操作谁执行命令查看自己权限任意用户授予/修改权限管理员撤销权限管理员🔐核心原则权限管理 = 安全基石,务必遵循最小权限、明确范围、定期审计。

2026-01-21 17:55:17 740

原创 电商行业的数据中台案例

🔹把流量变成留量(从“买用户”到“经营用户”)🔹让每一次互动都产生价值(内容→交易→数据→优化)🔹让供应链更聪明(需求驱动供给,而非库存驱动销售)在流量红利消失的今天,数据中台是新消费品牌破局增长的“第二曲线”。其本质是一场从“经验驱动”到“数据驱动”的组织变革。

2026-01-21 14:57:20 572

原创 金融行业的数据中台案例分享

🔹让风险看得清(实时、全面、智能)🔹让客户懂得到(千人千面、场景化服务)🔹让决策做得快(数据秒级就绪,业务敏捷响应)数据中台是金融行业从“信息化”迈向“智能化”的必经之路。其成功不在于技术多先进,而在于真正打通了“数据→资产→服务→业务价值”的闭环。

2026-01-21 12:34:53 601

原创 数据平台与数据中台的详细介绍

维度大数据平台数据中台定位技术基础设施企业数据战略核心输出数据表、计算任务数据资产、数据服务用户数据工程师业务人员 + 产品经理成功标准系统稳定性、性能业务效率提升、收入增长演进关系数据中台的技术底座大数据平台的价值升华🌟终极目标让数据像水电一样,随取随用,驱动业务创新。先夯实大数据平台(存算能力)→ 再构建数据中台(资产+服务)→ 最终实现数据驱动业务。

2026-01-21 11:39:45 700

原创 大模型应用开发中Dify的介绍

Dify = 可视化 Prompt IDE + 企业级 RAG + 智能体编排 + 应用发布平台❌ “Prompt 调不好” → ✅ 可视化调试 + 版本管理❌ “知识库不准” → ✅ 深度文档解析 + 混合检索❌ “上线难运维” → ✅ 一键发布 API/Web/机器人如果你不想从零造轮子,又希望比纯 API 调用更可控,Dify 是目前中文生态中最值得尝试的大模型应用开发平台之一。

2026-01-16 17:34:20 727

原创 农业数据获取存在哪些主要困难?

农业数据困境 = 高成本 + 低质量 + 碎片化 + 专业壁垒 + 动态复杂性但正因如此,谁能率先构建高质量、标准化、可持续更新的农业数据闭环,谁就掌握了智慧农业的核心护城河。对于农业企业而言,不要等待“完美数据”,而应通过“小场景试点 + 人机协同 + 持续迭代”逐步积累数据资产——这正是大模型时代农业数字化的最大机遇。

2026-01-16 17:33:47 482

原创 农业数据共享机制如何逐步完善

阶段核心任务成功标志1. 破冰期建立信任,消除顾虑签署首批共享协议,无安全事件2. 验证期打造价值闭环参与方主动续用,数据量月增20%+3. 规模期标准化+制度化80%县域主体接入统一平台4. 生态期市场化自运转数据服务收入覆盖平台运维成本终极目标让农业数据像“水电”一样——安全、便捷、按需使用,用者付费,供者受益。不求一步到位,但求步步生根。从一个县、一种作物、一个场景开始,用真实价值撬动共享生态。

2026-01-16 16:02:10 561

原创 如何解决农业数据的碎片化问题

标准是基础,平台是载体,机制是动力,应用是引擎。1️⃣选准一个高价值场景(如“水稻病害联防”);2️⃣拉通关键参与方(农技站+合作社+无人机公司);3️⃣制定最小可行标准;4️⃣让参与者立刻获益(如减少农药成本)。通过“小闭环验证 → 价值驱动扩展 → 生态自运转”,逐步瓦解数据孤岛。农业数据的价值不在“大”,而在“通”——打通才有生命力。

2026-01-16 15:40:55 736

原创 农业相关业务类的公司搞大模型应用的前景

以下从。

2026-01-16 14:37:27 640

原创 Rag与RagFlow的区别

问题答案RAGFlow 是 RAG 吗?是,但它是 RAG 的企业级增强实现能用 LangChain 替代 RAGFlow 吗?小规模可以,但处理复杂文档(带表格/格式)时,RAGFlow 效果显著更好中小企业该选哪个?- 技术团队强 + 文档简单 → LangChain - 非技术主导 + 文档复杂 → RAGFlow📌一句话记住RAG 是“发动机原理”,RAGFlow 是“一辆 ready-to-drive 的汽车”。

2026-01-15 17:41:31 664

原创 构建知识图谱的落地实施方案

以下是一个的,适用于企业级应用场景(如智能客服、金融风控、医疗问答、企业知识管理等)。方案覆盖从需求分析到上线运营的完整生命周期,强调。

2026-01-15 17:07:49 869

原创 ORACLE里length和lengthb函数的异同点分别是

函数含义单位是否受字符集影响返回字符串的字符个数字符(characters)❌ 不受影响(只数“字”)返回字符串的字节长度字节(bytes)✅ 受数据库字符集影响LENGTH→Length ofCharactersLENGTHB→Length inBytes问题答案LENGTH返回什么?字符个数(如“你好” → 2)LENGTHB返回什么?字节长度(如“你好” → 6,在 AL32UTF8 下)哪个受字符集影响?LENGTHB受影响,LENGTH不受影响存储限制用哪个判断?用。

2026-01-15 11:43:23 285

原创 oracle的varchar2(200)和mysql的varchar(200) 最大支持的字节数和字符数都一样吗

问题答案两者最大支持字节数一样吗?❌ 不一样。Oracle 默认按字节,MySQL 按字符(实际字节更多)200的含义一样吗?❌ 不一样。Oracle 默认是 200 字节,MySQL 是 200 字符哪个更“安全”存多字节字符?✅ MySQL(按字符计数),Oracle 需显式写CHAR迁移时要注意什么?必须确认 Oracle 的VARCHAR2是BYTE还是CHAR!✅最佳实践建议Oracle:尽量使用避免歧义;MySQL:放心用VARCHAR(N),它天然按字符计数;跨库设计。

2026-01-15 11:20:33 946

原创 数据湖的构建实施方法论

数据湖 = 集中式存储 + 原始数据 + 多样格式 + 按需处理特征说明存储原始数据不做预清洗,保留源系统原始格式(JSON、CSV、日志、图像等)基于对象存储使用 AWS S3、Azure ADLS、GCS 等低成本、高可用存储读取时才定义结构,灵活性高支持多引擎Spark、Flink、Presto、Hive、ML 框架均可访问统一数据底座打破数据孤岛,支撑批处理、流处理、机器学习✅典型用例用户行为日志分析IoT 设备数据汇聚企业全域数据归集(ERP + CRM + 日志)

2026-01-15 09:13:01 937

原创 大模型应用中数据质量评估指标与统计分析工具的介绍

毒性检测 = 大模型应用的“免疫系统”它不是简单的“屏蔽脏话”,而是通过技术+策略+人工构建多层次安全防线,确保 AI有用且无害。在数据质量体系中,毒性检测属于“安全与合规性”维度的核心环节。忽视它,轻则用户体验受损,重则引发法律与伦理危机。因此,任何面向公众的大模型应用都必须集成可靠的毒性检测机制。Python 生态(最主流)“没有度量,就没有改进。” —— 数据质量必须可量化、可监控、可行动。目标推荐工具快速探查数据分布自动化质量测试大规模去重/过滤Datatrovedatasketch。

2026-01-14 09:58:53 701

原创 大模型应用中的完整的数据处理链路介绍

Garbage in, garbage out.” —— 在大模型时代,这句话比以往任何时候都更正确。自动化(可复现、可扩展)可审计(每步日志、样本抽样检查)安全合规(PII、版权、伦理)面向任务(预训练 vs 微调数据策略不同)只有经过精心设计和严格质检的数据,才能训练出可靠、有用、安全的大模型。

2026-01-14 09:57:30 840

原创 大模型中Rag的介绍

RAG 不是替代大模型,而是为其“外挂大脑”。它以低成本、高可控性的方式,将大模型的“通用智慧”与“专属知识”结合,是当前最实用、最落地的大模型应用范式之一。“不要微调模型来记住知识,而要用 RAG 让模型学会查找知识。对于企业而言,RAG 是构建安全、可信、可维护的 AI 应用的首选路径。

2026-01-13 16:28:00 742

原创 JavaScript脚本语言的简单介绍

一切皆对象,函数是核心,异步是常态。灵活性:动态类型 + 原型继承 → 快速开发;生态强大:NPM(全球最大包仓库)、React/Vue/Angular、Node.js;全栈能力:一套语言打通前后端。✅学习路径建议掌握 ES6+ 语法(let/const、箭头函数、Promise);理解异步与事件循环;熟悉 DOM 操作(前端)或 Express(后端);学习现代框架(如 React)。📌记住:JavaScript 不是“玩具语言”,而是构建现代 Web 应用的工业级工具。

2026-01-12 15:49:06 436

原创 Numpy库的基础概念和基本操作

用数组代替循环,用向量化代替逐元素操作。np.array()np.zeros().shape.dtypearr[行, 列]+ - * / **np.sum()np.mean()广播机制:自动对齐不同形状数组NumPy 是通往 Pandas、机器学习、深度学习的必经之路,建议动手多练习!

2026-01-12 15:46:45 452

原创 什么是多模态

模态 = 信息的感知或表达通道。模态类型示例视觉图像、视频、3D模型、深度图听觉语音、环境音、音乐语言文本、手写、OCR识别结果触觉/传感温度、压力、加速度(IoT设备)生物信号脑电(EEG)、心电(ECG)、眼动结构化数据表格、知识图谱、数据库记录多媒体:侧重内容呈现(如视频+字幕);多模态:侧重语义理解与跨模态关联(如“看到狗叫 → 理解这是‘狗’在发声”)。多模态是通向通用人工智能(AGI)的关键路径之一。

2026-01-08 13:41:43 820

原创 指标体系建设实施方法论

指标体系是一组围绕企业战略目标和业务场景,系统化设计的、相互关联的核心指标集合,用于衡量业务表现、监控运营状态、驱动决策优化。单个指标= “体温37℃”指标体系= “体温 + 心率 + 血压 + 呼吸频率” → 综合判断健康状况衡量产品/公司长期健康度的最核心指标应与用户价值和商业价值强相关公司类型北极星指标示例SaaS(如钉钉)月活跃用户数(MAU)电商(如淘宝)总交易额(GMV)内容平台(如抖音)日均观看时长金融(如支付宝)月活支付用户数。

2026-01-08 11:02:05 832

原创 Elasticsearch(ES)的基本概念、架构及基本使用介绍

Elasticsearch = 分布式 + 全文检索 + 实时分析 + 可视化它是现代数据栈中不可或缺的组件,尤其适合“写多查快”的场景。虽然不能替代关系型数据库,但在搜索、日志、监控等领域几乎成为事实标准。

2025-12-30 11:42:26 675

原创 StarRocks(SR)的基本概念、架构及基本使用介绍

StarRocks = 高性能 + 实时性 + 易用性 + 开源免费它解决了传统 OLAP “快而不全”(如 ClickHouse)或“全而不快”(如 Hive)的痛点,是当前国产开源 OLAP 引擎的标杆。替代 Kylin/Druid 的预计算;替代 ClickHouse 的复杂分析;构建统一实时数仓,那么StarRocks 是一个非常值得投入的技术选型。

2025-12-30 11:35:12 1127

原创 大数据行业中,什么是拉链表?具体怎么做?

在大数据行业中,是一种用于高效存储和管理的数据建模技术,尤其适用于需要记录历史变更、支持时间点查询的场景。它通过“拉链”方式将一条记录在不同时间段的状态串联起来,避免全量快照带来的存储浪费。

2025-12-26 14:09:21 529

原创 MySQL数据库专家级工程师给的职业化建议

无论处于哪个阶段,保持对数据的敬畏之心,脚踏实地钻研技术,同时抬头看路理解业务,你一定能在这个领域占据不可替代的一席之地。

2025-12-26 11:19:52 486

原创 Oracle专家级数据库工程师的认知与经验

Oracle 不是一个“配置完就不用管”的软件,而是一个需要持续关注、理解、呵护的“生命体”。你对它的理解越深,它就越稳定、高效、可靠。而你的价值,就体现在“别人搞不定的时候,你能搞定”。帮你分析一条慢 SQL设计一个备份策略解读一份 AWR 报告模拟一次故障恢复演练欢迎随时带着具体问题来问!成长路上,有人带,真的不一样。| Server Process | ← PGA(私有内存)

2025-12-24 17:21:37 899 1

原创 Oracle中如何监控SQL执行时间?

场景推荐方法实时查看谁在跑慢 SQL(查分析最近哪些 SQL 最耗时V$SQL按排序长期性能趋势分析AWR 报告深度诊断单条 SQL监控大事务/导入导出进度如果你能提供具体需求(例如:“我想知道昨天下午 3 点那条慢查询到底花了多久”),我可以给出更精准的查询语句。

2025-12-24 14:41:40 770

原创 Python基础知识-数据结构篇

数据结构可变?有序?允许重复?典型用途list✅✅✅通用序列,动态数组tuple❌✅✅固定结构,函数返回值dict✅✅(3.7+)键❌ / 值✅键值映射,快速查找set✅❌❌去重,成员检测,集合运算str❌✅✅文本处理frozenset❌❌❌不可变集合,可用作键。

2025-12-19 16:22:21 1030

原创 Pandas库基础概念和基础操作

概念说明Series一维带标签数组DataFrame二维表格结构,核心分析对象Index行/列标签,支持快速查找和对齐高效的批量计算Data I/O支持 CSV、Excel、JSON、SQL 等多种格式掌握这些基础概念后,你就可以高效地进行数据加载、清洗、探索和分析了。如需进一步学习,可参考官方文档:https://pandas.pydata.org/docs/

2025-12-19 16:19:52 785

原创 数据质量管理

fill:#333;color:#333;color:#333;fill:none;定范围+定规则搭平台+配规则自动监控+告警分析根因+修复制度固化+持续优化终极目标当业务说“这个数据不准”,你能5分钟内定位问题、2小时内修复,并防止再次发生。通过以上体系化实施,企业可将数据质量从“救火式运维”转变为“预防式治理”,真正释放数据资产价值。

2025-12-17 14:35:25 876

原创 什么是主数据管理(附具体实施)

高价值:支撑核心业务(如客户、产品)高共享:被多个系统/部门使用(CRM、ERP、BI 等)相对稳定:不频繁变化(相比交易数据)结构化:有明确属性(如客户ID、名称、地址)fill:#333;color:#333;color:#333;fill:none;选域定目标建模型定标准搭平台做整合洗数据出黄金记录建流程保治理推应用显价值终极目标当业务说“客户张三”,全公司都知道是哪个唯一实体,且所有系统数据一致。

2025-12-17 09:14:12 753

原创 怎么评估元数据管理的实施成效

维度关键问题核心指标成功标志覆盖广度管得全吗?核心资产覆盖率 ≥90%重要数据“一个不落”使用深度有人用吗?MAU ≥ 2×数据团队业务人员主动使用业务价值有用吗?问题定位时间 ↓50%省时、省钱、降风险治理能力能持续吗?变更及时率 ≥95%自动化+责任到人最终检验标准当新员工入职时,第一反应是“去元数据平台查数据”,而不是“问同事要表”—— 说明元数据管理真正融入了组织血液。通过这套评估体系,企业可避免“为建而建”,确保元数据管理投入产生真实业务回报。

2025-12-16 15:23:44 719

原创 什么是元数据管理?(附具体实施方案供参考)

fill:#333;color:#333;color:#333;fill:none;明确目标与范围选型+设计模型自动化采集构建数据目录嵌入流程+持续运营最终目标让任何员工都能在5分钟内找到所需数据,并100%理解其含义和可信度。通过以上方案,企业可将元数据从“技术附属品”转变为“数据资产核心基础设施”,为数据驱动决策奠定坚实基础。

2025-12-15 16:06:01 875

原创 什么是数据标准

数据标准 = 对“数据应该长什么样”的权威约定。这个字段叫什么名字?(命名规范)它表示什么业务含义?(业务定义)它的数据类型是什么?(技术规范)它的取值范围有哪些?(值域/代码集)它的精度/长度是多少?(格式要求)谁负责维护它?(责任归属)数据标准是数据治理的“宪法”——它让数据从“资源”变成“资产”,从“混乱”走向“有序”。类型核心作用业务标准统一语言,对齐认知技术标准规范实现,保障互通管理标准明确责任,持续运营交换标准打通系统,高效协同没有数据标准,数据治理就是“空中楼阁”

2025-12-15 15:32:23 996

原创 oceanbase基础概念和语法介绍

关键点说明定位分布式 HTAP 数据库,替代 MySQL/Oracle核心优势强一致性、水平扩展、金融级高可用使用门槛兼容 MySQL/Oracle,但需注意限制(如无外键)适用场景高并发交易系统、海量数据存储、混合负载开源版本:OceanBase CE(社区版)免费可用。掌握以上概念和语法,即可开始在 OceanBase 上开发和部署应用!

2025-12-12 16:18:13 1119

原创 一个自研公司通过出售自己的数据融合平台产品到客户公司的云平台上部署 前期POC阶段是指什么?具体要做哪些方面的POC?

是指:在正式采购或大规模部署前,由供应商(你方)在客户环境中(通常是客户云平台的测试/沙箱环境)小范围验证产品核心能力是否满足客户业务或技术需求的过程。它不是完整交付,而是聚焦关键场景的可行性验证打消客户疑虑证明产品价值为后续商务谈判和正式合同提供依据POC 不是技术秀,而是价值验证。在客户云环境中,用真实数据证明你能解决他最痛的 1~2 个问题,且安全、稳定、可运维。“您最关心哪三个能力?“什么情况下算 POC 成功?“谁来参与测试和验收?这样能大幅提高 POC 成功率,加速项目落地。

2025-12-11 15:00:50 992

原创 MongoDB基础知识

在不同工具或编程语言中操作 MongoDB(增删改查),核心逻辑一致,但语法和 API 不同。"COMPANY_NAME": "广东美的电器股份有限公司"假设集合名为companies,我们将展示5 种主流方式的完整 CRUD 操作。工具_id处理方式特点原生,最权威Compass自动转换,适合非开发人员PyMongo需导入Node.js驱动内置构造函数Kettle字段类型设为ObjectId在 UI 中配置,非写代码。

2025-12-09 14:15:20 691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除