肥仔鱼yumgpkpm-CSDN博客

原创预测：2026年大数据软件+AI大模型的发展趋势

2026年大数据与AI大模型六大趋势预测：1）架构融合升级为AI原生数据平台，60%新建平台将内置智能接口；2）数据资产化进入新阶段，企业数据将正式入表并金融化；3）大模型深度赋能分析流程，70%BI工具集成AI能力；4）合规要求趋严，隐私计算市场增速超40%；5）工业、电力、医疗成为三大核心应用场景；6）国产全栈技术加速替代，形成独立技术生态。IDC预计中国市场规模将达365亿美元，技术发展呈现"数智共生"新特征。

2026-02-06 14:33:13 461

原创告别AI概念混乱！一次性讲透 Agent Skills、Rules、Prompt、MCP

摘要：本文系统解析了AI智能体开发中的四大核心概念——Prompt、Rules、AgentSkills和MCP。Prompt是临时对话指令，Rules是全局行为约束，AgentSkills是可复用能力模块，MCP则是外部工具连接协议。四者各司其职：Rules确保安全底线，Skills提供专业能力，MCP连接现实世界，Prompt指导具体任务。通过协同工作，它们共同推动AI从简单对话向专业数字员工进化，实现高效、安全、可扩展的智能体开发。

2026-02-05 16:12:29 500

原创华为昇腾300T A2训练、微调Qwen过程，带保姆式命令，麒麟操作系统+鲲鹏CPU

{"instruction": "用Python写一个快速排序", "input": "", "output": "def quicksort(arr): ..."}模型路径示例：/home/HwHiAiUser/qwen-workspace/models/qwen/Qwen-1_8B-Chat。{"instruction": "解释量子纠缠", "input": "", "output": "量子纠缠是..."}# === 关键：限制线程避免OpenBLAS冲突（麒麟ARM常见问题）===

2026-02-05 15:29:48 561

原创华为昇腾300I A2评测过程，带保姆式命令，麒麟操作系统+鲲鹏CPU

本文详细介绍了在银河麒麟操作系统（ARM64架构）和鲲鹏920 CPU环境下对华为昇腾300IA2推理卡进行完整评测的流程。内容涵盖硬件识别、驱动安装、环境配置到模型部署与性能测试的全过程，提供详细的命令行操作指南。评测流程包括：确认系统架构、安装NPU固件和驱动、配置CANN工具包、部署Qwen2.5-7B大模型（需将bfloat16改为float16）、启动推理服务容器，以及进行性能评测和常见问题排查。实测结果显示，该组合在FP16推理等特定场景下表现优异，虽然生态成熟度不及x86+CUDA，但在安全性

2026-02-04 11:53:56 741 2

原创 AI大模型时代：谁在摧毁2025年中国的企业软件产业？白嫖，开源，外包，招标，数科，AI...

中国企业软件产业面临系统性困局：2025年行业规模将超13.7万亿，但40%企业亏损，利润率不足2%。六大因素正摧毁产业根基：1）"白嫖文化"导致价值认知塌陷；2）开源异化为内卷工具；3）外包模式陷入低水平重复；4）"最低价中标"制度逆向淘汰优质企业；5）国央企数科公司挤压中小企业；6）AI大模型短期加剧价格战。破局需构建"标准化+智能化+生态化"新范式，关键在于重建"软件值得付费"的行业共识，从成本思维转向价值创造思维。

2026-02-03 15:51:54 788

原创 2026软件：白嫖，开源，外包，招标，晚进场（2025年下半年），数科，AI...中国的企业软件产业出路

中国企业软件产业面临多重困境：白嫖文化盛行、开源套利泛滥、低价招标成风、外包模式固化、数科公司内卷、AI泡沫显现以及晚进场者红海竞争。破局之道在于三大转型：聚焦高壁垒垂直行业，构建AI原生数据闭环产品，与数科公司竞合共生。建议采用"OpenCore+SaaS+服务"混合模式，抓住信创机遇但超越简单替代，真正实现软件价值可量化。出路在于证明软件能创造实际业务价值，当客户因软件获得真金白银收益时，行业将迎来真正的春天。

2026-02-03 10:45:48 917

原创谁在摧毁中国的企业软件产业？白嫖，开源，外包，招标，数科，AI...

中国软件产业正面临系统性危机。从用户端的"白嫖文化"扼杀付费意愿，到开源依赖导致技术自主性缺失；从低价招标引发的恶性竞争，到国企数科公司挤压市场空间；再加上AI浪潮加速行业洗牌，以及效率-合规-成本的"不可能三角"制约，多重压力共同作用导致产业生态失衡。破局需要用户认可软件价值、厂商转型场景化服务、政策扶持技术创新、构建价值共生生态，推动软件从"成本项"转变为"增长引擎"。

2026-02-02 09:47:47 491

原创在AI语言大模型时代 Cloudera CDP（华为CMP 鲲鹏版）对自有知识的保护

在AI大模型时代，企业面临自有知识保护与智能化利用的双重挑战。Cloudera CDP（华为CMP鲲鹏版）作为新一代数据平台，提供了从数据采集到RAG应用部署的全栈解决方案，确保数据主权、精细化访问控制、全链路审计和私有化Embedding处理。该平台支持混合多云部署，集成AI/ML工程化能力，满足金融、医疗等行业的严格合规要求。通过构建完全自主的智能问答系统，企业可在不依赖外部API的情况下安全激活知识资产，实现"知识不外流、模型不依赖、答案可解释"的目标，为数字化转型提供可信可控的基

2026-01-27 10:14:18 695

原创 Cloudera CDP/CDH/Hadoop 信创大模型AI时代何去何从？

抓住 2026 年窗口期，完成从 CDH 到 CMP 的平滑跃迁，是企业迈向“可信 AI 时代”的关键一步。Cloudera CDP/CDH 信创大模型AI时代何去何从？在信创（信息技术应用创新）与AI大模型深度融合的时代背景下，自研 Inceptor SQL 引擎，多模型支持。❌ 受美国出口管制，不兼容鲲鹏/飞腾。，但其架构、许可与地缘政治属性，使其。❌ 数据出境风险，不符合等保2.0。❌ 不支持 ARM、麒麟/UOS。⭐⭐☆（需少量 SQL 适配）轻量化，提供迁移评估工具。金融案例丰富，组件齐全。

2026-01-26 14:39:27 1015 1

原创银行智能数据平台在Cloudera CDH6\CDP 7\CMP 7平台下的具体使用配置流程

《银行智能数据平台在Cloudera CDP7.3下的全链路配置指南》摘要：本文详细介绍了基于Cloudera CDP7.3（或国产CMP鲲鹏版）构建银行智能数据平台的实施流程。涵盖安全认证（Kerberos+LDAP）、统一网关（Knox配置）、核心系统数据接入（包括交易流水、渠道日志等）、计算调度（批处理/实时计算）、AI建模（CML环境）以及治理监控（Ranger权限控制、Atlas血缘追踪）等全链路配置。特别强调金融行业合规要求，提供分步操作指南和典型场景示例（如动态脱敏处理、风控特征工程），最终实

2026-01-21 16:22:00 566

原创 AI校服识别算法的成本+规划

AI校服识别系统成本主要包括：算法研发（10-50万元）、硬件部署（1.6-10万元）、软件服务（0-3000元/年）和运维（1-2万元/年）。单校部署总成本约8-15万元，年运维低于1万元。采用开源框架、边缘计算和复用现有设备可显著降低成本，投资回收期1-2年。典型方案包括自研模型+边缘设备或SaaS订阅服务（20-50元/人/年）。系统可提升管理效率，实现98%准确率的无感考勤。

2026-01-20 10:44:57 626

原创 Cloudera CDP/CMP华为鲲鹏版下 Spark应用加速，华为昇腾芯片的实用配置过程

要将 Apache Spark 应用与华为昇腾（Ascend）芯片集成以实现 AI/ML 环节加速，需构建一个“Spark 负责数据预处理 + 昇腾负责模型训练/推理”的混合架构。以下是截至 2026 年的完整、可落地的实用配置流程，适用于企业级部署（如 Atlas 800/900 服务器或华为云 CCE 集群）。下载地址：https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is 查找“Hadoop信创”，输入“CMP”恢复最新下载

2026-01-16 14:09:11 779

原创基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案

摘要：Cloudera与NVIDIA联合推出基于GPU的Spark加速解决方案，通过CDP企业级数据平台与RAPIDS加速引擎的无缝集成，实现Spark应用无需代码改造即可获得5-10倍性能提升。该方案支持端到端GPU优化数据链路，深度集成企业级安全治理体系，已在金融风控、智能营销等场景验证显著效果，单GPU可替代多台CPU服务器，能耗降低3.8倍，助力企业构建智能化数据平台。（149字）

2026-01-15 17:20:33 899 1

原创 Cloudera CDH、CDP 7下载、Hadoop（华为CMP 鲲鹏版）平台与银行五大平台的技术对接方案

摘要：本文提出ClouderaCDP7（华为鲲鹏版）与银行五大核心业务平台的技术对接方案。该方案通过统一数据湖仓架构，实现核心银行系统、渠道平台、风控平台、数据中台和开放银行平台的数据融合与治理。方案采用Iceberg表格式、实时流处理和安全治理等技术，支持批流一体数据处理、字段级权限控制和动态脱敏，满足金融行业合规要求。通过混合云部署和信创适配（鲲鹏+国产OS），为银行数字化转型提供安全可控的数据基础设施支撑，实现"一个平台，全域数据"的核心价值。

2026-01-15 15:24:41 562

原创 Cloudera CDH、CDP、Hadoop大数据+决策模型及其案例

摘要：Hadoop作为大数据处理核心技术，已在国内金融、政务、医疗等领域广泛应用，并与机器学习、规则引擎等决策模型深度融合，形成数据采集-存储-分析-决策闭环。典型架构采用HDFS存储数据，Spark进行计算，Hive构建数仓，决策模型部署在机器学习平台。典型案例包括医保药品分析、智慧农业、电商推荐系统等，通过预测模型、聚类算法等实现智能决策。实施中需关注数据质量、特征工程及模型可解释性。未来Hadoop与AI大模型的融合将推动决策向自主优化发展。

2026-01-12 17:48:10 744

原创华为 GaussDB 商业版（本地部署）部署方案及相关步骤

摘要：华为GaussDB商业版支持本地私有化部署，面向政企客户需求，提供高可用、国产化合规的数据库解决方案。部署核心包括GaussDB实例、TPOPS管理平台及可选DRS迁移工具，需满足严格硬件（8核/64GB/1TB存储）、国产OS（如麒麟）及UTC时区等要求。TPOPS需三节点高可用部署，通过容器化脚本自动安装，后续通过Web控制台管理实例与License。关键注意版本匹配、存储性能及网络隔离，建议严格遵循官方文档操作。该方案虽门槛较高，但能有效替代Oracle/DB2，适合大型政企核心系统。

2026-01-12 16:09:34 1064

原创年轻人为什么越来越爱“盘东西”（AI来回答）

年轻人热衷"盘东西"现象背后暗藏多重动因。从生理角度看，盘玩动作能调节大脑唤醒水平；认知层面可作为思维"稳压器"提升专注力；情绪上则通过触觉反馈产生愉悦感；心理上提供对抗不确定性的掌控感；社会文化层面成为身份表达的新符号。这一行为既继承了传统"清玩"文化，又适应了现代人减压需求，在快节奏社会中成为年轻人寻求内心平衡的独特方式。

2026-01-10 13:56:10 180

原创 Cloudera CDH5、CDH6、CDP7现状及替代方案（附下载）

架构陈旧，缺乏 Flink、Iceberg、向量检索等 AI 时代组件支持。无 CVE 漏洞修复（如 Log4j、Kerberos 漏洞），易被攻击。组件故障无法获得官方支持，依赖第三方“公益巡检”（如碧茂科技）- 自研 Inceptor SQL 引擎（兼容 HiveQL）不符合等保2.0、金融行业数据安全规范、信创验收要求。⭐⭐⭐⭐☆（高度兼容，代码几乎无需修改）- 支持多模型（图、时序、文本）- 提供迁移评估与双跑验证工具。⭐⭐⭐☆（需少量 SQL 适配）- 支持 30+ 开源组件。

2026-01-07 14:30:24 730 1

原创 AI评判：信创替代对Cloudera CDH CDP Hadoop大数据平台有何影响？

信创替代对Hadoop大数据平台影响深远：技术架构转向全栈国产化，需重构x86+CentOS+CDH体系；生态适配需完成全链路认证，面临性能调优挑战；运维短期成本上升但长期可控；人才需掌握国产芯片和数据库技能；同时催生数据库迁移、ETL重构等新市场。信创替代既是挑战，更是构建自主可控大数据生态的机遇，预计2027年相关市场规模将突破1200亿元。

2026-01-07 12:46:16 1047 1

原创基于Hadoop生态构建的企业级大数据平台的排行榜

并深度集成 Hive、Spark、HBase、Kafka、Flink 等开源组件，同时提供企业级增强（如高可用、安全、治理、可视化、运维）能力的商业平台。- 提供 Euclid（采集）、Euler（治理）、Gauss（开放）等完整套件。- 自研 Inceptor（SQL 引擎）替代 Hive，性能提升 10x+偏重数据治理与服务化，Hadoop 作为底层存储之一，非纯 Hadoop 平台。- 支持多模型（图、时序、文本）+ 统一 SQL 访问。（前者是自研 MPP 引擎，后者偏调度+湖仓），因此。

2026-01-07 11:38:30 704 1

原创网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的AI功能操作步骤

网易数帆EasyData支持以Cloudera CDP或华为CMP（鲲鹏ARM版）为数据底座的AI增强分析方案。该方案通过JDBC/ODBC接入CDP/CMP数据源，利用EasyData内置AI引擎实现自然语言查询（ChatBI）、时序预测和异常检测等功能。实施步骤包括：1）配置数据源连接（支持Kerberos认证）；2）同步元数据并创建逻辑表；3）启用AI功能模块。特别针对华为CMP需注意ARM64架构适配和性能优化。该方案适用于已部署CDP/CMP且需保留原数据存储的企业，实现数据与AI能力的解耦部署。

2026-01-05 19:22:02 1015

原创网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的ChatBI方案

网易数帆EasyData可与华为CloudCMP构建定制化ChatBI方案，通过JDBC/ODBC实现异构集成。该方案保留CMP作为数据底座，利用EasyData提供智能交互层，适用于需国产化改造且保留现有数据架构的企业。实施需解决元数据同步、权限映射等技术适配问题，虽非官方标准方案，但技术可行，尤其适合多云环境和信创要求场景。典型应用案例包括金融机构在合规要求下实现中文智能数据分析。

2026-01-05 18:47:42 1227

原创银行的数据智能平台和Cloudera CDP 7.3（CMP 7.3）的技术对接

本文详细介绍了银行数据智能平台与Cloudera CDP 7.3的技术对接方案，涵盖环境准备、安全合规、数据集成、模型开发和运维监控全流程。方案包括六个关键步骤：基础安全配置、数据接入对接、计算模型对接、元数据治理、安全加固及监控告警，特别强调金融级安全要求，如Kerberos认证、TLS加密和敏感数据脱敏。该方案适用于银行科技部门，旨在实现安全高效地调用CDP的存储、计算和AI能力，满足金融行业严格的合规要求。

2025-12-31 16:23:37 1267

原创 Cloudera CDP 7.3（国产CMP 鲲鹏版）平台与银行五大平台的技术对接方案

摘要： Cloudera CDP7.3（国产CMP鲲鹏版）为银行五大核心平台（核心系统、渠道平台、风控平台、数据中台、开放银行）提供统一数据湖仓与治理方案。通过CDC、实时流处理（Kafka/Flink）及批量ETL实现多源数据安全入湖，依托Iceberg表格式、Spark/Flink计算引擎及CML特征服务支撑智能风控、客户洞察等场景。方案强调金融级合规，通过Ranger权限控制、Atlas血缘追踪及动态脱敏满足等保三级要求，建议采用混合云部署，分阶段实现数据价值释放与治理闭环。

2025-12-29 13:50:51 597

原创 Hadoop如何用Flink支持实时数据分析需求

摘要：Cloudera CDP7.3通过集成Kafka、Flink、Kudu等组件构建批流融合架构，支持毫秒级实时数据分析。其核心方案包括Kafka作为消息总线、Flink/Spark Streaming流处理、Kudu+Impala实时存储查询组合，适用于金融风控、实时监控等场景。该平台通过资源隔离、Checkpoint优化等手段提升性能，并支持ML模型实时推理。尽管在ARM架构下存在组件兼容性问题，但整体提供了企业级可治理的实时分析解决方案，尤其适合强监管行业的低延迟需求。

2025-12-22 14:50:15 1460 1

原创 Cloudera CDH5|CDH6|CDP7.1.7|CDP7.3|CMP 7.3的产品优势分析（在华为鲲鹏 ARM 麒麟KylinOS、统信UOS）

Cloudera CMP7.3企业级大数据平台优势分析：该平台提供全栈式数据处理能力，覆盖批处理、实时流处理及AI集成；具备统一安全治理体系，满足国内外合规要求；采用高可用架构，支持HDFS+Ozone双存储引擎；提供图形化运维管理工具。特别在信创适配方面，通过鲲鹏ARM优化实现国产化支持，适配麒麟OS、统信UOS等系统，性能提升超50%。平台兼容开源生态，支持云服务集成，实现"一个平台，全域数据，安全可控"的核心价值，适用于AI时代及信创环境的企业级需求。

2025-12-22 11:20:31 604

原创 Cloudera CDP7、CDH5、CDH6 在华为鲲鹏 ARM 麒麟KylinOS做到无缝切换平缓迁移过程

摘要：随着CDH官方支持终止及ARM架构普及，将CDH迁移至华为鲲鹏ARM版CMP7.13平台成为必要选择。CMP7.13具备高度兼容性、平滑迁移工具及AI就绪能力，支持分阶段迁移策略：评估规划→双跑并行→逐步切流→验证优化。实际案例显示，该方案能实现无缝切换，性能提升15%以上，同时满足信创合规要求，降低30%+总体成本，是面向AI时代的关键技术升级路径。（149字）

2025-12-18 09:53:19 1281

原创 Iceberg在Hadoop集群使用步骤（适配AI大模型）

摘要：本文详细介绍了在Cloudera Data Platform(CDP)集群中使用Apache Iceberg的完整步骤。主要内容包括：环境要求(CDP 7.1.7+版本、Spark3.x)、通过Cloudera Manager配置Spark启用Iceberg支持、使用SparkSQL创建和管理Iceberg表、数据操作(增删改查/TimeTravel)、表结构变更等核心功能。同时说明了Iceberg在HDFS/S3上的存储结构、CDP支持的高级特性(如Row-Level Delete)以及常见问题排查

2025-12-17 16:24:22 699

原创 Iceberg在Cloudera CDP集群详细操作步骤

摘要：本文详细介绍了在Cloudera CDP集群（7.1.7+版本）中部署和操作Apache Iceberg的完整流程。内容涵盖环境配置（Spark扩展、Hive Catalog）、表创建（USING iceberg语法）、数据操作（插入、更新、删除）、高级功能（TimeTravel、Schema Evolution）及运维验证（分区变更、跨集群复制）。关键步骤包括：通过Cloudera Manager启用Iceberg扩展，使用SparkSQL执行DDL/DML，并验证元数据存储结构（HDFS/S3）

2025-12-17 15:32:51 721

原创 Iceberg 在hadoop大数据数据湖领域这么火

摘要：Apache Iceberg因其解决Hive表的核心痛点而成为数据湖领域的热门技术。它通过独立元数据存储、完整ACID事务支持和灵活分区管理，有效应对HDFS依赖和并发写入问题。Iceberg还满足AI时代的数据需求，如时间旅行和增量读取，并支持云原生架构和多引擎兼容。其企业级功能包括高性能查询和数据治理，且拥有强大的开源生态与巨头背书。作为中立开放的表格式，Iceberg既兼容Hadoop生态，又引领未来架构，成为现代数据湖的核心支柱。

2025-12-17 15:07:04 1401

原创 Transformer的工作原理

Transformer是一种基于注意力机制的深度学习模型架构，由Google在2017年提出。它抛弃传统RNN/CNN结构，采用自注意力和前馈网络，实现高度并行化和全局依赖建模。核心组件包括输入表示、多头自注意力机制和位置编码。Encoder-Decoder结构支持多种任务，其中Decoder使用掩码防止信息泄露。Transformer的优势在于并行化处理、长程依赖建模和强大的可扩展性，成为GPT、BERT等大模型的基础，并广泛应用于NLP、CV等领域。

2025-12-17 13:57:38 753

原创 Keepalived详解：安装与高可用集群配置

本文详细介绍了Keepalived高可用解决方案。首先解析其基于VRRP协议的工作原理，包括主备切换机制和三大核心模块。随后提供了两种安装方式：YUM快速安装和源码编译安装（推荐生产环境）。重点讲解了主备节点的配置方法，包括参数说明和验证步骤，并介绍了非抢占模式的配置。文章最后总结了Keepalived在实际生产中的应用价值，强调其结合负载均衡器构建健壮高可用架构的能力。全文从原理到实践，为读者提供了完整的Keepalived部署指南。

2025-12-16 15:55:11 1013

原创 Cloudera CDP 7.3下载地址、方式，开源适配 CMP 7.3（或类 CDP 的 CMP 7.13 平台，如华为鲲鹏 ARM 版）值得推荐

摘要： Cloudera CDP 7.3官方已不再提供免费下载，仅限订阅客户通过门户获取。国产信创项目可通过华为等厂商获取适配ARM架构的定制版CMP 7.3。开发者可申请60天试用版（仅x86），或自行集成开源Hadoop生态组件。第三方分享的安装包存在安全风险，建议通过官方或合规渠道获取。

2025-12-16 11:20:57 734 1

原创（简略）AI 大模型手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析

AI大模型手机存在"简单替换陷阱"，仅机械替代传统功能而缺乏系统重构。Hadoop大数据底座作为AI训练的"数据粮仓"至关重要，二者形成制约关系：低质AI应用会污染数据湖，而高质量数据流能支撑持续进化的端侧AI。突破路径需构建端-边-云协同架构，采用联邦学习等技术升级，并强化数据治理。厂商实践显示，华为的端云协同模式优于苹果的封闭架构。未来应向AI原生操作系统发展，推动Hadoop演进为智能数据底座，建立用户数据贡献激励机制。建议从CDH平缓迁移至类Cloudera

2025-12-16 09:36:13 509

原创 AI大模型手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析

本文探讨了AI手机发展中的"简单替换陷阱"现象与Hadoop大数据底座的相互关系。研究发现，当前AI手机仅简单替换传统功能模块而未重构系统架构，导致数据质量下降、资源浪费等问题。同时指出Hadoop作为AI训练的数据基础，其存储、批处理等核心功能仍不可替代。文章通过华为与苹果的案例对比，提出需构建"端-云协同"的智能体系，实现从"功能AI"到"系统AI"的转变，使Hadoop成为连接终端与云端的关键枢纽，从而真正释放AI潜力。

2025-12-16 09:17:14 1012

原创 hadoop集群搭建 (超详细) 接入Impala、Hive，AI 大模型的数据底座

本文详细介绍了在统信UOS系统（海光CPU）上安装Cloudera CDP 7.3和CMP v7.13的完整流程。主要内容包括：系统环境准备（关闭防火墙、配置互信）、安装Python 3.9.14、PostgreSQL和MySQL数据库配置、OpenJDK安装、自建YUM源部署、集群组件安装与配置（CM Server/Agent）、Web UI管理界面使用，以及HDFS/YARN高可用配置。文档还提供了组件功能测试方法和百度网盘资源下载链接（提取码：gkey），适用于国产化环境中构建大数据平台的技术人员参考

2025-12-15 09:17:53 1253

原创 Hadoop 与AI大模型实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法

摘要：本文提出从Hadoop数据湖（Hive/Impala）到AI决策的落地方法，采用四步走策略：1）构建统一数据底座，确保数据质量；2）建立可复用特征工程体系；3）实现模型训练与评估自动化；4）部署低延迟推理服务。重点强调特征一致性、闭环反馈机制和业务场景落地，建议从高价值场景入手，避免"大而全"方案。通过将传统大数据平台与现代AI工程结合，可低成本构建持续进化的智能决策系统。

2025-12-10 10:28:22 671 1

原创 Hadoop大数据集群搭建（超详细）_hadoop集群搭建

本文详细介绍了在国产麒麟aarch64系统上安装Cloudera CDP 7.3和CMP v7.13的完整流程。主要内容包括：1）安装前的准备工作，如关闭防火墙、设置主机名、互信配置等；2）关键组件安装步骤，包括Python 3.9.14、PostgreSQL、MySQL 8.0.39等；3）Cloudera Manager的安装与配置；4）通过WEBUI进行集群设置和服务安装。文档还提供了详细的数据库创建脚本、系统参数优化建议以及安装过程中常见问题的解决方法，并附有安装文件的下载链接。该指南适用于在国产化

2025-12-09 16:53:25 1281 1

原创 Hadoop、Cloudera CDH没有消亡，它是大数据的未来

摘要： Hadoop及其生态（如CDH）并未消亡，而是以进化形态融入现代数据基础设施。核心组件（HDFS/YARN/Hive）的理念被云原生技术（对象存储/K8s/统一SQL引擎）继承，国产化需求（如鲲鹏ARM）更推动其发展。在AI时代，Hadoop的数据治理能力成为关键基石。Cloudera等厂商通过CDP等平台实现平滑升级，证明Hadoop思想仍是数据架构的核心范式。技术演进并非颠覆，而是对分布式存储与计算本质的延续。

2025-12-09 15:27:41 1308 2

原创 Hadoop 实战：从海量数据到 AI 决策的落地方法（建议由CDH迁移到CMP 7.13 平台（类Cloudera CDP，如华为鲲鹏 ARM 版）可以做到无缝切换平缓迁移）

本文介绍了从CDH平台迁移到国产化CMP7.13平台的Hadoop实战方法，聚焦海量数据处理到AI决策落地的全流程。核心内容包括：1）Hadoop作为数据与算力双底座的架构设计；2）分阶段实操指南（数据采集、存储优化、特征工程、模型训练、决策落地）；3）国产化迁移脚本示例；4）企业级保障体系。文章强调通过工具化、标准化和闭环化方法，实现AI决策从数据输入到业务输出的完整链路，并提供了具体的配置参数、性能优化点和迁移方案，助力企业IT团队快速推进项目落地。

2025-12-09 10:52:12 1528

【大数据平台部署】基于鲲鹏Taishan服务器的Cloudera CDP 7.3专版安装指南：面向麒麟aarch64系统的全流程配置与高可用实现方案

内容概要：本文详细介绍了在华为鲲鹏Taishan服务器上基于麒麟Kylin V10操作系统（aarch64架构）部署Cloudera CDP 7.3专版的完整流程。涵盖从系统环境准备、依赖组件安装（如Python 3.9.14、Java 11、MySQL 8.0.39、PostgreSQL）、自建YUM源、CM服务离线安装，到通过Web UI完成CDH集群搭建、服务配置、高可用设置（HDFS/YARN）、负载均衡（Haproxy）以及核心组件（HDFS、Hive、MapReduce、Spark）的功能验证。文中还针对Kafka启动异常、Atlas索引缺失等问题提供了具体解决方案，并强调了Kerberos认证、时间同步、系统参数调优等关键前置条件。; 适合人群：具备Linux系统管理和大数据平台运维经验的工程师，熟悉Cloudera Manager操作，从事国产化平台（鲲鹏+麒麟）大数据环境部署的技术人员；使用场景及目标：① 在国产化硬件与操作系统环境下构建安全、高可用的大数据平台；② 掌握CDP集群的离线部署、服务配置与故障排查方法；③ 实现HDFS、YARN等核心组件的高可用部署与性能测试；阅读建议：本文为实操型技术指南，建议结合实际环境逐步执行，重点关注系统兼容性、依赖包版本一致性及安全配置（如Kerberos）。在部署前应充分理解各步骤的作用，尤其是数据库初始化、CM-Agent与Server通信配置、WebUI引导安装等关键环节，建议在测试环境中先行验证后再应用于生产环境。

2025-09-18

CDH6-7集群卸载Kerberos认证并恢复服务配置与测试

内容概要：本文档详细记录了在CDH6-7集群环境中卸载Kerberos认证的具体步骤及其相关服务的调整方法。首先需要停止集群内的各项服务如Spark、Zookeeper等，并确保Kerberos服务器的相关组件已停止运行。接着对HDFS、HBase、Hue等多个关键组件进行配置更改，包括但不限于取消安全验证选项、调整权限设置以及清理旧数据。此外还需特别关注Sentry权限管理模块的状态变更。最后，逐步重启各个服务，并解决可能出现的问题，如Kafka启动错误等。同时提供了针对时钟同步的操作指南，确保集群节点间的时间一致性。适合人群：熟悉Linux操作系统和大数据平台运维的技术人员，尤其是负责CDH集群管理和维护的专业人士。使用场景及目标：适用于需要移除现有Kerberos认证机制的大规模分布式系统管理员，帮助他们顺利完成从强认证到简单认证模式的转换，保障业务连续性和稳定性。其他说明：文中涉及大量具体命令行指令，建议读者仔细阅读每一步骤后再执行相应操作，避免因误操作导致不可逆的影响。对于某些特定环境下的特殊处理方式也有提及，例如HA架构下HDFS服务的额外初始化步骤。

2025-03-27

C#个人浏览器源代码

个人浏览器源代码，主要解决Session、脚本、Windows.Close等问题

2008-12-04

CDH6.3 运行hive -e hive -e "show databases;"报错：hive-env.sh:行24: hbase-common.jar: 权限不够

2024-11-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人