自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(287)
  • 收藏
  • 关注

原创 【云计算】阿里云PAI平台架构拆解与实现

阿里云PAI通过​​多层次并行策略​​、​​通信优化内核​​和​​企业级容错机制​​,实现千亿参数模型的高效训练。开发者只需关注模型结构设计,底层复杂性由平台封装,典型场景效率提升3倍以上。建议结合灵骏智算资源与Pai-Megatron-Patch工具链,最大化利用阿里云异构算力优势。

2025-07-04 12:18:21 382

原创 【SDN控制器】数据中心SDN控制器

该设计严格遵循TOGAF ADM流程,在业务架构上实现网络即服务(NaaS)能力,在技术架构采用云原生控制平面+硬件加速数据平面,并通过分片架构解决大规模组网场景的扩展性问题。A[物理交换机] -- Telemetry Data --> B[Kafka]租户服务-->>-网络编排器: quota_available。网络编排器-->>-租户门户: 201 Created。设备管理器-->>-网络编排器: Success。C -->|Yes| D[设计网络拓扑]物理交换机-->>-设备管理器: ACK。

2025-07-02 15:51:59 864

原创 【SDN控制器之分析器——大数据】网络分析大数据03

在运营商级别的大数据系统建设中,按照TOGAF的企业架构框架和DDD(领域驱动设计)来设计一个网络大数据分析系统。TOGAF提供了从业务架构到技术架构的全面指导,而DDD则帮助我们在设计和实现中聚焦核心业务领域。使用DDD的战略设计(领域、子域、限界上下文)和战术设计(实体、值对象、聚合、领域服务等)来构建系统的领域模型。系统概述:网络大数据分析系统用于处理大规模网络数据(如流量数据、日志数据等),进行实时和批处理分析,提供安全监控、性能分析、故障诊断等功能。

2025-07-02 11:09:42 912

原创 【人工智能智算中心】整体设计

​商业成功关键​技术​:通过 ​​“3D混合并行+RoCEv2优化”​​ 实现千卡线性度>90%​产品​:推出 ​​“训练即服务(TaaS)”​​ 按MFU(Model FLOPs Utilization)计费​生态​:构建 ​​“模型市场+开发者社区”​​ 形成闭环生态​创新计费公式​TaaS计费​ =\text{GPU小时} \times \text{MFU系数} \times \text{单价}(MFU≥50%时系数=1.2)​模型托管​ =

2025-07-02 10:18:34 993

原创 【人工智能智算中心】计费系统篇01

​精准性​:MFU系数实现“算力即服务”,避免粗粒度计费不公平​灵活性​:规则引擎支持动态策略(如突发流量溢价)​可信性​:区块链存证 + 国密加密保障计费不可篡改​国产化​:全栈适配国产芯片/数据库/加密算法​创新计费模式​MFU阶梯激励​:MFU>60%时单价降低,鼓励高效编程​碳积分抵扣​:绿色计算(PUE<1.2)奖励免费算力。

2025-07-02 08:35:54 969

原创 【人工智能】分布式机器学习中参数服务器的设计方法

实际部署需结合集群拓扑(如胖树网络)和模型特性动态调优,异构PS架构已成为千亿级模型训练的工业标准解决方案。

2025-07-01 21:00:35 992

原创 【SDN控制器之分析器——大数据】网络分析大数据02-数据库选型

在网络流量大数据分析和日志分析场景中,数据库选型需综合考量数据规模、实时性要求、查询复杂度及成本效益。

2025-06-30 09:56:39 2159

原创 【SDN控制器之分析器——大数据】网络分析大数据01

​:SDN大数据分析平台需以 ​。

2025-06-29 16:25:01 882

原创 【企业IT系统建设】​企业大数据平台调研全流程信息表

摘要: 企业大数据平台调研需分阶段推进,涵盖准备、业务调研、需求分析与实施交付。

2025-06-29 16:03:13 917

原创 【企业研发】ELK开发

Elasticsearch作为当前最流行的全文检索引擎之一,在众多领域展现出强大的搜索和分析能力。

2025-06-29 08:19:23 468

原创 【数据库】数据库高可用

​数据库高可用(High Availability, HA)​​ 指系统在预设时间内持续提供服务的能力,核心目标是降低停机时间。

2025-06-28 12:22:52 970

原创 【内容配送网CDN】CDN平台

CDN技术体系全景解析​1. 业务类型与随机过程建模​​类型​​随机过程描述​​测度空间​​突发流量冲击​复合泊松过程X_i为请求强度)​区域热点聚集​空间霍克斯过程​分布式共振​耦合振子模型相空间​2. PRD核心指标(泛函约束)​​:节点队列状态向量A:网络拓扑关联矩阵(图论邻接矩阵):随机需求过程(Levy过程驱动)时间状态特征与代数结构​1. 系统状态流形​graph LRS[状态空间 S] -->|微分同胚| M[特征流形 M]

2025-06-28 08:11:07 1052

原创 【研发管理】企业软件开发——API网关基础篇

推荐组合:Azure Functions + ONNX Runtime + Qdrant向量库,已在多家金融科技公司验证,欺诈识别率提升65%的同时降低误报率40%。阶段1:基础路由 → 阶段2:AI安全增强 → 阶段3:智能编排 → 阶段4:预测式网关。​:专用AI加速卡(如NVIDIA DPU)嵌入网关。一、Serverless网关核心架构。Kubernetes原生FaaS。Firecracker微虚拟机。​:抗量子计算加密算法集成。TinyBERT量化模型。Prophet时间序列。

2025-06-26 10:19:13 719

原创 【服务器】服务器选型设计

​为每个物料添加关键属性:CPU:核心数、主频、缓存(如L3=60MB)。RAID卡:缓存大小、支持算法(如XOR加速校验)。关联生产工艺:如SSD需启用TRIM穿透,HDD需振动抑制设计。步骤3:​。

2025-06-25 17:30:25 794

原创 CPU与GPU全栈技术深度解析

CPU作为计算机的核心处理器,其本质是由数十亿晶体管构成的微架构,遵循冯·诺依曼体系完成取指、译码、执行、写回的循环流程。核心性能指标包括IPC、时钟频率和多级缓存设计。CPU广泛应用于通用计算、实时处理、并行计算等多个领域,通过AVX-512等指令集实现科学计算加速,并与操作系统深度协作完成中断处理、特权级切换等关键任务。现代CPU通过与内存、存储等硬件的协同提升性能,同时采用多级权限机制保障系统安全。不同应用场景对CPU指令集有差异化需求,如科学计算依赖AVX-512,媒体处理需要AMX扩展。未来CPU

2025-06-25 15:50:05 1241

原创 【财务管理与资产交易】财务预测

​一、防火墙产品单台成本预测模型构建​​1. 核心成本要素与模型框架​防火墙产品成本预测需涵盖全生命周期成本,模型框架包括以下核心要素:​研发成本​:算法开发(如AI威胁检测模块)、硬件设计、专利费用分摊。​供应链成本​:​硬件BOM成本​:芯片(如Intel Xeon)、内存(32GB)、存储(1TB)、端口模块(24口千兆);​软件授权成本​:操作系统、威胁情报库订阅(如Cisco Firepower);​生产外包成本​:代工厂加工费(按吞吐量阶梯定价)。​人力成本​:研发团队(算法工程师、安全专家)、

2025-06-24 16:21:42 934

原创 【云计算】云测试

云资源弹性效能 E 的完整推演:E=α⋅时间开销O(logk)​​+β⋅空间浪费(1−U)​​+γ⋅排队延迟Wq​​​μ​​优化方向​算法层​:采用低复杂度调度(如一致性哈希 O(1))​资源层​:动态压缩内存减少 Sfrag​(如ZSTD在线压缩)​系统层​:基于LSTM预测负载,预扩容降低 Wq​。

2025-06-24 11:13:14 1260

原创 【市场监督监管必备】利益链洞察,可考虑结合通感一体+网络应用识别(涵盖内容消息识别)+人工智能方法进行综合识别

企业利益链模型和违法违规风险

2025-06-24 10:59:51 1024

原创 【安全咨询服务】

​等保义务​:关键信息基础设施运营者需落实“三同步”(安全与系统同步规划/建设/使用),每年至少1次安全评估,违规罚款最高100万元。​数据保护​:收集个人信息需明示同意,禁止非法获取/售卖数据(《个人信息保护法》第44-45条)。重要数据处理者需设立安全负责人及管理机构,定期开展风险评估。​事件报告​:发生数据泄露或网络攻击后,需24小时内向网信、公安部门报告。

2025-06-23 08:28:59 777

原创 【公司经营】安全公司产品

​:明星产品(高增长、高份额)、现金牛产品(低增长、高份额)、问题产品(高增长、低份额)、瘦狗产品(低增长、低份额)。​:整合线上线下渠道,划分区域/行业矩阵,实现精准触达(如某电商平台通过全渠道覆盖提升销售额30%)。​:按产品类别(基础/专业/高端)与市场细分(区域/客户群)构建二维矩阵,明确差异化定位。​:建立JIT(准时制)供应链,降低库存成本(如某制造商通过柔性生产缩短交付周期20%)。​:行业吸引力(市场规模、增长率) vs. 业务实力(技术、品牌、渠道)。

2025-06-23 07:14:25 508

原创 【安全咨询】价格设计

​等保义务​:关键信息基础设施运营者需落实“三同步”(安全与系统同步规划/建设/使用),每年至少1次安全评估,违规罚款最高100万元。​数据保护​:收集个人信息需明示同意,禁止非法获取/售卖数据(《个人信息保护法》第44-45条)。重要数据处理者需设立安全负责人及管理机构,定期开展风险评估。​事件报告​:发生数据泄露或网络攻击后,需24小时内向网信、公安部门报告。

2025-06-23 06:38:48 2477

原创 【企业经营管理】企业内部控制

​:COSO ERM的本质是 ​。

2025-06-22 17:25:45 927

原创 【系统工程师】知识体系

​​。

2025-06-22 10:37:43 389

原创 【算力网络】算网安全

算力网络安全

2025-06-19 16:29:45 762

原创 【网络空间安全】数据安全

数据安全、云计算领域的数据安全应用

2025-06-19 10:41:17 1053

原创 【人工智能下的智算网络】广域网优化

​1. ​​G = (V, E)w(e)AA_{ij}ij2. ​​F_{\max}C_{\min}c(e)​1. ​​D保留前k个主成分(\Sigma中最大奇异值)分片,减少冗余传输。2. ​为路径选择的正交矩阵,避免路径间负载耦合。​1. ​​​​:链路延迟,丢包率。P_k2. ​​为路径k选择次数,\eta控制探索权重。

2025-06-17 16:00:54 1227

原创 【企业容灾灾备系统规划】

容灾

2025-06-16 20:42:07 784

原创 【云计算领域架构】

​:作为前端请求的统一入口,负载均衡器基于预设算法(如轮询、最小连接数)动态分配流量至后端服务器集群。​:通过IP哈希或Cookie绑定,保障同一用户请求由同一服务器处理(如电商购物车场景)。​:Nginx(HTTP/HTTPS反向代理)、HAProxy(TCP层负载均衡)。​:实时监控服务器状态(如响应时间、连接数),自动剔除故障节点,确保服务连续性。​:本地资源满载时,将流量分流至公有云(如AWS + 私有云混合架构)。​:LSTM预测流量峰值,强化学习动态调整权重(如阿里云智能负载均衡)。

2025-06-07 12:04:51 1164

原创 【人工智能的智算网络】大模型训练/推理网络技术篇:RDMA

​短距离缺陷​:多路径带宽竞争可能导致吞吐量波动,需动态负载均衡算法(如基于RTT的加权轮询)。​长距离缺陷​:RDMA对丢包敏感,需结合前向纠错与冗余传输(如Reed-Solomon编码)。​MOE并行挑战​:动态路由引入的计算-通信依赖复杂性,需细粒度流水线调度(如COMET系统的Token级重叠技术)。通过上述优化,可在千亿级参数模型训练中实现30%以上的MFU提升(如华为昇腾集群),并将通信开销占比从40%降至15%以下。

2025-05-11 21:07:33 1136

原创 【网络篇】网络系统防御对抗系列之CDN:PCDN模式和PCDN防御拦截

1、路由1)局部性感知2)全局性感知3)平均覆盖网络链路延迟和带宽消耗(有效带宽)4)协议机制5)路由跳数2、网络邻进性:1)随机图2)覆盖网络上邻进节点和物理网络的彼此距离3)物理拓扑和覆盖网络拓扑的匹配度:包括传输批次、传输时序空间图的有向路径4)地理布局、邻近路由5)弦结构3、能力邻近性1)节点之间的能力邻近性,包含相邻节点,全局相邻割集节点集合的能力邻近性4、容错和失效恢复1)错误和节点失效2)网络割集和交集3)死机故障和静默失效。

2025-05-09 13:29:50 1022

原创 【人工智能】天工开悟系列 1:词源逻辑性约束与算法约束

中文词源的逻辑性约束植根于其语义优先、意合主导的语言特性,而算法约束则通过统计学习、语义模型和动态优化应对这些特性带来的挑战。二者共同作用,推动中文自然语言处理技术在分词、歧义消解、主题挖掘等任务中的精准性和适应性。后续可以聚焦于多模态语义融合(结合图像、语音)和跨语言逻辑迁移(如中英文混合模型)。

2025-05-09 09:35:45 2223

原创 5G-A通感一体:开篇

场景推荐算法GTP标签类型城市复杂环境TDOA/AOA融合+卡尔曼滤波动态用户面标签(QoS分级)隧道/地下空间UWB一维定位+激光修正静态控制面标签(低时延保障)广域低空监测多站主被动协作+载波相位差分动态跨域标签(S5/S8接口)物流配送/动态航线5G+INS融合+分布式载波解算动态用户面标签(带宽优先级)

2025-05-06 16:36:30 2888 1

原创 【高可用】大型网站架构中实现分布式数据库的高可用性与数据一致性

​推荐方案​:​同城双活中心​:采用同步更新的本地二级索引(低延迟强一致)。​异地容灾中心​:采用异步全局二级索引 + 最终一致性,通过预分区和覆盖列降低查询延迟。​性能权衡矩阵​:​目标​优化措施牺牲维度强一致性元数据同步 + 事务等待短暂业务阻塞高可用性异步索引 + 超时机制数据延迟(RPO≤1秒)低查询延迟覆盖列设计 + 本地优先路由索引存储空间增加​注​:在金融级场景中,可通过逻辑隔离的索引单元​(如分机房独立索引)进一步减少跨中心干扰。

2025-07-17 14:39:17 867

原创 【云计算】多云统一管理平台

​。

2025-07-17 14:08:20 782

原创 【云数据中心】云数据中心运营管理框架

云计算数据中心运营管理的7个领域,即“云服务规划管理”“云资源管理”、“云服务交付管理”、“云运维管理”、“云资源操作管理”、“云安全管理”和“云审计管理”。划分的总体依据可以总结成以下三句话:“以交付为主线,以服务和资源为重点,以安全和审计为保障。“以交付为主线”,是指从“与用户交互角度”(服务交付管理)、“数据中心内部管理人员交互角度”(服务运维管理)到“人员与资源设备交互角度”(资源操作管理)的视角,总结云计算数据中心从“IT服务一运维一资源”的价值转变过程中涉及的关键环节的管理要点。

2025-07-17 11:48:16 282

原创 阿里云销售团队

​局领导​:用政治安全+民生数据替代技术参数,绑定“一把手工程”决策路径6,8。​技术部门​:以迁移0风险+性能碾压打消顾虑,用测试报告建立技术信任5。​基层干警​:通过操作极简+减负实证推动自下而上需求反馈,倒逼采购决策6。通过分层的话术训练、情景化实战模拟和动态案例迭代,阿里云销售团队可实现对不同决策层级的“精准穿透”,将技术优势转化为客户侧的全角色价值共识。

2025-07-17 11:33:37 500

原创 【数据中心】数据中心运营管理框架

​分阶段替代​:优先保障核心系统安全,逐步扩展至全栈国产化;​技术融合​:利用中间件、SDN等技术弥合国产化与原有系统的鸿沟;​动态防护​:通过自动化策略和实时监控实现安全与业务的动态适配。未来需进一步探索AI驱动的安全策略自优化(如智能流量调度)和隐私计算技术(如联邦学习)在跨域场景中的应用。国产化中间件的选择需以业务需求为驱动,通过技术适配性测试和性能验证确保稳定性,同时结合信创政策要求优先选择通过认证的产品。

2025-07-17 11:26:14 682

原创 【机器学习】混合并行策略(数据并行+模型并行)学习率设置

​数据并行​:学习率与全局批次大小平方根正比,需梯度裁剪稳;​模型并行​:高层学习率升、底层降,补偿传播差异;​协同策略​:以数据并行学习率为锚点,模型分层按比例调整,动态衰减需适配设备特性。通过分层学习率实现技术(如PyTorch参数组)和批量缩放法则,可有效提升混合并行训练的收敛效率与稳定性。

2025-07-17 08:29:42 808

原创 分布式训练场景下,预热步数和学习率的选择

通过以上调整,分布式训练可兼顾稳定性与效率,尤其在大模型场景下,预热与学习率的精细化设计能显著提升收敛速度和最终性能。

2025-07-17 08:27:41 599

原创 深度学习的学习率预热策略和衰减策略

第500步:\eta_{500} = 0.001 \times \frac{500}{1000} = 5 \times 10^{-4}\eta_{\text{min}}:最小学习率(通常设为 \eta_{\text{max}} \times 10^{-2})资源受限场景(如微调)可缩短预热步数(N = \text{总步数} \times 2\%)并加大衰减力度。第1步:\eta_1 = 0.001 \times \frac{1}{1000} = 10^{-6}N:预热总步数(通常占总步数的5%–10%)

2025-07-17 07:25:21 432

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除