- 博客(287)
- 收藏
- 关注

原创 【云计算】阿里云PAI平台架构拆解与实现
阿里云PAI通过多层次并行策略、通信优化内核和企业级容错机制,实现千亿参数模型的高效训练。开发者只需关注模型结构设计,底层复杂性由平台封装,典型场景效率提升3倍以上。建议结合灵骏智算资源与Pai-Megatron-Patch工具链,最大化利用阿里云异构算力优势。
2025-07-04 12:18:21
382

原创 【SDN控制器】数据中心SDN控制器
该设计严格遵循TOGAF ADM流程,在业务架构上实现网络即服务(NaaS)能力,在技术架构采用云原生控制平面+硬件加速数据平面,并通过分片架构解决大规模组网场景的扩展性问题。A[物理交换机] -- Telemetry Data --> B[Kafka]租户服务-->>-网络编排器: quota_available。网络编排器-->>-租户门户: 201 Created。设备管理器-->>-网络编排器: Success。C -->|Yes| D[设计网络拓扑]物理交换机-->>-设备管理器: ACK。
2025-07-02 15:51:59
864

原创 【SDN控制器之分析器——大数据】网络分析大数据03
在运营商级别的大数据系统建设中,按照TOGAF的企业架构框架和DDD(领域驱动设计)来设计一个网络大数据分析系统。TOGAF提供了从业务架构到技术架构的全面指导,而DDD则帮助我们在设计和实现中聚焦核心业务领域。使用DDD的战略设计(领域、子域、限界上下文)和战术设计(实体、值对象、聚合、领域服务等)来构建系统的领域模型。系统概述:网络大数据分析系统用于处理大规模网络数据(如流量数据、日志数据等),进行实时和批处理分析,提供安全监控、性能分析、故障诊断等功能。
2025-07-02 11:09:42
912

原创 【人工智能智算中心】整体设计
商业成功关键技术:通过 “3D混合并行+RoCEv2优化” 实现千卡线性度>90%产品:推出 “训练即服务(TaaS)” 按MFU(Model FLOPs Utilization)计费生态:构建 “模型市场+开发者社区” 形成闭环生态创新计费公式TaaS计费 =\text{GPU小时} \times \text{MFU系数} \times \text{单价}(MFU≥50%时系数=1.2)模型托管 =
2025-07-02 10:18:34
993

原创 【人工智能智算中心】计费系统篇01
精准性:MFU系数实现“算力即服务”,避免粗粒度计费不公平灵活性:规则引擎支持动态策略(如突发流量溢价)可信性:区块链存证 + 国密加密保障计费不可篡改国产化:全栈适配国产芯片/数据库/加密算法创新计费模式MFU阶梯激励:MFU>60%时单价降低,鼓励高效编程碳积分抵扣:绿色计算(PUE<1.2)奖励免费算力。
2025-07-02 08:35:54
969

原创 【人工智能】分布式机器学习中参数服务器的设计方法
实际部署需结合集群拓扑(如胖树网络)和模型特性动态调优,异构PS架构已成为千亿级模型训练的工业标准解决方案。
2025-07-01 21:00:35
992

原创 【SDN控制器之分析器——大数据】网络分析大数据02-数据库选型
在网络流量大数据分析和日志分析场景中,数据库选型需综合考量数据规模、实时性要求、查询复杂度及成本效益。
2025-06-30 09:56:39
2159

原创 【数据库】数据库高可用
数据库高可用(High Availability, HA) 指系统在预设时间内持续提供服务的能力,核心目标是降低停机时间。
2025-06-28 12:22:52
970

原创 【内容配送网CDN】CDN平台
CDN技术体系全景解析1. 业务类型与随机过程建模类型随机过程描述测度空间突发流量冲击复合泊松过程X_i为请求强度)区域热点聚集空间霍克斯过程分布式共振耦合振子模型相空间2. PRD核心指标(泛函约束):节点队列状态向量A:网络拓扑关联矩阵(图论邻接矩阵):随机需求过程(Levy过程驱动)时间状态特征与代数结构1. 系统状态流形graph LRS[状态空间 S] -->|微分同胚| M[特征流形 M]
2025-06-28 08:11:07
1052

原创 【研发管理】企业软件开发——API网关基础篇
推荐组合:Azure Functions + ONNX Runtime + Qdrant向量库,已在多家金融科技公司验证,欺诈识别率提升65%的同时降低误报率40%。阶段1:基础路由 → 阶段2:AI安全增强 → 阶段3:智能编排 → 阶段4:预测式网关。:专用AI加速卡(如NVIDIA DPU)嵌入网关。一、Serverless网关核心架构。Kubernetes原生FaaS。Firecracker微虚拟机。:抗量子计算加密算法集成。TinyBERT量化模型。Prophet时间序列。
2025-06-26 10:19:13
719

原创 【服务器】服务器选型设计
为每个物料添加关键属性:CPU:核心数、主频、缓存(如L3=60MB)。RAID卡:缓存大小、支持算法(如XOR加速校验)。关联生产工艺:如SSD需启用TRIM穿透,HDD需振动抑制设计。步骤3:。
2025-06-25 17:30:25
794

原创 CPU与GPU全栈技术深度解析
CPU作为计算机的核心处理器,其本质是由数十亿晶体管构成的微架构,遵循冯·诺依曼体系完成取指、译码、执行、写回的循环流程。核心性能指标包括IPC、时钟频率和多级缓存设计。CPU广泛应用于通用计算、实时处理、并行计算等多个领域,通过AVX-512等指令集实现科学计算加速,并与操作系统深度协作完成中断处理、特权级切换等关键任务。现代CPU通过与内存、存储等硬件的协同提升性能,同时采用多级权限机制保障系统安全。不同应用场景对CPU指令集有差异化需求,如科学计算依赖AVX-512,媒体处理需要AMX扩展。未来CPU
2025-06-25 15:50:05
1241

原创 【财务管理与资产交易】财务预测
一、防火墙产品单台成本预测模型构建1. 核心成本要素与模型框架防火墙产品成本预测需涵盖全生命周期成本,模型框架包括以下核心要素:研发成本:算法开发(如AI威胁检测模块)、硬件设计、专利费用分摊。供应链成本:硬件BOM成本:芯片(如Intel Xeon)、内存(32GB)、存储(1TB)、端口模块(24口千兆);软件授权成本:操作系统、威胁情报库订阅(如Cisco Firepower);生产外包成本:代工厂加工费(按吞吐量阶梯定价)。人力成本:研发团队(算法工程师、安全专家)、
2025-06-24 16:21:42
934

原创 【云计算】云测试
云资源弹性效能 E 的完整推演:E=α⋅时间开销O(logk)+β⋅空间浪费(1−U)+γ⋅排队延迟Wqμ优化方向算法层:采用低复杂度调度(如一致性哈希 O(1))资源层:动态压缩内存减少 Sfrag(如ZSTD在线压缩)系统层:基于LSTM预测负载,预扩容降低 Wq。
2025-06-24 11:13:14
1260

原创 【安全咨询服务】
等保义务:关键信息基础设施运营者需落实“三同步”(安全与系统同步规划/建设/使用),每年至少1次安全评估,违规罚款最高100万元。数据保护:收集个人信息需明示同意,禁止非法获取/售卖数据(《个人信息保护法》第44-45条)。重要数据处理者需设立安全负责人及管理机构,定期开展风险评估。事件报告:发生数据泄露或网络攻击后,需24小时内向网信、公安部门报告。
2025-06-23 08:28:59
777

原创 【公司经营】安全公司产品
:明星产品(高增长、高份额)、现金牛产品(低增长、高份额)、问题产品(高增长、低份额)、瘦狗产品(低增长、低份额)。:整合线上线下渠道,划分区域/行业矩阵,实现精准触达(如某电商平台通过全渠道覆盖提升销售额30%)。:按产品类别(基础/专业/高端)与市场细分(区域/客户群)构建二维矩阵,明确差异化定位。:建立JIT(准时制)供应链,降低库存成本(如某制造商通过柔性生产缩短交付周期20%)。:行业吸引力(市场规模、增长率) vs. 业务实力(技术、品牌、渠道)。
2025-06-23 07:14:25
508

原创 【安全咨询】价格设计
等保义务:关键信息基础设施运营者需落实“三同步”(安全与系统同步规划/建设/使用),每年至少1次安全评估,违规罚款最高100万元。数据保护:收集个人信息需明示同意,禁止非法获取/售卖数据(《个人信息保护法》第44-45条)。重要数据处理者需设立安全负责人及管理机构,定期开展风险评估。事件报告:发生数据泄露或网络攻击后,需24小时内向网信、公安部门报告。
2025-06-23 06:38:48
2477

原创 【人工智能下的智算网络】广域网优化
1. G = (V, E)w(e)AA_{ij}ij2. F_{\max}C_{\min}c(e)1. D保留前k个主成分(\Sigma中最大奇异值)分片,减少冗余传输。2. 为路径选择的正交矩阵,避免路径间负载耦合。1. :链路延迟,丢包率。P_k2. 为路径k选择次数,\eta控制探索权重。
2025-06-17 16:00:54
1227

原创 【云计算领域架构】
:作为前端请求的统一入口,负载均衡器基于预设算法(如轮询、最小连接数)动态分配流量至后端服务器集群。:通过IP哈希或Cookie绑定,保障同一用户请求由同一服务器处理(如电商购物车场景)。:Nginx(HTTP/HTTPS反向代理)、HAProxy(TCP层负载均衡)。:实时监控服务器状态(如响应时间、连接数),自动剔除故障节点,确保服务连续性。:本地资源满载时,将流量分流至公有云(如AWS + 私有云混合架构)。:LSTM预测流量峰值,强化学习动态调整权重(如阿里云智能负载均衡)。
2025-06-07 12:04:51
1164

原创 【人工智能的智算网络】大模型训练/推理网络技术篇:RDMA
短距离缺陷:多路径带宽竞争可能导致吞吐量波动,需动态负载均衡算法(如基于RTT的加权轮询)。长距离缺陷:RDMA对丢包敏感,需结合前向纠错与冗余传输(如Reed-Solomon编码)。MOE并行挑战:动态路由引入的计算-通信依赖复杂性,需细粒度流水线调度(如COMET系统的Token级重叠技术)。通过上述优化,可在千亿级参数模型训练中实现30%以上的MFU提升(如华为昇腾集群),并将通信开销占比从40%降至15%以下。
2025-05-11 21:07:33
1136

原创 【网络篇】网络系统防御对抗系列之CDN:PCDN模式和PCDN防御拦截
1、路由1)局部性感知2)全局性感知3)平均覆盖网络链路延迟和带宽消耗(有效带宽)4)协议机制5)路由跳数2、网络邻进性:1)随机图2)覆盖网络上邻进节点和物理网络的彼此距离3)物理拓扑和覆盖网络拓扑的匹配度:包括传输批次、传输时序空间图的有向路径4)地理布局、邻近路由5)弦结构3、能力邻近性1)节点之间的能力邻近性,包含相邻节点,全局相邻割集节点集合的能力邻近性4、容错和失效恢复1)错误和节点失效2)网络割集和交集3)死机故障和静默失效。
2025-05-09 13:29:50
1022

原创 【人工智能】天工开悟系列 1:词源逻辑性约束与算法约束
中文词源的逻辑性约束植根于其语义优先、意合主导的语言特性,而算法约束则通过统计学习、语义模型和动态优化应对这些特性带来的挑战。二者共同作用,推动中文自然语言处理技术在分词、歧义消解、主题挖掘等任务中的精准性和适应性。后续可以聚焦于多模态语义融合(结合图像、语音)和跨语言逻辑迁移(如中英文混合模型)。
2025-05-09 09:35:45
2223

原创 5G-A通感一体:开篇
场景推荐算法GTP标签类型城市复杂环境TDOA/AOA融合+卡尔曼滤波动态用户面标签(QoS分级)隧道/地下空间UWB一维定位+激光修正静态控制面标签(低时延保障)广域低空监测多站主被动协作+载波相位差分动态跨域标签(S5/S8接口)物流配送/动态航线5G+INS融合+分布式载波解算动态用户面标签(带宽优先级)
2025-05-06 16:36:30
2888
1
原创 【高可用】大型网站架构中实现分布式数据库的高可用性与数据一致性
推荐方案:同城双活中心:采用同步更新的本地二级索引(低延迟强一致)。异地容灾中心:采用异步全局二级索引 + 最终一致性,通过预分区和覆盖列降低查询延迟。性能权衡矩阵:目标优化措施牺牲维度强一致性元数据同步 + 事务等待短暂业务阻塞高可用性异步索引 + 超时机制数据延迟(RPO≤1秒)低查询延迟覆盖列设计 + 本地优先路由索引存储空间增加注:在金融级场景中,可通过逻辑隔离的索引单元(如分机房独立索引)进一步减少跨中心干扰。
2025-07-17 14:39:17
867
原创 【云数据中心】云数据中心运营管理框架
云计算数据中心运营管理的7个领域,即“云服务规划管理”“云资源管理”、“云服务交付管理”、“云运维管理”、“云资源操作管理”、“云安全管理”和“云审计管理”。划分的总体依据可以总结成以下三句话:“以交付为主线,以服务和资源为重点,以安全和审计为保障。“以交付为主线”,是指从“与用户交互角度”(服务交付管理)、“数据中心内部管理人员交互角度”(服务运维管理)到“人员与资源设备交互角度”(资源操作管理)的视角,总结云计算数据中心从“IT服务一运维一资源”的价值转变过程中涉及的关键环节的管理要点。
2025-07-17 11:48:16
282
原创 阿里云销售团队
局领导:用政治安全+民生数据替代技术参数,绑定“一把手工程”决策路径6,8。技术部门:以迁移0风险+性能碾压打消顾虑,用测试报告建立技术信任5。基层干警:通过操作极简+减负实证推动自下而上需求反馈,倒逼采购决策6。通过分层的话术训练、情景化实战模拟和动态案例迭代,阿里云销售团队可实现对不同决策层级的“精准穿透”,将技术优势转化为客户侧的全角色价值共识。
2025-07-17 11:33:37
500
原创 【数据中心】数据中心运营管理框架
分阶段替代:优先保障核心系统安全,逐步扩展至全栈国产化;技术融合:利用中间件、SDN等技术弥合国产化与原有系统的鸿沟;动态防护:通过自动化策略和实时监控实现安全与业务的动态适配。未来需进一步探索AI驱动的安全策略自优化(如智能流量调度)和隐私计算技术(如联邦学习)在跨域场景中的应用。国产化中间件的选择需以业务需求为驱动,通过技术适配性测试和性能验证确保稳定性,同时结合信创政策要求优先选择通过认证的产品。
2025-07-17 11:26:14
682
原创 【机器学习】混合并行策略(数据并行+模型并行)学习率设置
数据并行:学习率与全局批次大小平方根正比,需梯度裁剪稳;模型并行:高层学习率升、底层降,补偿传播差异;协同策略:以数据并行学习率为锚点,模型分层按比例调整,动态衰减需适配设备特性。通过分层学习率实现技术(如PyTorch参数组)和批量缩放法则,可有效提升混合并行训练的收敛效率与稳定性。
2025-07-17 08:29:42
808
原创 分布式训练场景下,预热步数和学习率的选择
通过以上调整,分布式训练可兼顾稳定性与效率,尤其在大模型场景下,预热与学习率的精细化设计能显著提升收敛速度和最终性能。
2025-07-17 08:27:41
599
原创 深度学习的学习率预热策略和衰减策略
第500步:\eta_{500} = 0.001 \times \frac{500}{1000} = 5 \times 10^{-4}\eta_{\text{min}}:最小学习率(通常设为 \eta_{\text{max}} \times 10^{-2})资源受限场景(如微调)可缩短预热步数(N = \text{总步数} \times 2\%)并加大衰减力度。第1步:\eta_1 = 0.001 \times \frac{1}{1000} = 10^{-6}N:预热总步数(通常占总步数的5%–10%)
2025-07-17 07:25:21
432
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人