自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HULK一线技术杂谈

HULK是360的私有云平台,丰富的一线实战经验,为你带来最有料的技术分享

  • 博客(419)
  • 收藏
  • 关注

原创 Go 性能分析利器:pprof 工具实战指南

作为 Go 语言性能分析的利器,其核心价值在于帮助我们从纷繁复杂的代码中,精准定位性能瓶颈。生成的火焰图中,横向宽度代表函数的耗时比例,纵向代表调用栈深度,颜色越红表示耗时越高。作为 Go 官方提供的性能分析工具,就像一把精准的手术刀,能帮助我们快速定位这些隐藏的性能瓶颈。源于 Google 的性能分析框架,它的工作原理并不复杂:通过在程序运行时进行 “采样”,收集关键性能指标的数据,生成。:一个程序运行起来后,CPU 使用率居高不下,响应速度很慢,怀疑存在 CPU 密集型的性能瓶颈。

2025-07-09 14:55:43 613

原创 150亿图床数据迁移:从单机到多集群的进化之路

在互联网内容爆炸式增长的时代,图片作为信息的主要载体之一,其存储和管理面临着前所未有的挑战。从最初的单机单进程迁移,到最终的多集群并行处理,我们通过不断优化和迭代,将原本预计需要120天的迁移工作缩短到了40天完成。这次150亿图床数据的迁移实践,不仅解决了当下的业务需求,更为我们积累了处理超大规模数据迁移的宝贵经验。技术的演进永无止境,我们将继续探索更高效、更可靠的数据迁移方案。实测表明,单进程迁移速度仅为每秒10-20个文件,按此速度完成300亿数据迁移需要约5年时间!

2025-07-01 17:41:44 449

原创 分布式文件系统性能评估

NVMe SSD通过PCIe总线直连CPU,访问延迟在微秒级别,随机读延迟可低至20–30 µs,写延迟约30–50 µs,分布式文件系统读写数据需要经过网络、远端nvme读写数据的过程,即使是最快的RDMA/RoCEv2/InfiniBand,网络往返延迟在数十微秒一以上,其单次访问时延包括远端nvme读写、网络传输、协议栈、网卡读取、软件处理等开销,整体时延估算约100us,此外分布式文件系统需要处理数据分片、副本放置、多副本写入、一致性协议等。我们必须分清我们的用户是谁,场景是什么。

2025-06-30 15:57:14 987

原创 云舟观测:基于LLM的智能运维分析助手探索

在推理的过程中,LLM推理过程可能会消耗大量时间,这块主要体现在回调各种数据api的时候,返回数据量异常大,比如主机健康评估,需要获取告警日志、指标数据、进程列表以及磁盘信息等核心数据,然后根据指令进行推导。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。后续针对频繁查询的主机的场景,可以进行缓存,实时数据进行汰换。

2025-06-27 15:21:40 509

原创 Go并发编程之WaitGroup

sync.WaitGroup 是 Go 并发编程中的基础工具,是Go 开发者处理并发同步的首选工具,适用于需要等待多个并发操作全部完成的场景。该图展示了 WaitGroup 的三个主要方法如何协同工作,WaitGroup 如何在并发环境中协调任务的启动、完成和等待过程。在调用 Wait() 之前,确保所有的 Done() 调用都已完成,以避免由于内存同步问题导致的竞态条件。避坑指南:WaitGroup的计数器的值必须大于等于0。Done():减少计数器值,等价于Add(-1),通常用defer确保执行。

2025-06-26 14:15:21 307

原创 云舟观测:基于Monaco Editor的万行级日志在线浏览方案

云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。导读:在 Vue 项目中实现高性能日志浏览,需满足:语法高亮、关键词搜索、动态标记、日志倒序(新日志在下)、定时刷新、行数可控、时间范围查询、分页加载、复制下载等功能。:对于需要展示和分析大型文本数据的场景,Monaco Editor 提供了高性能、可扩展的基础解决方案。

2025-06-24 11:09:31 624

原创 360AI平台分布式推理建设

全局控制存储,用于协调集群状态和元数据。A100 GPU 以其卓越的算力、显存带宽和 FP16/BF16 性能,非常适合处理大型语言模型 (LLM) 的训练、微调或高性能推理任务,特别是那些对延迟和吞吐量要求极高的场景。KubeRay Operator 提供了原生的 Kubernetes 方式来管理 Ray 集群,包括 RayJob、RayCluster、RayService 等自定义资源定义(CRD),支持自动扩缩、异构计算节点以及在同一Kubernetes 集群中运行多个不同版本的Ray集群。

2025-06-23 16:33:00 929

原创 沉浸式AI交互数字人技术解析

360智汇云 AI 数字人系统,融合语音识别、大模型问答、语音合成与唇形动画等多项核心技术,构建了稳定、低延迟、高还原度的实时交互体验。系统集成了360智汇云自研的沉浸式AI交互数字人引擎与高性能 RTC 模块,保障音视频传输过程中的低延迟、高稳定性和高并发承载能力,实现自然流畅的沉浸式交互体验。然而,该策略会显著降低唇形同步精度,影响生成质量。360智汇云沉浸式交互 AI 数字人产品将持续致力于降低技术门槛,帮助企业快速构建和部署自己的智能交互应用,释放 AI 交互的潜力,共同开创人机协作的美好未来。

2025-06-19 10:14:26 804

原创 K8s集群多租户管理

例如,在一个物理集群中有多个虚拟集群,每个虚拟集群可以根据自身需求申请和使用物理集群中的资源,就像拥有自己独立的资源池一样。它允许用户在一个已有的 Kubernetes 集群内部创建多个虚拟的、独立的集群环境,这些虚拟集群就像是物理集群一样,拥有自己独立的 API 服务器、资源管理等功能。而多集群管理方案则适合需要跨集群调度和管理的场景。在多租户的云服务或者企业内部的共享 Kubernetes 集群场景中,不同的租户(如不同的部门或者不同的客户)需要使用集群资源,但又要保证租户之间的资源划分和安全隔离。

2025-06-18 10:46:17 1053

原创 Pulsar Serverless:实现 6 倍成本节约,无损弹性伸缩

2) 相较 Kafka,重新消费大量历史数据对 Pulsar 写性能影响更小,Pulsar 中支持为写数据(Journal)和读数据(Ledger)分配不同的磁盘设备,实现读写I/O隔离,并且配合Bookie数据分片均匀分布的特点,能充分释放和均衡硬件性能。开启跨地域复制后,Pulsar 内部会开启后台线程,将 topic 的数据异步写入备份集群,数据是双向同步的,如下图所示,生产者P1在A集群生产的数据,消费者C2在B集群也可以消费到。1) 对于流量较小的业务,使用共享资源组可以实现成本最优。

2025-06-17 10:35:53 820

原创 vpc-cni的设计概述及ipam逻辑实现

ultronNetwork分配网卡及ip,由agent在node节点创建相应的vlan-interface,最终实现整个容器网络的cni插件,同时对容器网络ip进行池化操作和管理,便于底层网络资源优化使用及问题排查等。ultronNetwork分配网卡及ip,由agent在node节点创建相应的vlan-interface,最终实现整个容器网络的cni插件,同时对容器网络ip进行池化操作和管理,便于底层网络资源优化使用及问题排查等。综上所述,vpc-cni是根据公司实际需求和技术栈,选择的合适方案。

2025-06-16 15:34:23 817

原创 K8S Service 适配多VPC

以 K8S 集群中的 KubeDNS/CoreDNS 服务为例,它通过 Service IP 为集群中 Pod 提供 DNS 服务,这就一定所有 Pod 都能访问到,才能维持 集群/业务 功能正常。例如,用户类型 Service,要求实现 VPC 维度的隔离,仅能允许放行同一 VPC 中 Client 发起的请求访问。在 K8S 中的 Service,可按照 用户类型 和 系统类型 对 Service 进行区分,不同类型的 Service 对隔离性的要求是不同的。以此对隔离性要求进行区分实现。

2025-06-13 14:56:46 945

原创 Kubernetes 控制器开发、镜像构建及部署实践

Kubernetes 控制器(Controller)是其自动化运维的重要组成部分,负责监听集群中的资源变化,并执行相应的操作。掌握 Kubernetes 控制器的开发,不仅能提升系统的可扩展性,还能帮助工程师深入理解 Kubernetes 生态。本文将从零开始,带你完整体验 Kubernetes 控制器的开发、镜像构建和部署过程,帮助你快速上手并应用到实际生产环境。掌握 Kubernetes 控制器开发,可以帮助你自动化集群管理,提高运维效率,并深入理解 Kubernetes 的工作原理。

2025-06-10 11:41:52 599

原创 聚合工作台:多平台管理「一站式」方案

在子应用中使用 <router - link> 或 router.push/router.replace 直接跳转,会基于子应用的 base,导致无法正确跳转到主应用或其他子应用路由。:在不同的模式下(重建模式、单例模式、保活模式等),浏览器的回退和前进按钮在处理主应用和子应用路由切换时会出现异常,如回到子应用时只能进入首页,无法进入子路由,或者刷新后点击后退按钮无反应等。:子应用暴露特定模块(如 React 组件、JS 方法),主应用直接引入使用,无需加载整个子应用 HTML。

2025-06-09 16:20:38 989

原创 对象存储Ozone EC应用和优化

一是性能问题,以6-3-512K为例,每个文件块由原来的 3 副本变成了包含9个Block的Block Group,而且这9个Block必须分布在不同的机器,每次读操作至少需要6个Block 才能还原数据,也就是至少需要6个DN同时返回,数据才能被正常解析;因此,当写文件时,先根据文件大小,算出不同EC配比下最终占用空间大小,选择空间占用最少的EC配比,可以最大限度的节省存储空间。由于EC存储的成本较低,因此根据文件访问情况进行分类,不同的类型采用不同的存储方式,可以有效地降低用户成本,提高资源使用率。

2025-06-06 14:04:44 860

原创 智汇云 API 市场:赋能大模型创新

开发者无需自行训练和部署复杂的模型,即可通过 API 调用,将尖端的 AI 技术集成到自己的应用或业务流程中。• 填写应用相关的信息,勾选“语言大模型”,如果希望使用多个服务,可以均勾选上(针对后面 Dify 依赖的模型,我这里示例勾选:语言大模型、语音识别大模型、语音合成大模型、向量模型、重排序模型),最后点击。本文将重点介绍智汇云 API 市场在大模型 API 方面的核心能力,并以流行的 LLM 应用开发平台 Dify 为例,展示如何利用本市场提供的API 服务快速构建和部署智能应用。

2025-06-04 15:21:42 616

原创 OpenAI-o4mini-RFT 技术调研及实践

一般来说,强化学习训练llm时,都是用奖励模型或者奖励函数对模型生成的整体回答给一个奖励,然后把这个奖励复制或者平分给每个token,然后用它来计算优势值,然后根据ppo的目标函数来计算梯度,计算完一个批次的数据的梯度以后就可以用来更新网络,直到它拟合。对于policy gradient的方法来说,我们希望通过梯度上升的方式最大化轨迹得到的奖励,也就是最大化我们的目标函数,即奖励的期望。,也就是Rθ,那么需要对网络参数θ求梯度,初始策略生成N个路径,用于计算Rθ的梯度,最后利用梯度上升更新网络参数。

2025-05-28 15:25:52 811

原创 极速转码的设计与实现

接下来我们使用归并的思想,把完整转码任务分解成多个转码子任务,获取到完整转码任务的转码单元变成了一个维护子任务任务状态,下发子任务,以及维护索引m3u8的master,执行子转码任务的单元为slave。AVPacket中存放编码数据(h264,h265,vp8等),AVframe存放解码时候的数据(yuv),ffmpeg中是以AVPacket为单位进行解码任务的提交的,按照前一小节的描述,ffmpeg就是以frame为单位进行解码任务的提交的。所有子任务并行转码,理论极速转码耗时=原转码耗时/子任务数。

2025-05-27 15:56:52 743

原创 通过域名访问k8s-pod方案

2、在k8s侧需要一个agent用于watch对集群外暴露域名的pod,将podname,namespace等进行拼接组成域名(根据自身需要进行拼接),并将域名与ip传给server服务,记录到etcd中。2、下载coredns二进制: https://github.com/coredns/coredns/releases/tag/v1.10.1。3、考虑到集群pod增删频率过快,导致的dns-node压力过大,可以针对有需要暴露pod域名需求的业务使用,通过pod anntation识别。

2025-05-26 14:51:20 426

原创 Voice Agent 介绍与实现方案

虽然目前能够直接接受视频输入的 LLM 还没有被广泛的应用,稳定性和可用性也有待提供,但是接受图像作为输入的 LLM 很多已经表现出非常出色的分析能力,不仅能够描述图像内容以及转录图像中出现的文本,有些还能统计画面的对象、识别边界框以及更好地理解图像中对象之间的关系。然而,抛开模型服务引入的延迟,在 Voice Agent 场景下,客户端和 Agent 服务程序还需进行媒体数据(音频,甚至视频)的交换,延迟可能还会增加,甚至超过一秒半,用户几乎肯定会察觉到。这是多模态系统在实际应用中难以回避的技术瓶颈。

2025-05-22 10:19:35 911

原创 K8s 集群运行时:从 Docker 升级到 Containerd

修改完成后,集群会升级master节点,等待master节点升级完成,原有的master上的ds的 pods 默认会重新创建;在重建过程中,对于一些 其他pod,可能需要人工干预去重建,然后在清理docker运行时下的残留进程。容器运行时的升级不仅是技术组件的简单替换,更是云原生架构持续进化的必经之路。说明:我们公司使用rancher来管理和搭建集群,rancher本身是不支持指定节点来滚动升级的,我们二开了rancher,增加了指定节点来升级节点kubelet、kube-proxy等组件。

2025-05-20 16:34:34 557

原创 智汇云Milvus 2.5:向量数据库的全新进化与RAG应用实践

智汇云已经提供Milvus 2.4,紧跟官方版本新特性,现在提供 2.5.11 版本,支持全文检索、标量过滤与混合检索等新特性。Faiss 中的 HNSW 算法在功能和性能方面都有了显著的改进,出于稳定性和可维护性的考虑 Milvus 2.5 正式将对 HNSW 的支持从 hnswlib 迁移到 Faiss;与其他类型的索引相比,其在处理低基数字段时,通常具有更高的空间效率和更快的查询速度;V2 引入了新的本地文件格式,提高了标量数据的加载和查询效率,减少了内存开销,并为未来的优化奠定了基础;

2025-05-19 14:17:55 792

原创 360基于Volcano的云原生调度实践

项目的资源配额从多少个节点,修改为xx型号的卡n张,yy型号的卡m张,对用户屏蔽节点这一概念,用户只能看到卡。基于层级队列的能力,360AI平台进一步优化了资源管理策略,将队列划分三层,分别是ROOT队列,表示集群所有资源,资源组级别队列,是一组项目的集合,项目级别队列,每个队列对应一个具体的项目。在最新的Volcano 1.11版本中,Volcano官方实现了网络拓扑感知调度,可根据节点拓扑信息,自动将通信密集的Pod调度到同一个交换机下的节点,显著减少了AllReduce等集合操作的通信开销。

2025-05-15 11:51:31 763

原创 云舟观测:基于Spring AI的智能SQL助手设计与落地实践

该方案深度融合AI技术,通过构建AI驱动的智能诊断引擎,可自动完成查询语句的语法解析、索引优化建议生成及执行计划可视化,能够满足不同用户的需求,无论是开发人员、运维人员还是业务人员,都可以通过该助手进行SQL相关的操作和管理。在这个提示词模板中,明确了生成SQL的步骤和要求。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。

2025-05-14 11:35:28 1168

原创 vGPU 在容器云的落地

在过往的云原生时代,k8s或者docker使用gpu都是已独占的形式使用GPU,这对于一些在线推理的服务来说,会造成大量的GPU资源浪费,通过VGPU以及AI平台的协助去合理的配置用户使用GPU资源,可以给用户提供稳定,可靠的高性能的GPU加速环境,并且hami的工作原理是通过拦截CUDA去实现显存和算力的切割,对过往使用独占型GPU方式的应用无侵入性,满足不同应用的工作场景。AI落地时,在某些场景下AI模型在训练或者是推理时,其算力要求不需要占用整卡的GPU,比如只需要0.5卡GPU即可满足需求。

2025-05-13 16:47:24 747

原创 HDFS 多 AZ 容灾技术揭秘之 AZ Mover

为此,我们在 dispatcher 中新增了“指定 delHint”的能力,使得在执行“就近选源”逻辑时,能够直接提示删除不合规的副本,从而在迁移过程中大幅节省带宽。》中,我们介绍了 HDFS 如何通过拓扑感知机制,使新写入的数据副本自动分布在多个可用区(AZ),从而提升了集群的抗灾能力。在源节点与目标节点的选择流程中,AzMover 先从目标 AZ 内筛选符合机架约束且负载正常的目标节点,再在三个副本源(假设副本数为 3)中挑选与该目标节点拓扑距离最近且负载最低的节点作为源节点。

2025-05-09 11:28:25 1031

原创 Golang业务逻辑WASM化实践指南

而Golang自1.21版本对WASI(WebAssembly System Interface)的完善支持,使得Go代码能直接编译为可在边缘节点运行的.wasm模块。360智汇云官网:https://zyun.360.cn(复制在浏览器中打开)你可以使用简单的 HTTP 服务器来运行项目,通过http访问来查看效果。下面是一个简单的 Go 示例,它包含一个计算两数之和的函数。在物联网和5G加速普及的当下,边缘计算对。:完善wasm-gdb对Go语义的支持。:探索WASM在GPU边缘推理的应用。

2025-05-08 14:34:50 480

原创 MySQL 内存使用构成解析与优化实践

本篇文章将带你深入了解 MySQL 的内存构成,常见的内存使用高的场景,以及我们在平台侧做出的优化努力。我们通过引入 jemalloc 作为内存分配器,在实际线上环境中观察到,内存不再持续上涨,而是能够随着业务压力变化实现有效的内存收敛,同时系统的整体稳定性也得到了明显提升。重要提示:MySQL 的许多内存(如 Buffer Pool)是预分配并常驻内存的,也就是说,即使数据读写暂时减少,已分配的内存不会释放回操作系统。很明显看出修改内存分配器后,内存不再持续上涨,而是根据业务压力变化出现内存收敛情况。

2025-04-27 11:51:48 683

原创 360 OpenStack支持IP SAN存储实现

cinder volume创建volume时通过task flow执行了核心任务 CreateVolumeFromSpecTask,这里用户创建了一个系统盘,指定了image,所以执行了_create_from_image ,最终调用了_create_from_image_cache_or_download 方法。FC-SAN(Fibre Channel Storage Area Network)是一种基于光纤通道技术的存储网络,它将存储设备和服务器连接在一起,形成一个高速、高性能的存储区域网络。

2025-04-24 16:04:13 1062

原创 云上流量镜像优化方案

虚拟化snat网关和ops的nat网关有一个比较重要的区别,虚拟化snat网关面对的是vpc网络,它需要处理的规则量是可预估的,规模也是有限的,但ops的nat网关面对的是整个公司所有的流量,它需要配置的放行规则是不可预估的,规模也是不可预期的。归纳以上我们倾向于使用前缀匹配这个方案,它的优点就是可以支持规则中源网段和目的网段的掩码长度不受限制,灵活性很强,并且前缀匹配查找理论上具有最少的内存访问次数,属于高性能的查找算法,再加上dpdk性能优化的加持,理论上应该可以得到最高的查找性能。

2025-04-22 10:56:26 1053

原创 云防火墙之互联网边界防火墙在360的设计与实现

b. VPC内虚机访问公网时,计算节点上流量至FIP网关,通过FIP上的映射关系查询是否开启fw_switch,如果开启则将流量引流至云防火墙,若未开启,则流量直接通过FIP网关转发出去。流量到达云防火墙后,对out方向流量进行规则匹配,匹配完成后进行转发或者阻断。a. 云外客户端访问VPC内虚机时,通过BGP路由将流量吸到云防火墙上,匹配防火墙规则完成后,对报文进行VXLAN封包,外层源IP为防火墙VTEP IP,外层目的端口为FIP网关VTEP IP,由FIP中映射关系将流量报文引入VPC内虚机上。

2025-04-16 11:22:45 278

原创 Mooncake: P2P Store 应用与原理

数据获取者可以从etcd中list所有注册的数据 key(从原理上来说,也可以进行监听),如果数据获取者发现感兴趣的数据key被注册到系统中,则可以通过 P2P Store 提供的 replica 接口将 key 对应的远端数据读取到本地内存。总体来说,P2P Store 系统中的节点可以读写系统中注册的任意 key 所对应的内存数据,就像操作本地内存数据一样,其底层由 transfer engine 支持。如此一来,不难发现,随着推理节点数量规模的逐步扩大,数据的读放大问题愈发凸显。

2025-04-11 11:14:52 1026

原创 超融合网关方案在360的落地

网关基于DPDK,从而实现的是用户态路由,修改该默认路由的源IP为VIP。随着专有网络(Virtual Private Cloud,简称VPC)在公司的全面铺开,相关的网关产品种类越来越丰富,已经逐渐构建了一套较完善的网络产品,包括NAT网关、EIP网关、负载均衡网关、云联网网关等,满足用户访问公网,打通VPC、经典网络,跨地域等多种网络访问场景。超融合网关将当前所有类型网关进行了整合,但并不是简单的网关功能合并,更多的是要保证符合多种场景的数据包,如何得到正确的处理,因此涉及到了很多复杂的条件判断。

2025-04-10 11:09:14 1015

原创 时序数据库VictoriaMetrics 原理

这里引入了LSM的概念,数据会通过TSID 做hash,打散到若干的shard里面,之所以是多个shard是因为需要减少,shard 转入pending rows的时间,pinging rows 中会每5s将rows flush 到 in-memory parts中,parts中是由若干block组成的。这里Metric raw name,做hash决定发往哪个vmstorage节点,将此时间序列填充到对应的vmstorage的待发buffer中,攒批并压缩发送给vmstorage。

2025-04-02 10:24:51 1159

原创 DeepSeek开源库DeepGEMM 性能测评

大规模矩阵 (m, n, k ≥ 4096): DeepGEMM 逐渐追平甚至略超 Cutlass,特别是在 (4096, 7168, 16384) 这种大矩阵情况下,Cutlass 仅为 DeepGEMM 的 0.73x-0.98x,说明 DeepGEMM 在超大规模 GEMM 计算上更优。尽管设计轻量,但在各种矩阵形状下性能可匹配或超越专家调优的库。在 大规模计算(m ≥ 1024) 时,Cutlass 基本与 DeepGEMM 持平(1.01x ~ 1.07x),但部分情况下略有下降(0.89x)。

2025-04-01 16:08:44 640

原创 虚拟机CPU绑核NUMA不均衡分配实现

NUMA(Non-Uniform Memory Access,非一致性内存访问)是一种在多处理系统中的内存设计架构,在多处理器中,CPU访问系统上各个物理内存的速度可能不一样,一个CPU访问其本地内存的速度比访问(同一系统上)其他CPU对应的本地内存快一些。可会存在一个问题:某个计算节点上面已经落了11台虚拟机,还有8个vcpu空闲,numa0剩余2个vcpu,numa1剩余6个vcpu,此时既不能落8核的单numa套餐,也不能落8核的双numa套餐,只能落小套餐,造成一定的资源浪费。

2025-03-28 14:10:54 1037

原创 DeepSeek开源通信库DeepEP介绍

广大网友在惊艳其效果的同时也在好奇如此规模庞大的模型是如何高效的进行推理的,DeepSeek内部又是建立了一套什么样的推理系统以支撑其庞大的用户需求量的。DeepEP是专门针对MoE模型大规模专家并行场景进行优化的高效通信库,其依赖NVIDIA软件生态的NVSHMEM GPU通信库、GDRCopy低延时GPU显存拷贝库及IBGDA等核心技术,实现了经典的以NCCL为主的高效集合通信库的功能。可以看出,在小消息传输的场景下,和传统的cudaMemcpy相比,利用GDRCopy后的延时有了很大程度的降低。

2025-03-24 15:07:26 981

原创 云舟观测:应用性能监控助力业务零中断

以图形化的方式展示请求的完整调用路径,不仅呈现整个请求的总耗时,还细分为每个服务调用的耗时,以及网络延迟、数据库查询、缓存操作等关键环节的执行时间,辅助定位性能瓶颈。云舟观测是由360智汇云推出的一款一站式数据采集与监控观测产品,可以对基础设施、应用性能,以及云原生下业务指标和日志进行全面的监控和观测,构建全链路的可观测性服务,帮助用户及时发现和解决系统及应用性能问题,提高系统的稳定性和可靠性。应用性能优化:追踪服务端的全链路请求,识别接口调用慢、交易失败等问题,提升应用性能。

2025-03-20 15:17:02 645

原创 GPU虚拟化方案与落地

1. 背景本文总结一下当前 360 云平台虚拟机GPU 直通方案落地和容器+MIG 方案验证1. 背景AI 大模型作为 360 公司的重点战略目标,GPU 卡同时也作为战略资源,如果用物理机直接给用户使用,一个物理机默认带 8 张卡,有时用户用不到这么多,会造成 GPU 卡的浪费。所以,给用户提供的 GPU 卡需要精细划分,要求按卡分配,并且要有隔离机制。kvm 虚拟机和容器本身带有资源小单位划分和隔离的特性,于是团队采用了虚拟机和容器作为GPU资源提供方式来满足用户需求。2. 方案调研。

2025-03-19 18:15:24 920

原创 容器化部署内核版OVS热升级方案

内核版OVS热升级时,会先通过ovs-save dump 所有网桥上的Openflow存入临时文件,然后停止Vswitchd进程并设置flow-restore-wait为"true",此时再次启动Vswitchd进程时获取该特性设置了"true"不会从内核模块接收处理UPCALL,也不会让内核模块快路径的Flow超时,并且也不会连接Controller防止Openflow Restore前Controller下发Openflow。在容器外实现ovs-ctl restart的逻辑,具体请参考。

2025-03-17 11:35:42 903

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除