ZVAyIVqt0UFji-CSDN博客

原创通过volcano增强的智能基础设施，优化LLM工作流程

从 2023 年开始，大模型进入了爆发阶段, 大模型出色的理解能力和推理能力获得了大量关注。如何更好地训练和推理大模型也成为了亟待解决的技术难题。智汇云承载了360内部大模型开发、训练、推理和数据处理等全流程工作。在建立大模型基础设施的工作中，智汇云遇到了许多难点，并且通过各种方式一一解决。本篇文章将介绍如何通过优化调度流程解决大模型基础设施遇到的一些难点。在大模型基础设施的构建中，使用 Kube...

2024-09-19 11:39:36 615

原创网络播放器兼容性、扩展性与性能

近年来，点播、直播场景已成为越来越多产品的核心模块。而主流浏览器自带的原生播放器，难以满足业务提出的日益复杂的需求。从兼容性、性能、可扩展性、安全性等方面考虑，需要结合web端现有API与音视频技术、开发一款独立内核的万能网络播放器。本文从兼容性、可扩展性、性能提升角度分享网络播放器相关技术。01可扩展的分层架构当前主流播放器一般采用组件化内核来实现对多种协议、编码格式的支持。如支持flv.js，...

2024-09-13 11:54:11 769

转载 Pika版本升级线上最佳实践

Pika作为完全兼容redis协议，以 RocksDB 为存储引擎的的大容量、高性能、多租户、数据可持久化的弹性 KV 数据存储方案，经过两年的持续改进与开发，已经从 3.0 版本升级到 3.5.4 版本。在这个过程中，Pika 不仅优化了性能与稳定性，还引入了许多新特性和增强功能。本篇文章将结合我们当前线上升级经验，详细介绍 Pika 在版本升级中的注意事项、操作步骤，以便大家能更加方便的进行...

2024-09-11 12:03:31 133

原创 Apache DataFusion查询引擎简介

01简介DataFusion是一个查询引擎，其本身不具备存储数据的能力。正因为不依赖底层存储的格式，使其成为了一个灵活可扩展的查询引擎。它原生支持了查询CSV，Parquet，Avro，Json等存储格式，也支持了本地，AWS S3，Azure Blob Storage，Google Cloud Storage等多种数据源。同时还提供了丰富的扩展接口，可以方便的让我们接入自定义的数据格式和数据源。...

2024-09-09 14:55:02 1014

原创函数计算的版本管理与灰度发布

为了满足不断变化的市场需求和用户期望，以及应对日益复杂的安全挑战和业务策略的变化，有效的版本管理对于服务的开发和运营至关重要。服务版本管理不仅仅是一个技术实践，更是确保业务成功和用户满意的关键环节。版本管理使得团队能够有序地计划、开发和发布新功能，同时保留并支持旧版本，确保业务的持续运作和用户体验的改善。通过有效的版本管理，团队能够在快速变化的市场环境中保持敏捷性和竞争力，为客户提供稳定、安全和高...

2024-09-05 14:36:49 900

原创虚拟化云管服务奥创的优化升级以及多集群下VPC网络实现

01背景介绍奥创(Ultron)是360内部虚拟化功能的云管服务, 通过封装虚拟化相关功能, 统一对外提供虚拟化openstack相关api等服务, 可以理解为openstack集群的一个统一网关服务，对内支撑平台HULK等平台，提供云计算相关功能。目前虚拟化提供的包括云主机,云硬盘,云网络,安全组,裸金属,负载均衡等功能均由奥创统一对外提供服务。但是随着功能的不断丰富、用户数量的增加,同时对极致...

2024-08-27 14:40:33 1089

原创手把手搭建私人在线备份系统

对于打工人来说，什么文件最重要？那就是——打不开的文件最重要！那么，如何才能避免这样的事情发生呢？这时候就需要使出我们的大杀器——文件备份！文件备份怎么搞才最合适呢？是使用移动硬盘？是使用U盘？是使用光盘？是打印出来？如果每天让打工人自己手动备份一次，想想就是一件令人崩溃的事情。所以，是否可以通过自动备份的方式来实现呢？而且，即便自己的电脑爆炸了，备份的东西还是完好无损的。备份按使用情况来计费，...

2024-08-20 17:18:46 853

原创视频云服务质量（Qos）之抗丢包策略

QoS（Quality of Service，服务质量）是网络技术中用来确保某些数据流的优先级和服务质量的一系列策略和机制。在实时通信和流媒体传输中，QoS尤为重要，因为它可以减少延迟、丢包和抖动，从而提高用户体验。包括NACK策略、TWCC策略等。NACK是一种反馈机制，当接收端检测到丢包时，它会向发送端发送一个NACK消息，请求重新发送丢失的数据包。TWCC是一种拥塞控制机制，旨在减少网络拥塞...

2024-08-19 17:13:03 962

原创 360 容器云 VPC 网络落地上量

01前言随着业内容器化的普及和业务发展，公司内集群规模、集群数量不断增加。其中为了实现 pod ip 公司全网可达，采用了向接入交换机宣告 bgp 的方案。遇到的问题是集群、pod 网络需要精确规划，交换机等网络设备需要额外管理、配置。开发、管理、运维成本较高，并形成故障隐患。加之公司虚拟化团队有成熟的云网络方案，可以使容器网络接入使用虚拟化云网络，实现降本增效的同时，又满足灵活、稳定、高性能等诉...

2024-08-16 10:48:44 620

原创云存储技术：HBase & HDFS 无感知迁移方案

在大数据生态系统中，HBase 和 HDFS 是两个关键组件。HBase 是一个分布式列式数据库，常用于实时读写大规模数据；HDFS 是一个高可靠的分布式文件系统，用于存储海量数据。 1、背景随着业务的发展和技术的进步，可能需要对现有的HBase/Hadoop集群进行迁移，或是因为各种原因（如成本控制、硬件升级、地理位置调整等）进行机房搬迁。这样的操作不仅涉及到大量的技术细节，还需要考虑业务连续性...

2024-08-08 16:14:41 956

原创容器七层负载均衡解决方案——IngressNGINX

一、概述当我们使用 K8S 对容器进行编排时，基于负载均衡和高可用方面考虑，且设计上 Pod 易失态，不能直接使用 PodIP 作为外部访问的方式。因此，K8S 官方提供了一些负载均衡的解决方案。这其中有四层和七层两种，本文主要介绍 K8S 内的七层负载均衡实现方案 Ingress，它是主流的 K8S 南北向七层负载均衡实现。二、功能介绍1. 功能入口项目 -> 应用列表 ->...

2024-08-05 15:39:42 623

原创初识函数计算构建系统

01背景在云原生环境中，应用程序都需要以容器镜像的形式部署，相对于传统的应用程序部署方式，云原生应用部署存在以下挑战：开发者不仅要进行业务逻辑的开发，还要维护自己项目的 Dockerfile需要容器镜像具有一定的安全性云端可能会有特定的部署策略，所以会要求容器镜像具有一定的规范性针对以上挑战，我们在函数计算平台中增加了构建系统 build-platform 。开发者上传代码到 build-pla...

2024-07-29 19:26:25 341

转载弹性伸缩在360私有云平台的落地

1.介绍“弹性”是云服务特有的一种高阶能力。弹性伸缩，简称AS（Auto Scaling）。用户可以根据业务需求和策略设置伸缩规则，在业务需求增长时自动为业务增加虚拟化资源，以保证计算能力。在业务需求下降时自动减少虚拟化资源，可节约成本，也可帮助用户根据负载对业务服务削峰填谷，平衡成本与资源。业务量相对稳定的服务，可使用弹性伸缩实现健康监测以及异常状态的资源自动替换，从...

2022-07-19 14:02:04 689

原创认识和学习orchestrator之基本使用篇

01介绍orchestrator目前GitHub上star 4.5k+，非常适用于有多个数据中心MySQL集群的管理。该工具使用起来很简单，但能用好却不容易，其配置参数将近200个，后端存储表47张，下面将介绍orchestrator以及它的使用方法。02orchestrator是什么2.1功能其是一个管理MySQL复制拓扑的高可用、管理、可视化的工具。会定时采集探测到...

2022-04-21 19:54:06 4907 1

原创记一次kafka集群频繁crash的排查过程

01概述kafka集群中的某些broker会随机重启，并且重启没有什么规律。broker重启对于client端使用层面是无感知的，但是在数据一致性、稳定性方面存在风险。broker重启时，...

2022-03-15 14:21:00 972

原创基于主机Overlay和自研虚拟化网关的VPC在360的落地

01背景1.1 概述随着公司业务的不断发展，用户对网络也提出了更多的需求。一方面360公司25G机房逐步上线，交换机架构升级，导致原有的虚拟化网络方案无法支持虚机的跨交换机迁移，而且部分特...

2022-03-08 16:12:15 4181

原创 MySQL子查询原理分析

01前言子查询，通俗解释就是查询语句中嵌套着另一个查询语句。相信日常工作中接触到 MySQL 的同学都了解或使用过子查询，但是具体它是怎样实现的呢? 查询效率如何? 这些恐怕好多人就不太清...

2022-01-26 18:55:29 1975

原创横跨7个版本的OpenStack无感知热升级在360的落地与实践

01背景360公司的IaaS服务平台，是基于开源Openstack项目研发的，在发展的数年间已历经了多次版本的更新迭代。2015年，360团队基于Liberty版本自主研发了360公有云（...

2022-01-19 17:13:14 2469

原创一文读懂VictoriaMetrics集群方案

01简介VictoriaMetrics集群方案，除了有单节点方案的优点以外，还可以做到水平扩容，当有大量数据存储时，VictoriaMetrics集群方案是个不错的选择。官方建议是100w...

2022-01-10 19:51:14 4361 2

原创 Cilium创建pod network源码解析

01Overview我们生产K8s使用容器网络插件 Cilium 来创建 Pod network，下发 eBPF 程序实现 service 负载均衡来替换 kube-proxy，并且使用 ...

2021-12-09 16:48:29 851

原创 MySQL表联接原理分析

01前言用过MySQL的同学肯定都知道表联接，关键字即为join，使用的场景就是“当只查询一个表的信息不能满足我们需求”的时候，就需要用到两个甚至多个表联接查询。但是当不了解表联接的实...

2021-11-24 16:30:16 631

转载 TIKV扩容之刨坑填坑

01背景某tidb集群收到告警，TIKV节点磁盘使用率85%以上，联系业务无法快速删除数据，于是想到扩容TIKV节点，原先TIKV节点机器都是6TB的硬盘，目前只有3TB的机器可扩，...

2021-11-16 18:27:58 807

原创 SPDK bdev详解

01简介在之前的文章《SPDK简述和概览》中我们描述了SPDK应用编程框架的部分内容，基于文中提到的线程模型，SPDK实现了各类子系统、应用服务在调用spdk_app_start方法启动时...

2021-11-11 19:38:21 3072

原创虚拟化网络与云网关打通的解决方案

01背景随着云计算与网络技术的不断发展，公司内越来越多的业务有着上云的需求。我们底层虚拟化团队基于社区openstack版本提供云服务，借助社区的力量能够快速实现一套满足基本功能的云平...

2021-11-04 11:00:42 958 1

转载 Pika在360的应用与实践

01业务挑战随着业务量快速发展，用户对Redis这种速查KV缓存型数据库需求越来越高，不仅要快，还要持久化安全。Redis自身aof可保证持久化数据，但是随着内存增长，高内存下ao...

2021-10-27 21:00:00 1237

原创 sync.Once简介

sync.Once介绍sync.Once 是 Go 标准库提供的使函数只执行一次的实现，常应用于单例模式，例如初始化配置、保持数据库连接等。作用与 init 函数类似，但有区别。init ...

2021-10-21 17:53:21 828

原创使用LXCFS实现容器资源的视图隔离

01问题背景大家都知道，当我们使用top等命令的时候，背后的逻辑是读取/proc 目录下相应的资源文件。本篇文章就通过查看使用 top所执行的系统调用，来窥探一二。stracet...

2021-10-09 17:54:12 284

转载 OpenAtom Pika 来了！

Pika 是一个基于硬盘存储、完全兼容 Redis 协议、解决 Redis 由于存储数据量巨大而导致内存容量瓶颈的 KV 数据库。由奇虎360基础架构组和 DBA 联合开发，秉承共享开放...

2021-09-30 15:04:08 272

转载 VictoriaMetrics入门与实战

01简介VictoriaMetrics，是一个快速高效、经济并且可扩展的监控解决方案和时序数据库。谈到VictoriaMetrics就必须要提到Prometheus，VictoriaMet...

2021-09-29 19:11:20 2312

原创基于DPDK实现私网VPC间互联互通的云联网解决方案

01背景随着云计算和网络技术的不断发展，越来越多的业务有着上云的需求。上云后业务能够使用云上已有的服务提升开发效率，也可以利用云平台的弹性伸缩特性，及时应对业务的负载变化。360内部也提出...

2021-09-26 18:06:50 424

原创基于kubeadm10分钟搭建k8s集群指南

一搭建集群背景环境要求：A compatible Linux host. The Kubernetes project provides generic instructions for...

2021-09-16 14:18:12 559

转载 PostgreSQL高可用集群在360的落地实战

本文主要从以下几个方面介绍PostgreSQL高可用集群在360的落地实战为什么选择Patroni + Etcd + PostgreSQL高可用集群方案PostgreSQL高可用集群在36...

2021-09-09 11:39:35 743

原创基于Openstack的企业级实例在360的落地实战

#背景当前公司内部使用的虚拟机，主要为共享型实例。共享型实例在物理CPU上采用超卖机制，如超卖3倍到超卖5倍。共享型实例采用非绑定CPU调度模式，每个vCPU会被随机分配到任何空闲CPU...

2021-09-02 10:00:05 294

转载基于MM2的跨IDC kafka热备多活方案

本文主要介绍360商业化在跨IDC kafka热备方面的实践，接下来会按以下顺序介绍各个议题：MM2简介跨IDC kafka热备多活方案产品化需要注意的风险MM2简介在介绍MM2之前先谈...

2021-08-23 17:07:39 950

转载 SPDK概览

女主宣言： SPDK是Intel针对NVMe SSD开源的高性能存储框架，它能够减低IO路径上软件栈所占用的耗时占比，从而尽可能发挥出硬件设备的性能。接下来小编带大家去深入了解SPDK，让...

2021-08-04 18:55:25 1572

转载基于DPDK实现VPC和IDC间互联互通的高性能网关

女主宣言: 前言:随着云计算和网络技术的不断发展，越来越多的业务有着上云的需求。上云后，业务能够使用云上已有的服务提升开发效率，也可以利用云平台的弹性伸缩特性，及时应对业务的负载变化。实际...

2021-07-28 16:24:48 412

原创 Linux Disk Quota实践

女主宣言: 前言:Linux Disk Quota是一种限制文件系统资源使用的技术，quota意思是份额、配额的意思，它用来限制用户使用磁盘的额度。可以实现针对用户、群组、目录多维度限制，...

2021-07-14 18:17:30 519

原创关于Golang的4个小秘密

女主宣言前言：在使用Golang开发项目的过程中，我们的攻城狮遇到了4个看似不起眼的小问题，但是排查起来确实耗费了不少时间。快来看看你是不是也遇到过吧，希望这篇文章能帮助到你。PS：丰富的...

2021-07-07 17:33:24 223

原创从Paxos到Multi-Paxos

女主宣言There is only one consensus protocol, and that's Paxos – all other approaches are just...

2021-06-30 18:57:39 230

原创一站式实时数仓开发：当FLINK SQL遇见ULTRON

女主宣言FLINK是被称为第四代大数据处理引擎的开源利器，近年来在国内各大厂的加持下更是成为了实时计算领域的标准，而ULTRON是360商业化近一年多来在总结自身实时计算场景应用和特点的基...

2021-06-24 17:38:40 467

空空如也

空空如也