自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 如何识别并解决复杂的dcache问题

背景:这个是在centos7.6的环境上复现的,但该问题其实在很多内核版本上都有,如何做好对linux一些缓存的监控和控制,一直是云计算方向的热点,但这些热点属于细分场景,很难合入到linux主基线,随着ebpf的逐渐稳定,对通用linux内核的编程,观测,可能会有新的收获。下面列一下我们是怎么排查并解决这个问题的。一、故障现象oppo云内核团队发现集群的snmpd的cpu消耗冲高,snmpd几乎长时间占用一个核,perf发现热点如下:+ 92.00% 3.96% [kernel]

2021-07-14 10:29:34 576

原创 云原生Web服务框架ESA Restlight

云原生Web服务框架ESA RestlightESA Stack(Elastic Service Architecture) 是OPPO云计算中心孵化的技术品牌,致力于微服务相关技术栈,帮助用户快速构建高性能,高可用的云原生微服务。产品包含高性能Web服务框架、RPC框架、服务治理框架、注册中心、配置中心、调用链追踪系统,Service Mesh、Serverless等各类产品及研究方向。当前部分产品已经对外开源开源主站:https://www.esastack.io/Github: https:

2021-07-14 10:24:54 1812

原创 OPPO 大数据诊断平台“罗盘”正式开源

欢迎参与贡献“罗盘”大数据诊断平台!

2023-04-04 11:37:35 488

原创 OPPO云数据库访问服务技术解析

CDAS(Cloud Database Access Service) 云数据库访问服务,具备读写分离、水平扩容、HTAP混合负载、兼容 MySQL 等重要特性,专注解决超高并发、海量数据、大表瓶颈等数据库难题,助力业务实现可靠的应用服务。

2022-04-18 17:10:14 2665

原创 全链路异步Rest客户端 ESA RestClient

ESA Stack(Elastic Service Architecture) 是OPPO云计算中心孵化的技术品牌,致力于微服务相关技术栈,帮助用户快速构建高性能,高可用的云原生微服务。产品包含高性能Web服务框架、RPC框架、服务治理框架、注册中心、配置中心、调用链追踪系统,Service Mesh、Serverless等各类产品及研究方向。

2022-03-21 16:52:06 1628

原创 MySQL 分布式事务的“路”与“坑”

什么是分布式事务?MySQL分布式事务应当如用使用?是否有什么坑需要注意?它的读写一致性是如何保证的?点我,听我一一道来!

2022-03-16 18:05:00 1551

原创 PendingIntent重定向:一种针对安卓系统和流行App的通用提权方法——BlackHat EU 2021议题详解 (下)

以用户隐私安全为中心,用责任兑付信任,OPPO成立子午互联网安全实验室(ZIWU Cyber Security Lab)。实验室以“保护用户的安全与隐私,为品牌注入安全基因”为使命,持续关注并发力于业务安全、红蓝对抗、IoT安全、Android安全、数据和隐私保护等领域。本篇文章源自OPPO子午互联网安全实验室。1 不安全PendingIntent的通用利用方法1.1 不安全PendingIntent的特征至此,我们已经解决了本议题的第一个问题,经过研究表明,Android系统中使用的Pendin.

2022-03-15 15:45:02 9138

原创 PendingIntent重定向:一种针对安卓系统和流行App的通用提权方法——BlackHat EU 2021议题详解(上)

1 简介1.1 Intent安卓系统中,Intent是在组件间传递的通信消息,用于执行打开Activity、发送广播、启动服务等动作,而Intent对象内部的字段则规定了Intent发送的目的组件,以及执行动作的具体内容,包括action、category、data、clipdata、package、flag、extra、component和selector。其中component和selector用于设置Intent的目的组件,规定Intent发送给谁。按照是否设置component和selecto

2022-03-15 09:59:06 6649

原创 AI算力加速之道

随着AI发展,训练数据规模超过TB级,对算力的需求平均每年增长达10倍左右,对算力的挑战日益严峻,本文介绍了AI算力发展趋势,AI算力加速的最新技术以及如何利用最新加速技术进行系统化加速。

2022-03-02 18:53:13 3498

原创 ORTC与SIP融合通信服务架构

OPPO实时音视频(OPPO Real-Time Communication ORTC),是我们推出一套低延时、高品质、跨平台的音视频互通解决方案,通过OPPO云服务器向开发者开放,提供多人音视频通话、实时监控、应急指挥调度、互通直播、IoT万物互融、云游戏等能力输出。以往的音视频通信技术大多是基于SIP/H323的实现方案, 本文提供一种融合方案,实现RTC与SIP等协议的互通融合,使得RTC能够很轻易的实现与PSTN、Sip Trunk的对接,同时传统的会议终端通过改方案也能轻易接入RTC平台。

2022-01-11 16:32:11 4448

原创 QCon-OPPO大规模CV预训模型技术及实践

cv预练模型是在海量数据上训练好的模型,可以给出主干网络合适的初始化参数代替从头开始训练模型。我们尽可能的探索最优的网络架构,提供鲁棒的cv预训练代替网上的开源模型,助力oppo相关业务提升算法效果。

2022-01-07 14:45:11 2408

原创 大数据SQL优化之数据倾斜解决案例全集

大数据任务领域里最困难的问题莫过于数据倾斜,除了一些常规的参数优化外,还有一些非常困难以致于必须通过SQL改写才能避免倾斜的情况。本文介绍了如何解决关联结果膨胀,如何巧妙的避免全局排序以及如何解决写倾斜等情形。

2022-01-05 15:47:32 880

原创 QCon-oCPX多目标多场景联合建模在OPPO的实践

自从2012年产品化oCPX 以来,业内oCPX 产品和能力的发展已经非常的成熟。OPPO数智工程系统算法平台部商业化算法也在oCPX 能力建设上积累了一些实践经验。oCPX广告的转化率预估面临的挑战很多。第一、转化目标多,不同的这个转化目标的数据的差异大的。第二、深度转换延迟特别大。第三、数据稀疏导致模型容易欠拟合。第四、转化数据的质量比较难保证。

2021-12-30 11:13:42 2352

原创 QCon-小布助手对话系统工程实践

1.3亿月活的小布助手,为OPPO旗下所有设备提供智能对话交互体验。本文以小布助手最核心的对话系统为主线,介绍对话系统服务端工程化落地的实践,包括业务架构思考、流畅度优化实践、微服务实践。

2021-12-29 14:39:40 3851

原创 OPPO小布助手算法系统探索、实践与思考

作为全球TOP级智能设备制造商,OPPO把万物互融作为未来的战略方向,而AI助手是该战略方向不可或缺的重要组成部分。本文以OPPO小布助手为案例,分享亿级月活AI助手算法系统的实践经验与未来思考。

2021-12-28 14:25:33 851

原创 OPPO大数据计算集群资源调度架构演进

我们开发的离线和实时任务,都需要集群提供计算资源来保障作业运行,如何充分协调作业资源,发挥集群最大计算能力正是资源调度框架要解决的问题。本篇将重点介绍资源调度框架YARN及其在OPPO的实践。

2021-12-27 15:32:31 203

原创 OPPO大数据离线任务调度系统OFLOW

离线调度系统在整个大数据体系中发挥了一个指挥中心的作用。OPPO的大数据离线调度系统OFLOW系统是基于热门的开源的apache airflow进行定制开发的,进行了很多的改造和优化以适应自身业务需求。目前基于1.0系统使用过程的一系列问题,我们又自主开发了一套全新的OFLOW 2.0系统,目前正在邀请业务试用体验。

2021-12-23 16:28:22 2281

原创 OPPO大数据离线计算平台架构演进

OPPO大数据离线计算平台演进道路上,遇到了很多经典的大数据问题,比如说:shuffle失败、小文件问题、元数据切分、多集群资源协调、spark 任务提交门户建设。OPPO大数据离线计算平台团队依托自身的资源和技术,不断探索,务实的解决平台发展中遇到的各种问题。本文围绕前面提到的五个问题,逐步介绍我们的大数据平台演进之路。

2021-12-22 16:27:46 484

原创 由IDC余热回收创新技术实践引出的跨界合作探讨

本文从OPPO云智能计算中心的余热回收技术实践切入探讨余热回收的经济技术优势,进而深入到双碳政策大背景下数据中心行业的自救之路与跨界合作探讨。

2021-12-21 16:36:11 323

原创 Flink Sql Gateway的原理与实践

我们在使用Flink开发实时任务时,都会用到框架本身提供的DataStream API,这使得用户不能不用Java或者Scala甚至Python来编写业务逻辑;这种方式虽然灵活且表达性强,但对用户具有一定的开发门槛,并且随着版本的不断更新,DataStream API也有很多老版本不兼容的问题。

2021-12-16 16:15:33 4020

原创 OPPO云VPC网络实践

采用基于智能网卡的VPC网络架构,提高了网络的安全性、系统业务承载能力和运维效率,赋能AI和大数据平台。

2021-12-14 10:43:49 2030

原创 实体链接在小布助手和OGraph的实践应用

精准直达的知识问答能力是小布助手的高频场景,对营造小布“懂知识、更懂你”的形象非常重要。让我们一起了解OGraph和小布助手如何碰撞,利用实体链接技术帮助小布做到能听、会说、更懂你。

2021-12-13 18:46:17 299

原创 图数据库平台建设及业务落地

本文主要从图数据库概念、调研过程、平台建设和业务落地几个方面来讲解OPPO在图数据库上的探索过程,希望能对大家有所帮助。

2021-12-10 16:50:45 385

原创 QCon-OPPO数据平台Cloud Lake 降本增效实践

OPPO数据平台每年有大概30%的业务规模增长。 如此的规模增长下, 系统SLA三个9, 任务100%准点,是我们必须要保障的。同时,公司希望通过技术升级、云数融合,平台能够把过往快速增长的成本降下来。

2021-12-07 15:29:43 1933

原创 我就获取个时间,机器就down了

1. 背景linux 时间管理,包含clocksource,clockevent,timer,tick,timekeeper等等概念 ,这些概念有机地组成了完整的时间代码体系。当然,是代码就会有bug,本文通过一个bug入手,在实战中加深对理论的认识。获取时间,但是crash了。2. 故障现象OPPO云内核团队接到连通性告警报障,发现机器复位:PID: 0 TASK: ffff8d2b3775b0c0 CPU: 1 COMMAND: "swapper/1" #0 [ffff8d59

2021-11-18 19:22:59 474

原创 潜藏在手机中的新威胁:免安装应用安全指北

OPPO子午实验室在Black Hat Asia黑帽大会上分享了针对免安装应用的研究与分析成果,如何从普通接口调用到应用权限的远程命令执行,我们将在本篇文章中进行更为详尽的分析。

2021-11-17 15:19:41 5074

原创 虚拟机与容器的混合管理实践

1. 背景当前容器已经成为企业上云的主流选择,经过2019年下半年的深度研发和推广,2020年OPPO基本实现了基于kubernetes的容器的大规模使用和全业务上云。容器的优势是敏捷和高性能,然而由于需要共享宿主机内核,隔离不彻底等原因,当用户需要修改很多定制的内核参数或者在低版本的 Linux 宿主机上运行高版本的 Linux 容器,或者只是需要隔离性更高时,在容器上都是难以实现的。而由于历史原因,公司内部也仍然有一些业务需要使用强隔离的虚拟机,因此提供虚拟机服务,势在必行。经过调研,我们发现对于已

2021-11-11 19:17:17 2800

原创 Elastic-Job的执行原理及优化实践

1. QuartzQuartz是由OpenSymphony提供的强大的开源任务调度框架,用来执行定时任务。比如每天凌晨三点钟需要从数据库导出数据,这时候就需要一个任务调度框架,帮我们自动去执行这些程序。那Quartz是怎样实现的呢?1)首先我们需要定义一个运行业务逻辑的接口,即Job,我们的类继承这个接口来实现业务逻辑,比如凌晨三点读取数据库并且导出数据。2)有了Job之后需要按时执行这个Job,这就需要一个触发器Trigger,触发器Trigger就是按照我们的要求在每天凌晨三点执行我们定义的Jo

2021-11-08 10:24:53 2588

原创 智能语音技术:从哪儿来?往何处去?

近几年,语音识别技术逐渐走向成熟,越来越多的互联网公司及硬件厂商在布局智能语音的商业版图。万物互联的浪潮势不可挡,智能语音技术在汽车、智能家居、教育等各个领域全面开花。智能语音从何发展至今?当前面临怎样的机遇与挑战?未来又将发展成什么样的形态?本次我们访谈了OPPO资深语音架构师Elon,他将为我们介绍智能语音技术的完整发展路径。Q1:能否简单介绍一下语音技术的发展历程呢?早在计算机发明之前,1920年便有了“Radio Rex”玩具狗这种早期的语音识别雏形,可以视为人类对智能语音技术的初次探索;而真

2021-08-24 17:36:10 566

原创 OPPO数据湖统一存储技术实践

导读OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地充分挖掘数据价值,成为了拥有海量数据的公司的一大难题。目前业界的流行解决方案是数据湖,本文介绍的OPPO自研的数据湖存储CBFS在很大程度上可解决目前的痛点。▌数据湖简述数据湖定义:一种集中化的存储仓库,它将数据按其原始的数据格式存储,通常是二进制blob或者文件。一个数据湖通常是一个单一的数据集,包括原始数据以及转化后的数据

2021-08-17 10:37:09 460

原创 中间件运维之故障自愈

1. 背景1.目前中间件容器节点故障、机器资源不足(磁盘大小、内存大小、cpu)等问题时有发生,接入自动化运维后可快速的处理集群异常问题。2.以前处理问题需要人工介入,人力成本较大,运维流程缺乏规范。2. 目标1. 标准化,规范运维流程,制定标准的运维流程。2. 可视化,运维流程可视化、平台化,做到可追踪,可回溯。3. 自动化,容器重建,进程启停,部分指标通过根因分析实现故障自愈。3. 故障自愈架构图故障自愈的监控数据采集模块,周期性将采集到的各实例指标数据上报

2021-08-10 11:34:25 1884

原创 深度学习中的分布式训练

1. 为什么需要分布式训练随着人工智能与深度学习的发展,大规模和超大规模的模型越来越受到业界的推崇。以NLP行业为例,从最开始的Bert-base只有1亿左右的参数量,到千亿级别的GPT-3,再到今年6月发布的目前全球最大预训练模型“悟道2.0”,参数规模达到惊人的1.75万亿,整个业界都由一种向更大模型发展的趋势。面对如此庞大的模型,必然也需要庞大的数据量才能进行训练,如果没有分布式训练的大算力加持,一个Epoch可能就要训练到天荒地老。抛开业界淬炼超大模型的场景,对于一个AI行业的普通算法工程师,面对

2021-08-03 10:41:32 1160

原创 oCPX简介——广告界的“无人驾驶”技术

oCPX诞生历程互联网广告最早出现的时候会让广告主按时间长度去买断一个展示位置的广告,或者按广告展现次数去投放广告。这种方式与传统电视广告投放方式比较类似。我们现在看到的一些网站的Banner和大部分App的开屏广告都属于这种广告投放方式,而这些广告主都是以品牌推广为目的进行广告投放的。这类广告特点是个性化差,所有用户观看这个电视节目或者打开这个网页都会看到这个广告,所以很多男士在电视上会看到化妆品广告,女士会看到耐克的广告,而实际上大部分情况下他们对这个品牌商品是不感兴趣的,广告流量浪费会比较多。而

2021-07-29 17:20:56 3638

原创 统一预估引擎的设计与实现

1. 背景随着互联网的快速发展,互联网上出现了各种海量的信息。怎么样为用户推荐感兴趣的信息是个很大的挑战?各种各样的推荐算法、系统都涌现出来。而预估引擎可以说是推荐系统中比较重要的一环,预估引擎效果的好坏严重影响了算法效果。结合oppo的业务场景,我们的预估引擎需要解决几个问题:(1)通用性:oppo的推荐业务场景非常多,包括信息流、商店、短视频、联盟、锁屏杂志、音乐等业务,预估引擎要支持这么多的场景,框架一定要通用。(2)多模型预估:在广告场景中,需要支持ocpx,需要一次请求同时预估ctr和cvr

2021-07-29 17:20:12 143

原创 10分钟掌握Java性能分析诀窍

概要Java性能分析是一门艺术和科学。科学指的是性能分析一般都包括大量的数字、测量和分析;艺术指的是知识、经验和直觉的使用。性能分析的工具或者手段各有千秋,但性能的分析的过程却都大相径庭。本文就已知适用的Java性能分析窍门进行一些分享,帮助用户更好的理解和运用。窍门一:线程栈剖析线程栈分析是对正在运行的Java线程的快照分析,是一种轻量级的分析手段,用户在不清楚应用存在什么性能问题的时候可优先尝试。虽然判定Java线程是否异常并没有统一的标准,但用户可以通过一些指标进行定量的评估。以下分享4个检测指

2021-07-29 17:19:10 96

原创 一例智能网卡(mellanox)的网卡故障分析

背景:这个是在centos 7.6.1810的环境上复现的,智能网卡是目前很多云服务器上的网卡标配,在OPPO主要用于vpc等场景,智能网卡的代码随着功能的增强导致复杂度一直在上升,驱动的bug一直是内核bug中的大头,在遇到类似问题时,内核开发者由于对驱动代码不熟悉,排查会比较费劲,本身涉及的背景知识有:dma_pool,dma_page,net_device,mlx5_core_dev设备,设备卸载,uaf问题等,另外,这个bug目测在最新的linux基线也没有解决,本文单独拿出来列举是因为uaf问

2021-07-27 11:09:19 1324

原创 Realtime DB技术详解

1. Realtime DB概述1.1 Realtime DB简介Realtime DB是一种托管在云端的数据库,数据以JSON格式存储并实时同步到所连接的每个客户端。具有以下特点:使用的不是常见的HTTP请求,而是采用数据同步机制。每当数据发生变化时,任何连接的设备都会实时收到更新提供灵活的基于表达式的规则语言,可以由用户自定义数据结构以及何时可以读取或写入数据基于 MongoDB 的 NoSQL 数据 库,因此具有不同于关系型数据库的优化方向和 功能特点。服务端 API 的设计只支持可以快

2021-07-20 16:13:41 425

原创 下一代人工智能:逻辑理解?物理理解?

近日,由开放原子开源基金会与 Linux 基金会联合开源中国共同举办的首届“GOTC 全球开源技术峰会”在上海世博中心圆满落幕。作为LF AI & Data子基金会的理事会成员之一,OPPO数智工程系统资深技术专家Liam Zheng在GOTC「AI大数据与数字经济」分论坛发表了名为《下一代人工智能:逻辑理解?物理理解?》的演讲。本文通过对Liam的访谈,向大家分享他对下一代人工智能的看法与理解。Q1:在本次GOTC分论坛上发表《下一代人工智能的核心是逻辑理解和物理理解》这一演讲的背景是什么呢?

2021-07-16 16:12:56 361

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除