网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能

在这里插入图片描述

简介

在人工智能技术不断深入发展的今天,我们对于计算的性能要求越来越高。传统的计算处理多数是基于云侧的,把所有图像、音频等数据通过网络传输到云中心进行处理后将结果反馈。但是随着数据的指数式增长,依靠云侧的计算已经显现了诸多不足,例如数据处理的实时性、网络条件制约、数据安全等,因此端侧的推理则愈发重要。

在这样的背景下,网易有道AI团队自主设计研发了高性能端侧机器学习计算库——EMLL(Edge ML Library),并已在近日开源。

EMLL 为加速端侧 AI 推理而设计,提供基于端侧处理器的高性能机器学习计算库,支持fp32、fp16、int8等数据类型,已在网易有道词典笔、翻译王和超级词典等智能硬件产品的 NMT、ASR、OCR 引擎中应用,大幅提高计算性能,提升用户体验。

开源地址:https://github.com/netease-youdao/EMLL

一、端侧AI

端侧AI具有以下优势:

  • 低延时
  • 保证数据隐私
  • 不依赖网络

端侧AI挑战:

  • 处理器算力有限,远低于云端计算能力,如何满足日益复杂的端侧AI性能的需求至关重要
  • 内存大小和带宽有限,对性能影响至关重要

ARM 处理器在智能设备中占主导地位,是端侧AI落地的主流平台。NPU、DSP、GPU可以提供更高的计算能力,在端侧AI上有一定的应用场景,但生态环境较差,距离成熟还需要时间。

端侧AI最耗时的计算为全连接(FC)和卷积计算,底层核心计算为矩阵乘,底层计算库的性能对端侧AI能否落地起决定性作用。

二、ARM第三方BLAS库

Eigen

线性代数运算的 C++ 模板库,矩阵的运算可直接用符号做。

OpenBLAS

由中科院计算所维护的一个开源的高性能 BLAS 库,基于Kazushige Goto 的 GotoBLAS,支持 Fortran BLAS 和 CBLAS 接口调用。

ARM Compute Library

ARM 官方推出的计算库,支持 AI 的常见运算,其中矩阵乘法运算以模型推理层的形式封装,需要先初始化后才能调用。

表1-各ARM blas库矩阵乘法特点:

  • 33
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值