从零构建深度学习推理框架-1 简介和Tensor

源代码作者:https://github.com/zjhellofss

本文仅作为个人学习心得领悟 ,将原作品提炼,更加适合新手

什么是推理框架?

深度学习推理框架用于对已训练完成的神经网络进行预测,也就是说,能够将深度训练框架例如Pytorch、Tensorflow中定义的算法移植到中心侧和端侧,并高效执行。与训练框架不同的是,深度学习推理框架没有梯度反向传播功能,因为算法模型文件中的权重系数已经被固化,推理框架只需要读取、加载并完成对新数据的预测即可。

模型加载阶段

训练完成的模型被放置在两个文件中,一个是模型定义文件,一个是权重文件

ONNX文件是将模型定义文件和权重文件合二为一的文件格式。

关于维度的预备知识

在Tensor张量中,共有三维数据进行顺序存放,分别是Channels(维度),Rows(行高), Cols(行宽),

三维矩阵我们可以看作多个连续的二维矩阵组成,最简单的方法就是std::vector<std::vector<std::vector<float>>>,但是这种方法非常不利于数据的访问(尤其是内存不连续的问题 、修改以及查询,特别是在扩容的时候非常不方便。不能满足使用需求

不连续会造成数组访问慢的问题,在这里我用chrono做了测试:

#include<iostream>
#include <gtest/gtest.h>
#include <armadillo>
#include <glog/logging.h>
#include <vector>
#include <chrono>
#define TICK(x) auto bench_##x = std::chrono::steady_clock::now();
#define TOCK(x) std::cout << #x ": " << std::chrono::duration_cast<std::chrono::duration<double>>(std::chrono::steady_clock::now() - bench_##x).count() *1000000<< "ns" << std::endl;
using namespace std;
int m = 10000 , n = 10000 , channel = 2;
TEST(test_compare_vector , speed2D){
    LOG(INFO)<<"Test of vector & cube"<<endl;
    vector<vector<float>> matA (m , vector<float>(n , 1));
    TICK(2D);
    for (int  i = 0; i <matA.size(); i++)
    {
        for (int j = 0; j < matA[0].size(); j++)
        {
            matA[i][j] = matA[i][j]*matA[j][i];
        }
    }
    TOCK(2D);
        arma::fcube matB( m , n , 1 , arma::fill::ones);
    TICK(cube);
        for (int  i = 0; i <m; i++)
    {
        for (int j = 0; j < n; j++)
        {
            matB(i , j , 0) = matB(i , j , 0)*matB( j , i , 0);
        }
    }
    TOCK(cube);


}

因此,综合考虑灵活性和开发的难易度,作者在这里以Armadillo类中的arma::mat(矩阵 matrix)类和arma::cube 作为数据管理(三维矩阵)类来实现Tensor 库中类的主体,一个cube由多个matrix组成,cube又是Tensor类中的数据实际管理者。一块连续的大内存分配开始写一个tensor,工作量会特别大,折中!

 作者设计的类是以arma::cube为基础实现了Tensor我们主要是提供了更方便的访问方式和对外接口 

 上图即为Tensor与cube的对应关系。

 cube一般有多个维度,在channel维度上有多个matrix。

arma::cube(2,5,3),表示当前的三维矩阵共有2个矩阵构成,每个矩阵都是5行3列的。如果放在我们项目中会以这形式提供 Tensor tensor(2,5,3)

下图是这种情况下的三维结构图,可以看出一个Cube一共有两个Matrix,也就是共有两个Channel。一个Channel放一个Matrix. Matrix的行宽均为Rows和Cols.

 Tensor类方法总览

这里的很多都不需要我们重新去造轮子

比如Fill(float value)就可以直接调用cube里的fill:

void Tensor<float>::Fill(float value) {
  CHECK(!this->data_.empty());
  this->data_.fill(value);
}

再比如这个at:

float &Tensor<float>::at(uint32_t channel, uint32_t row, uint32_t col) {
  CHECK_LT(row, this->rows());
  CHECK_LT(col, this->cols());
  CHECK_LT(channel, this->channels());
  return this->data_.at(row, col, channel);
}

再难一些的就需要我们自己去实现了:

Fill(vector)方法实现:

TEST(test_tensor, fill) {
  using namespace kuiper_infer;
  Tensor<float> tensor(3, 3, 3);
  ASSERT_EQ(tensor.channels(), 3);
  ASSERT_EQ(tensor.rows(), 3);
  ASSERT_EQ(tensor.cols(), 3);

  std::vector<float> values;
  for (int i = 0; i < 27; ++i) {
    values.push_back((float) i);
  }
  tensor.Fill(values);
  LOG(INFO) << tensor.data();

  int index = 0;
  for (int c = 0; c < tensor.channels(); ++c) {
    for (int r = 0; r < tensor.rows(); ++r) {
      for (int c_ = 0; c_ < tensor.cols(); ++c_) {
        ASSERT_EQ(values.at(index), tensor.at(c, r, c_));
        index += 1;
      }
    }
  }
  LOG(INFO) << "Test1 passed!";
}

padding功能实现:

 


TEST(test_tensor, padding1) {
  using namespace kuiper_infer;
  Tensor<float> tensor(3, 3, 3);
  ASSERT_EQ(tensor.channels(), 3);
  ASSERT_EQ(tensor.rows(), 3);
  ASSERT_EQ(tensor.cols(), 3);

  tensor.Fill(1.f); // 填充为1
  tensor.Padding({1, 1, 1, 1}, 0); // 边缘填充为0
  ASSERT_EQ(tensor.rows(), 5);
  ASSERT_EQ(tensor.cols(), 5);
  int index = 0;
  // 检查一下边缘被填充的行、列是否都是0
  for (int c = 0; c < tensor.channels(); ++c) {
    for (int r = 0; r < tensor.rows(); ++r) {
      for (int c_ = 0; c_ < tensor.cols(); ++c_) {
        if (c_ == 0 || r == 0) {
          ASSERT_EQ(tensor.at(c, r, c_), 0);
        }
        index += 1;
      }
    }
  }
  LOG(INFO) << "Test2 passed!";
}

再谈谈Tensor类中数据的排布

我们以具体的图片作为例子,来讲讲Tensor中数据管理类arma::cube的数据排布方式Tensor类是arma::cube对外更方便的接口,所以说armadillo::cube怎么管理内存的,Tensor类就是怎么管理内存的。希望大家的能理解到位。如下图中的一个Cube,Cube的维度是2,每个维度上存放的是一个Matrix,一个Matrix中的存储空间被用来存放一张图像(lena) 。一个框内(channel)是一个Matrix,Matrix1存放在Cube第1维度(channel 1)上,Matrix2存放在Cube的第2维度上(channel 2). Matrix1和Matrix2的Rows和Cols均代表着图像的高和宽,在本例中就是512和384。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TensorFlow: - 原理:TensorFlow是一个基于数据流图的深度学习框架,使用静态计算图来表示计算任务。它使用张量(Tensor)作为数据的基本单位,并通过计算图定义了数据流和操作之间的关系。 - 结构:TensorFlow提供了丰富的API和工具,包括高级API(如Keras),用于简化模型的构建和训练过程。它支持分布式计算和跨平台部署,并具有强大的计算性能和优化能力。 PyTorch: - 原理:PyTorch是一个基于动态计算图的深度学习框架,它使用动态构建计算图的方式来执行计算任务。这使得PyTorch在灵活性和易用性方面具有优势,可以方便地进行模型的调试和动态图的操作。 - 结构:PyTorch提供了直观的API和丰富的工具,使得模型的构建和训练过程更加简洁和灵活。它也支持分布式计算和跨平台部署,并且在学术界广泛使用。 Keras: - 原理:Keras是一个高级神经网络API,可以在多种深度学习框架上运行,如TensorFlow、Theano和CNTK。它提供了简洁易用的接口,使得模型的构建和训练过程更加快速和方便。 - 结构:Keras的结构相对简单,主要包含顺序模型和函数式模型两种方式。它提供了丰富的层和模型组件,可以快速搭建各种类型的神经网络模型。 Caffe: - 原理:Caffe是一个基于数据和计算图的深度学习框架,它使用protobuf文件定义网络结构和参数。Caffe主要用于图像分类和目标检测等计算机视觉任务。 - 结构:Caffe的结构相对简单,通过定义网络结构文件和参数文件来构建和训练模型。它具有高效的推理性能,并且支持在多个平台上进行部署。 MXNet: - 原理:MXNet是一个基于动态计算图的深度学习框架,它支持静态和动态混合的计算图。MXNet具有高度可扩展性和灵活性,可以适应不同规模和需求的深度学习任务。 - 结构:MXNet提供了简洁的API和工具,使得模型的构建和训练过程更加容易。它还支持分布式计算和多种编程语言接口。 Darknet: - 原理:Darknet是一个开源的深度学习框架,主要用于计算机视觉任务,如目标检测。它使用基于卷积神经网络的深度学习方法,并采用全卷积和多尺度预测等技术。 - 结构:Darknet的结构相对轻量级,具有较小的参数量和较快的推理速度。它提供了简单而高效的网络结构和特殊的层操作,使得模型具有较好的性能。 综上所述,这些流行的深度学习框架在原理和结构上有所差异,各自适用于不同的应用和需求。选择合适的框架取决于任务类型、开发者的经验和项目需求等因素。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值