自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 整数取余数

整数取余数,是信号处理中常见的运算,对于取余数运算,一般的嵌入式平台不会基于硬件进行支持。所以将取余数运算转化成硬件平台所能支持的加减乘除及其移位运算。17%8 为例,转换成二进制为 1 0001 % 1000,对于这个运算的商为 1 0001 >> 3, 而 向右移位的三位 001 为余数。1000 取反 0111。

2023-08-15 10:47:34 176 1

原创 均匀分布的随机数---C66x

随机数的产生,是仿真不可缺少的函数,本节是对均匀分布的随机数据进行说明。通过混合同余法产生均匀分布的随机函数。2. C66x_scalar 计算实现。是随机数的种子(seed),表示输出,生成的随机数输出。1. C 语言的直接实现。

2023-08-08 22:51:08 116

原创 深度学习中常见数据类型

浮点数:double/float/float16/bfloat16/float8/bfp16/bfp13(block float point)(1)“抽样”,就是以相等的间隔时间来抽取模拟信号的样值,使连续的信号变成离散的信号。(2)“量化”,就是把抽取的样值变换为最接近的数字值,表示抽取样值的大小。整形:int8/int16/int32/long/long long/(3)“编码”,就是把量化的数值用一组二进制的数码来表示。量化类型:对称量化和非对称量化,线性量化和非线性量化。

2023-07-31 22:54:42 200 1

原创 指数(底数为e)近似实现及性能评估-v1.0

是单调递增的,若x为bf16的数据类型,首先bf16的数据format为1,8,7,则可表示的精度为1/2^7, x的取值范围-2^128 ~ 2^128,是部分非线性算子组成部分,如tanh,cosh,sinh等,所以指数基于嵌入式的快速实现,是高性能算法的基础之一。1). 指数的快速实现包含泰勒级数展开,多项式拟合,指数近似计算等,本文介绍级数的泰勒级数展开。对于多项式拟合的话,我认为初步是确定好参数ai,多项式的项数和确定好表示精度。最小二乘的含义就是预测值与真实值的差的平方和最小。

2023-07-14 20:03:57 280 1

原创 并行算法实现的一些思考

(5) 并行算法的设计. 对于软件人员来说,(1)~ (4)是基于指令集,编译器,内核的算法实现,也就是说利用三者已经设计好的并行行为 完成算法的实现。(4) 常用算子的实现,什么是常用算子,你可以理解为某方面算法的公共算法行为,如数字信号处理中的FFT等,深度学习中的softmax等,这些算子一般由初等函数构成;)的实现,微架构实现了基本的运算行为,那么算法实现的第一步就是对初等函数的实现,如何高效的实现指数函数,三角函数等,是算法实现的基础(基础知识为数值分析)。c. 如何编程(编译器的行为);

2023-03-13 05:34:02 80

原创 深度学习算法实现过程中初等函数调研

深度学习算法的基于嵌入式实现,嵌入式硬件往往仅支持Load/Store,乘加运算,移位运算等,但是初等函数确无法通过硬件的实现,需要将这些初等函数转化成硬件所支持的运算的方式实现。这里我们对深度学习过程中需要的初等函数进行统计。基本初等函数:幂函数、指数函数、对数函数、三角函数、反三角函数、常数函数。有理运算:加,减,乘,除,有限次开方,有限次乘方。下面初等函数是需要在实现过程中采用近似方法实现的。2.1 有理运算:除法与有限次开方。4)三角函数与反三角函数。5)双曲函数/反双曲函数。

2023-02-24 21:11:13 91

原创 浮点数的二进制计算-乘法及移位运算

浮点数bfloat16二进制存储形式及二进制计算

2023-02-18 16:06:35 1636

原创 常用并行机性能评估指标

常用的并行机分别从机器,算法,程序三方面对并行机的性能进行评估。

2023-02-18 09:09:15 319

原创 指令并行——单核并行编程说明1

本文描述DSP及AIE芯片的单核编程并行计算的处理:1)Instruction Level Parallelism (ILP):指令集并行。(1)实现方式:VLIW(超长指令字)。(2)VLIW优缺点:优点:充分利用core内的计算单元,VLIW是通过编译器实现一个cycle多个指令的执行,减少了硬件的复杂度。缺点:增加了编译器的复杂度,需要一个强大的编译器。(3)dependency:(1)计算单元类型及个数;(2)指令集;(3)软件流水;(4)指令读取的带宽。(5)编译器的关键字。(4)学习目

2022-03-11 06:09:45 2371

转载 指令集并行——vliw和超标量cpu

本文介绍并比较了CPU架构超标量superscalar和超长指令自VLIW(Very long instruction word)。乱序执行(In-order & out-of-order execution)在各单元不按规定顺序执行完指令后还必须由相应电路再将运算结果重新按原来程序指定的指令顺序排列后才能返回程序。这种将各条指令不按顺序拆散后执行的运行方式就叫乱序执行(也有叫错序执行)技术。这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后,将能提前执行的指令立即发送给相应电路单元

2022-03-09 16:01:59 1681

原创 并行计算————计算机架构

1. 冯.诺依曼计算机架构1)内存;存储数据和代码指令;2)控制单元;从内存中fetch instruction/data,解码instrution,之后完成编程的任务3)算数逻辑单元;完成基本的算数逻辑操作。4)IO人机交互的接口。2. flynn 分类并行计算机的分类有很多方法,上图介绍一种由data stream和instrution stream的两个方面对并行计算机进行分类。1)SISD串行计算机。每个cycle只有一个instrution,每个cycle只能完成一个da

2022-03-09 15:15:42 979

原创 Docker的安装与使用

1. Window101.1 docker安装Windows Docker 安装 | 菜鸟教程 (runoob.com)1.2 centos7-vnc安装拉取镜像centos7docker pull centos:7可以从https://hub.docker.com/_/centos?tab=tags查询拉取需要的镜像版本。启动容器docker run --name centos-desktop-vnc --privileged -d -p 5901:5901 --ulimit me

2022-03-02 20:30:27 1058

window10与mac下docker桌面镜像的同步实现

(1)window10安装docker,通过vnc链接centos7容器桌面 (2)Mac安装docker,通过x11完成centos7桌面链接 (3)centos7容器在window10上进行配置,生成images,push到docker hub,mac 从docker hub pull 资源,实现window10与mac的配置环境一致

2022-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除