CYuNuo-CSDN博客

原创整数取余数

整数取余数，是信号处理中常见的运算，对于取余数运算，一般的嵌入式平台不会基于硬件进行支持。所以将取余数运算转化成硬件平台所能支持的加减乘除及其移位运算。17%8 为例，转换成二进制为 1 0001 % 1000，对于这个运算的商为 1 0001 >> 3, 而向右移位的三位 001 为余数。1000 取反 0111。

2023-08-15 10:47:34 189 1

原创均匀分布的随机数---C66x

随机数的产生，是仿真不可缺少的函数，本节是对均匀分布的随机数据进行说明。通过混合同余法产生均匀分布的随机函数。2. C66x_scalar 计算实现。是随机数的种子（seed），表示输出，生成的随机数输出。1. C 语言的直接实现。

2023-08-08 22:51:08 154

浮点数：double/float/float16/bfloat16/float8/bfp16/bfp13(block float point)（1）“抽样”，就是以相等的间隔时间来抽取模拟信号的样值，使连续的信号变成离散的信号。（2）“量化”，就是把抽取的样值变换为最接近的数字值，表示抽取样值的大小。整形：int8/int16/int32/long/long long/（3）“编码”，就是把量化的数值用一组二进制的数码来表示。量化类型：对称量化和非对称量化，线性量化和非线性量化。

2023-07-31 22:54:42 232 1

原创指数（底数为e）近似实现及性能评估-v1.0

是单调递增的，若x为bf16的数据类型，首先bf16的数据format为1，8，7，则可表示的精度为1/2^7, x的取值范围-2^128 ~ 2^128，是部分非线性算子组成部分，如tanh，cosh，sinh等，所以指数基于嵌入式的快速实现，是高性能算法的基础之一。1）. 指数的快速实现包含泰勒级数展开，多项式拟合，指数近似计算等，本文介绍级数的泰勒级数展开。对于多项式拟合的话，我认为初步是确定好参数ai，多项式的项数和确定好表示精度。最小二乘的含义就是预测值与真实值的差的平方和最小。

2023-07-14 20:03:57 368 1

原创并行算法实现的一些思考

(5) 并行算法的设计. 对于软件人员来说，（1）~ （4）是基于指令集，编译器，内核的算法实现，也就是说利用三者已经设计好的并行行为完成算法的实现。(4) 常用算子的实现，什么是常用算子，你可以理解为某方面算法的公共算法行为，如数字信号处理中的FFT等，深度学习中的softmax等，这些算子一般由初等函数构成；）的实现，微架构实现了基本的运算行为，那么算法实现的第一步就是对初等函数的实现，如何高效的实现指数函数，三角函数等，是算法实现的基础（基础知识为数值分析）。c. 如何编程（编译器的行为）;

2023-03-13 05:34:02 85

原创深度学习算法实现过程中初等函数调研

深度学习算法的基于嵌入式实现，嵌入式硬件往往仅支持Load/Store，乘加运算，移位运算等，但是初等函数确无法通过硬件的实现，需要将这些初等函数转化成硬件所支持的运算的方式实现。这里我们对深度学习过程中需要的初等函数进行统计。基本初等函数：幂函数、指数函数、对数函数、三角函数、反三角函数、常数函数。有理运算：加，减，乘，除，有限次开方，有限次乘方。下面初等函数是需要在实现过程中采用近似方法实现的。2.1 有理运算：除法与有限次开方。4）三角函数与反三角函数。5）双曲函数/反双曲函数。

2023-02-24 21:11:13 97

原创浮点数的二进制计算-乘法及移位运算

浮点数bfloat16二进制存储形式及二进制计算

2023-02-18 16:06:35 1851

原创常用并行机性能评估指标

常用的并行机分别从机器，算法，程序三方面对并行机的性能进行评估。

2023-02-18 09:09:15 375

原创指令并行——单核并行编程说明1

本文描述DSP及AIE芯片的单核编程并行计算的处理：1）Instruction Level Parallelism (ILP)：指令集并行。（1）实现方式：VLIW（超长指令字）。（2）VLIW优缺点：优点：充分利用core内的计算单元，VLIW是通过编译器实现一个cycle多个指令的执行，减少了硬件的复杂度。缺点：增加了编译器的复杂度，需要一个强大的编译器。（3）dependency：（1）计算单元类型及个数；（2）指令集；（3）软件流水；（4）指令读取的带宽。（5）编译器的关键字。（4）学习目

2022-03-11 06:09:45 2467

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_43627680的博客

原创整数取余数

原创均匀分布的随机数---C66x

原创深度学习中常见数据类型

原创指数（底数为e）近似实现及性能评估-v1.0

原创并行算法实现的一些思考

原创深度学习算法实现过程中初等函数调研

原创浮点数的二进制计算-乘法及移位运算

原创常用并行机性能评估指标

原创指令并行——单核并行编程说明1

转载指令集并行——vliw和超标量cpu

原创并行计算————计算机架构

原创 Docker的安装与使用

window10与mac下docker桌面镜像的同步实现

空空如也