RV1126音频开发

公子小白146

于 2024-08-14 23:55:51 发布

阅读量804

点赞数 17

文章标签：音视频

本文链接：https://blog.csdn.net/weixin_64272492/article/details/141202742

版权

PCM音频原始数据

音频原始数据PCM，PCM全称是脉冲编码调制数据。PCM数据是未经过压缩的音频数据，它是由模拟信号经过采样、编码等步骤转换成标准的数字信号，下面是PCM生成的总流程。从下面这个流程图，我们可以看出来，音频模拟信号转换成数字信号需要经过采样、量化、编码三大步骤会变成PCM音频数字信号

采样

采样是我们音频最重要的知识点之一，它指的是把一段连续的模拟信号转换成离散的数字信号。而采样率就指的是每秒钟采样的个数，而根据奈奎斯特采样公式：当采样率大于等于连续信号的2倍时，采样信号就能够无差别还原出原始的信号。比方说人类的听觉频率是20HZ-20KHZ，而采样率就需要达到40KHZ以上才能够保证数据的完整性。

量化

量化指的是在坐标轴上，把每一个离散数据进行数字化操作。换言之就是把我们每一个采样的点都按照数字化表示出来，如下图

编码

把每一个量化的采样点存储起来，并以二进制的形式表现出来的过程就是编码。下图就是存储的表格：

PCM数据有以下重要的参数

采样率

指的是每秒钟采样的个数，换言之就是1S钟采集声音的频率，比方说48000HZ就相当于一秒钟PCM采集48000个采样点，总体来说采样率越高，音频的质量越好。PCM数据常用的采样率有：

192000HZ：192KHZ(蓝光、高清电影DVD)

96000HZ： 96KHZ(蓝光、高清电影DVD)

48000HZ：48KHZ(数字电视、DVD) (最常用)

44100HZ：44.1KHZ(CD音质)

22000HZ：22KHZ(无线广播)

采样深度

每次采样的大小，比方说如果采样深度是16BIT，那声音就有2的16次方的振幅，而32bit就相当于有2的32次方个振幅。声音振幅越多，声音的质量就会越高。在PCM中，有三种常见的采样大小：8 BIT、16BIT、32BIT这三种采样格式

通道数

PCM一般有四种通道数，分别是单通道、双声道、四声道、5.1声道

单声道

指的是只有一个声音的通道，比方说电话、喇叭之类的

双声道(立体声)

双声道指的是有两个声音的通道，声音在录制的过程中分配到两个独立的声道，这让人听起来就有立体的感觉。

四声道

四声道指的是前左、前右、后左、后右四个发声通道。观众听起来，则像被声音包围了一样。

5.1声道

5.1声道广泛运用在家庭影院，因为开发的时候用的较少，所以这里就不多介绍。

PCM比特率

比特率指的是每秒传输的比特数(bit)，一般PCM的比特率计算公式是：采样率*采样深度*通道数。比方说采样率是48000，采样深度是16BIT，通道数2,那它PCM比特率的计算公式就等于48000 * 16 * 2 = 1536000bit

PCM文件大小计算

假设一个PCM音频设备采样率48000、采样精度是16bit、2通道，大概采集10分钟数据，那它的大小：采样率 * 采样深度 * 通道数 * 时长 = 48000 * 16 * 2 * 10 * 60 = 921600000bit，然后再把bit转换成字节(BYTE) 921 600 000/8/1024/1024 = 109M

PCM存储格式

交错模式：首先记录第一帧的左声道样本和右声道样本；非交错模式：首先先记录一个周期内所有帧的左声道样本、再记录所有右声道样本

RV1126 音频AI模块的详解

RV1126的AI模块指的是音频输入模块，它的作用是通过内置芯片读取麦克风等音频的模拟信号，然后把音频模拟信号转换成数字信号。在RV1126里面，音频AI模块是所有音频输入的入口。下面是AI模块和麦克风等音频输入模块的关系

多线程获取音频AI的PCM数据

RV1126多线程获取音频PCM数据的流程

初始化AI模块并设置

启动AI模块

多线程获取音频PCM数据

销毁

音频AAC编码的讲解

音频为什么要进行编码压缩？我们就以PCM原始数据为例，假设这个PCM数据采样率为：48000、采样深度：16bit、声道数：2。对应的码率是：48000 * 16bit * 2 = 1536000bps ~=1.46M，若传输一分钟那就是1.46M * 60S~ = 87.6M。这个数据量是非常大，若在网络传输上这个音频的数据量很容易造成网络的负载压力。所以此时我们就需要对音频进行编码压缩，音频编码压缩格式分很多种，比方说：MP3、AAC、OGG格式。我们的课程重点来说AAC编码格式，因为AAC编码在网络传输中质量最好，并且AAC的压缩比高达1:18，是所有音频编码技术中压缩比最高。

AAC编码的特点

每个AAC音频帧包含了多个音频采样的压缩数据，AAC的一个音频帧包含1024个采样值。由于原始数据块它是以帧的形式存在，我们称之为原始帧。在AAC中一般有两种方式来封装，一种是ADIF，另外一种是ADTS。

ADIF格式

音频数据交换格式，这种格式必须在定义的音频数据流进行处理，基本上用于存储磁盘文件中

ADTS格式

音频数据传输流，这种格式是最常用的格式。它的特点是会同步字的比特流，并且允许在音频数据流任意帧解码。换言之，就是它的每一帧都有信息头，一个是AAC原始数据长度是可变，对原始帧加上ADTS头进行封装就生成ADTS帧。AAC的每一帧数据由ADTS Header和AAC Audio Data组成，其中ADTS Header占有7个字节-9个字节，ADTS Header由两部分组成分别是：固定头部信息(adts_fixed_header)和可变头信息(adts_variable_header)，固定头信息指的是数据每一帧都是相同的，它主要定义了音频的采样率、声道数、帧长度等信息；可变头信息则主要描述帧和帧之间的可变。下面是adts帧的结构

RV1126的AENC模块的讲解

RV1126的AENC模块是音频编码模块，主要是对AI模块进来的数据进行音频编码压缩处理，并输出对应的音频压缩码流，下面是AENC模块在RV1126里面和AI模块的关系。

通过多线程获取RV1126的AAC码流

通过多线程获取RV1126的AAC码流流程

代码演示

#include <assert.h>
#include <fcntl.h>
#include <getopt.h>
#include <pthread.h>
#include <signal.h>
#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <unistd.h>

#include "include/rkmedia/rkmedia_api.h"
#include "include/rkmedia/rkmedia_buffer.h"
#include "include/rkmedia/rkmedia_common.h"
#include "rkmedia_api.h"
#define AUDIO_PATH "default"
#define AI_CHN 0
#define AENC_CHN 0

#define AAC_PROFILE_LOW 1

typedef struct AacFreqIdx_
{
    RK_S32 u32SampleRate;
    RK_U8 u8FreqIdx;
} AacFreqIdx;

AacFreqIdx AacFreqIdxTbl[13] = {{96000, 0}, {88200, 1}, {64000, 2}, {48000, 3}, {44100, 4}, {32000, 5}, {24000, 6}, {22050, 7}, {16000, 8}, {12000, 9}, {11025, 10}, {8000, 11}, {7350, 12}};

static void GetAdtsHeader(RK_U8 *pu8AdtsHdr, RK_S32 u32SmpleRate, RK_U8 u8Channel,
                          RK_U32 u32DataLen)
{
    RK_U8 u8FreqIdx = 0;
    for (int i = 0; i < 13; i++)
    {
        if (u32SmpleRate == AacFreqIdxTbl[i].u32SampleRate)
        {
            u8FreqIdx = AacFreqIdxTbl[i].u8FreqIdx;
            break;
        }
    }

    RK_U32 u32PacketLen = u32DataLen + 7;
    pu8AdtsHdr[0] = 0xFF;                                                           // 主要是写入syncword同步字节的前8位
    pu8AdtsHdr[1] = 0xF1;                                                           // 主要是写入syncword同步字节的后4位,并且设置ID号、layer、protection_absent
    pu8AdtsHdr[2] = ((AAC_PROFILE_LOW) << 6) + (u8FreqIdx << 2) + (u8Channel >> 2); // 设置音频profile、sample_rate_index、声道数
    pu8AdtsHdr[3] = (((u8Channel & 3) << 6) + (u32PacketLen >> 11));                // 设置声道数，original_copy，home，copyright_identification_bit、copyright_identification_start、aac_frame_length
    pu8AdtsHdr[4] = ((u32PacketLen & 0x7FF) >> 3);                                  // 设置aac_frame_length+adts_buffer_fullness
    pu8AdtsHdr[5] = (((u32PacketLen & 7) << 5) + 0x1F);                             // 设置adts_buffer_fullness + number_of_raw_data_blocks_in_frame
    pu8AdtsHdr[6] = 0xFC;                                                           // 设置 number_of_raw_data_blocks_in_frame
}

void *get_audio_aenc_thread(void *args)
{
    pthread_detach(pthread_self());
    FILE *aac_file = fopen("test_capture.aac", "w+");
    MEDIA_BUFFER mb = NULL;
    RK_U8 aac_header[7];

    while (1)
    {
        mb = RK_MPI_SYS_GetMediaBuffer(RK_ID_AENC, AENC_CHN, -1);
        if (!mb)
        {
            printf("RK_MPI_SYS_GetMediaBuffer break....\n");
            break;
        }

        printf("Get AAC_Buffer Success...\n");

        //获取AENC的AAC码流头部
        GetAdtsHeader(aac_header, 48000, 2, RK_MPI_MB_GetSize(mb));
        fwrite(aac_header, 1, 7, aac_file); //写入7个字节的头部
        fwrite(RK_MPI_MB_GetPtr(mb),1, RK_MPI_MB_GetSize(mb), aac_file); //写入AAC的ES码流
        RK_MPI_MB_ReleaseBuffer(mb);
    }
}

int main(int argc, char *argv[])
{
    int ret;
    AI_CHN_ATTR_S ai_chn_s;
    ai_chn_s.pcAudioNode = AUDIO_PATH; //音频采样路径
    ai_chn_s.u32SampleRate = 48000;     //音频采样率
    ai_chn_s.u32NbSamples = 1024;       //音频采样个数
    ai_chn_s.u32Channels = 2;           //音频采样通道
    ai_chn_s.enSampleFormat = RK_SAMPLE_FMT_S16; //采样格式
    ai_chn_s.enAiLayout = AI_LAYOUT_NORMAL;    //采样布局
    ret = RK_MPI_AI_SetChnAttr(AI_CHN, &ai_chn_s); //设置AI属性
    if (ret)
    {
        printf("RK_MPI_AI_SetChnAttr failed...\n");
    }
    else
    {
        printf("RK_MPI_AI_SetChnAttr success...\n");
    }

    ret = RK_MPI_AI_EnableChn(AI_CHN);  //使能AI模块
    if (ret)
    {
        printf("RK_MPI_AI_EnableChn failed...\n");
    }
    else
    {
        printf("RK_MPI_AI_EnableChn success...\n");
    }

    AENC_CHN_ATTR_S aenc_chn_attrs;  //AENC
    aenc_chn_attrs.enCodecType = RK_CODEC_TYPE_AAC;//AENC模块的编码协议
    aenc_chn_attrs.u32Bitrate = 64000; //音频编码比特率,64kbps
    aenc_chn_attrs.u32Quality = 1;     //音频质量
    aenc_chn_attrs.stAencAAC.u32Channels = 2; //音频通道数
    aenc_chn_attrs.stAencAAC.u32SampleRate = 48000; //音频编码采样率，这里要和AI模块的采样率一致
    ret = RK_MPI_AENC_CreateChn(AENC_CHN, &aenc_chn_attrs); //创建AENC模块
    if (ret)
    {
        printf("RK_MPI_AENC_CreateChn failed....\n");
    }
    else
    {
        printf("RK_MPI_AENC_CreateChn success....\n");
    }

    MPP_CHN_S ai_mpp_chn_s;
    ai_mpp_chn_s.enModId = RK_ID_AI;
    ai_mpp_chn_s.s32ChnId = AI_CHN;

    MPP_CHN_S aenc_mpp_chn_s;
    aenc_mpp_chn_s.enModId = RK_ID_AENC;
    aenc_mpp_chn_s.s32ChnId = AENC_CHN;
    ret = RK_MPI_SYS_Bind(&ai_mpp_chn_s, &aenc_mpp_chn_s);  //绑定AI模块和AENC模块
    if (ret)
    {
        printf("RK_MPI_SYS_Bind failed....\n");
    }
    else
    {
        printf("RK_MPI_SYS_Bind success....\n");
    }

    pthread_t pid;
    pthread_create(&pid, NULL, get_audio_aenc_thread, NULL); //创建线程获取AENC码流

    while (1)
    {
        sleep(2);
    }

    RK_MPI_SYS_UnBind(&ai_mpp_chn_s, &aenc_mpp_chn_s);
    RK_MPI_AENC_DestroyChn(AENC_CHN);
    RK_MPI_AI_DisableChn(AI_CHN);

    return 0;
}