音频采样率转换处理

yyyang88

已于 2023-04-09 15:59:40 修改

阅读量3.3k

点赞数 1

文章标签：音视频 ffmpeg

于 2023-03-29 16:41:52 首次发布

本文链接：https://blog.csdn.net/yyyang88/article/details/129769970

版权

一、采样率转换

1、低采样率转换成高采样率

在音频处理中，插值法是一种常用的方法，用于将采样率较低的音频数据转换为采样率较高的音频数据。插值法的基本思想是，通过已知的采样点，推算出未知的采样点。常用的插值法有线性插值法、样条插值法等。
线性插值法：

线性插值法是一种简单的插值方法，它假设采样点之间的信号是线性的，通过已知的两个采样点，可以推算出它们之间的任意一个采样点。线性插值法的优点是计算简单，速度快，适用于采样率较低的情况。缺点是它只能拟合线性信号，对于非线性信号的拟合效果不佳。

输入帧大小 = 输入采样率 / 100
输出帧大小 = 输出采样率 / 100 / ( 123 / 125 )

/**
 * 将低采样率音频数据转换为高采样率音频数据
 * @param input_samples 输入采样值数组
 * @param output_samples 输出采样值数组
 * @param input_sample_rate 输入采样率
 * @param output_sample_rate 输出采样率
 * @param num_input_samples 输入采样值数量
 * @param num_output_samples 输出采样值数量
 */
void upsample(short *input_samples, short *output_samples, int input_sample_rate, int output_sample_rate, int num_input_samples, int num_output_samples) {
    // 计算输入采样率和输出采样率的比率
    float ratio = (float) output_sample_rate / input_sample_rate;
    int i, j;
    float index, frac;
    short sample1, sample2;

    // 对于每个输出采样点，计算其在输入采样点中的位置，并使用线性插值计算采样值
    for (i = 0; i < num_output_samples; i++) {
        index = i / ratio; // 计算输出采样点在输入采样点中的位置
        j = (int) index; // 计算最接近的输入采样点的索引
        frac = index - j; // 计算插值因子

        if (j < num_input_samples - 1) {
            // 如果最接近的两个输入采样点都在输入采样值数组中，则进行线性插值
            sample1 = input_samples[j];
            sample2 = input_samples[j+1];
            output_samples[i] = (1 - frac) * sample1 + frac * sample2;
        } else {
            // 如果最接近的两个输入采样点都在输入采样值数组之外，则使用最后一个输入采样点的值
            output_samples[i] = input_samples[num_input_samples-1];
        }
    }
}

样条插值法：

样条插值法是一种更加复杂的插值方法，它假设采样点之间的信号是光滑的，通过已知的多个采样点，可以推算出它们之间的任意一个采样点。样条插值法的优点是可以更好地拟合信号的曲线，从而得到更加精确的插值结果。缺点是计算复杂，速度较慢，适用于采样率较高的情况。

#include <stdio.h>
#include <stdlib.h>
#include <math.h>

#define M_PI 3.14159265358979323846

double cubic_spline_interp(double x, double *x_vals, double *y_vals, int n) {
    int i, j;
    double h[n], b[n], u[n], v[n], z[n], c[n], d[n], p, q, s, t, y;

    for (i = 0; i < n-1; i++) {
        h[i] = x_vals[i+1] - x_vals[i];
        b[i] = (y_vals[i+1] - y_vals[i]) / h[i];
    }

    u[1] = 2.0 * (h[0] + h[1]);
    v[1] = 6.0 * (b[1] - b[0]);

    for (i = 2; i < n-1; i++) {
        u[i] = 2.0 * (h[i-1] + h[i]) - (h[i-1] * h[i-1]) / u[i-1];
        v[i] = 6.0 * (b[i] - b[i-1]) - (h[i-1] * v[i-1]) / u[i-1];
    }

    z[n-1] = 0.0;
    c[n-1] = 0.0;

    for (i = n-2; i >= 1; i--) {
        z[i] = (v[i] - h[i] * z[i+1]) / u[i];
        c[i] = (z[i+1] - z[i]) / (3.0 * h[i]);
        d[i] = (b[i] - h[i] * (c[i] + z[i])) / h[i];
    }

    i = 0;
    j = n-1;

    while (j-i > 1) {
        int mid = (i + j) / 2;

        if (x > x_vals[mid]) {
            i = mid;
        } else {
            j = mid;
        }
    }

    p = x - x_vals[i];
    q = x_vals[i+1] - x;
    s = (p * p * p - h[i] * p * p) / (6.0 * h[i]);
    t = (q * q * q - h[i] * q * q) / (6.0 * h[i]);
    y = c[i] * s + c[i+1] * t + d[i] * p + d[i+1] * q;

    return y;
}

void resample_audio(double *audio_data, int orig_sr, int new_sr, int num_samples) {
    int i, j, num_new_samples;
    double *new_audio_data, *time_stamps, time_per_sample;

    time_per_sample = 1.0 / orig_sr;
    num_new_samples = (int) round(num_samples * (double) new_sr / (double) orig_sr);
    new_audio_data = (double *) malloc(num_new_samples * sizeof(double));
    time_stamps = (double *) malloc(num_new_samples * sizeof(double));

    for (i = 0; i < num_new_samples; i++) {
        time_stamps[i] = i * (1.0 / new_sr);
        new_audio_data[i] = 0.0;

        for (j = 0; j < num_samples-1; j++) {
            double start_time = j * time_per_sample;
            double end_time = (j+1) * time_per_sample;
            double start_val = audio_data[j];
            double end_val = audio_data[j+1];
            double time = time_stamps[i];

            if (time >= start_time && time <= end_time) {
                double x_vals[4] = { start_time, start_time + time_per_sample / 3.0, end_time - time_per_sample / 3.0, end_time };
                double y_vals[4] = { start_val, cubic_spline_interp(start_time + time_per_sample / 3.0, time_stamps, audio_data, num_samples), cubic_spline_interp(end_time - time_per_sample / 3.0, time_stamps, audio_data, num_samples), end_val };
                new_audio_data[i] = cubic_spline_interp(time, x_vals, y_vals, 4);
                break;
            }
        }
    }

    for (i = 0; i < num_new_samples; i++) {
        audio_data[i] = new_audio_data[i];
    }

    free(new_audio_data);
    free(time_stamps);
}