Unicode浅析——调用科大讯飞语音合成接口(日语)所遇到的天坑

  如题,最近做的项目需要调用科大讯飞的语音合成接口,将日文合成日语。然后坑爹的是跟我对接的那一方直接扔过来一份接口文档,里面并未提及日语合成所需要的参数。中文、英文合成倒是没问题,就这个日语合成的音频始终听起来不对。后来对接方说文本需要unicode编码,但具体如何编码他们也不清楚。这回至少有了思路,就拿文本做各种unicode编码。随后试来试去,好歹给试出来了是哪种unicode编码。这次天坑也算是知道了些unicode的皮毛。

  Unicode,全称Universal Multiple-Octet Coded Character Set,通用多八位编码字符集,它是一套字符集,也是一套编码方案。字符我们知道,比如“中”就是一个字符,那啥是字符编码?字符编码是给计算机识别字符用的。计算机只知道0和1,比如“中”要让计算机表示出来,就必须将它转换为0和1,怎么转的就是字符编码搞定的。既然提到字符编码,离不开字符集,因为字符编码又是通过字符集来实现的。

  字符集就是字符的集合,比如美国人制定的ASCII字符集包含了256个字符,用来表示英文字母、数字、标点符号、控制符等,而国人则制定了中文字符集GB2312,以及它的进化版GBK、GB18030。那么问题来,ASCII是单字节(8位),撑死了表示256个字符;GB2312、GBK是双字节,虽说能耐大些,也就撑死了表示65536个字符;GB18030已经增加到四字节了,但其他国家怎么办呢?它们不见得乐意用咱们的GB系列,都自立为王搞一套,那就都乱套了。为了能一劳永逸的解决字符集的问题,国际标准组织出手了,它搞出了一套四字节编码的字符集,包罗万象,管你英文还是中文,日文还是韩文,世界上所有语言的字符它大小通吃。

  Unicode如此霸气侧漏,但我们需要注意一下,它不是一个具体的字符集,而是一套字符集,包括UTF-8、UTF-16、UTF-32等,这些字符集合起来就是一套编码方案。UTF,全称Unicode Transformation Format,如果是以8位(单字节)进行编码,就是UTF-8,同理,以双字节(16位)编码就是UTF-16,四字节就是UTF-32。Unicode的“字符”就是编码点(code point),通常写成 16 进制的形式再加前缀“U+”,例如“中”的编码点是U+4e2d。UTF-32空间开销太多,用的并不多。其实Unicode默认用的是UTF-16。最常用的是 UTF-8 ,它根据不同的字符进行不同的编码,可变的存储为 1 到 4 个字节,空间开销最小。

  UTF-8单字节不存在字节序列问题,UTF-16、UTF-32就需要注意大小端点问题了。具体用个例子来说明比说一堆废话好理解,比如现在我用UTF-16表示“中”这个字符,因为有两个字节,那么这两个字节哪个先出现呢?大端点的编码点表示是U+4e2d,小端点的编码点则为:U+2d4e。Unicode默认使用一个BOM(Byte Order Mark,字节序列标记 )来让计算

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,你需要在科大官网注册账号并创建应用,获取到 AppID 和 API Key。 然后,在 TP5.0 中使用科大的在线语音合成 API,可以按照以下步骤进行: 1. 在 `config.php` 配置文件中添加如下配置: ```php return [ // ... // 科大语音合成配置 'xunfei_tts' => [ 'app_id' => 'your_app_id', 'api_key' => 'your_api_key', ], ]; ``` 2. 在 `Controller` 中编写以下代码: ```php use think\facade\Config; use think\facade\Http; // 获取科大语音合成配置 $config = Config::get('xunfei_tts'); $appId = $config['app_id']; $apiKey = $config['api_key']; // 构造请求参数 $text = '欢迎使用科大语音合成'; $params = [ 'auf' => 'audio/L16;rate=16000', // 音频采样率 'aue' => 'lame', // 音频编码格式 'voice_name' => 'xiaoyan', // 发音人 'speed' => '50', // 语速 'volume' => '50', // 音量 'pitch' => '50', // 音高 'text' => $text, // 待合成文本 ]; $paramStr = base64_encode(json_encode($params, JSON_UNESCAPED_UNICODE)); $curTime = time(); $checkSum = md5($apiKey . $curTime . $paramStr); // 发送语音合成请求 $response = Http::sendRequest('https://tts-api.xfyun.cn/v2/tts', 'POST', [ 'headers' => [ 'Content-Type' => 'application/x-www-form-urlencoded; charset=utf-8', 'X-Appid' => $appId, 'X-CurTime' => $curTime, 'X-Param' => $paramStr, 'X-CheckSum' => $checkSum, ], ]); // 处理响应结果 if ($response->getStatusCode() == 200) { $contentType = $response->getHeaderLine('Content-Type'); if (strpos($contentType, 'audio/') === 0) { $body = $response->getBody(); // 处理音频数据... } else { $body = $response->getBody(); $result = json_decode($body, true); // 处理错误信息... } } else { // 处理请求失败... } ``` 在代码中,首先获取科大语音合成的配置信息,然后构造请求参数并发送语音合成请求。最后根据响应结果进行处理,如果响应的是音频数据,则可以对音频数据进行处理(如保存到文件或输出到浏览器);如果响应的是错误信息,则需要对错误信息进行处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值