使用百度ai进行文字识别、语音合成

本文链接：https://blog.csdn.net/weixin_48837584/article/details/143806509

文字识别+语音合成

一、创建百度ai的api
- 1.在百度ai注册登录
- 2.创建文字识别和语音合成的api
二、项目介绍
总结

人工智能课程的期末作业，使用python语言，结合百度ai，可以识别图片或者剪贴板的文字，输出文字并将结果合成语音音频播放

一、创建百度ai的api

1.在百度ai注册登录

登录百度ai官网

https://console.bce.baidu.com/

注册一个账号，有的话直接登录

2.创建文字识别和语音合成的api

首先在控制台选择需要使用的AI服务项，先选择文字识别

在这里插入图片描述

由于本人仅为了完成期末作业，因此就不开通付费，第一次使用会有免费的可以领取

在这里插入图片描述

领取免费后就去创建应用

在这里插入图片描述

在自己的应用列表就可以看见自己创建的应用，有相应的APP ID 、API key、Secret key，后面在代码中会调用。

语音合成的应用创建与文字识别的应用创建一样，需要注意的是，应该选择语音技术下的语音合成，此项目是将识别出的文字合成为语音音频，需要注意：语音合成的免费时间只有6个月，超过这个时间就不能用，如果创建后在半年后发现使用不出来就是免费时间已经过了。

二、项目介绍

1.引入库

代码如下：

import wx
from PIL import ImageGrab
from PIL import Image
from gtts import gTTS
import io
import pub
from threading import Thread
from pubsub import pub
import filetype
from aip import AipOcr, AipSpeech
from playsound import playsound

提示：aip应该下载baidu-aip，pubsub下载pypubsub

2.接口调用、文字识别

调用接口代码：

APP_ID = '你的id'
API_KEY = '你的文字识别的api key'
SECRET_KEY = '你的secret key'
#语音合成接口调用
SPEECH_APP_ID = '你的id'
SPEECH_API_KEY = '你的语音合成的APT KEY'
SPEECH_SECRET_KEY = '你的secret key'
# AipOcr是OCR的Python SDK客户端，为使用OCR的开发人员提供了一系列的交互方法。
clientAipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)
# AipSpeech是百度语音的客户端,认证成功之后,客户端将被开启,这里的client就是已经开启的百度语音的客户端了。
clientAipSpeech = AipSpeech(SPEECH_APP_ID, SPEECH_API_KEY, SPEECH_SECRET_KEY)