![](https://img-blog.csdnimg.cn/20200817224727874.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python-语音
文章平均质量分 66
随手记
wx:pjcoder
wx:pjcoder
展开
-
pyannote 语音活动检测/说话者变化检测/语音重叠检测
人机语音交互人机语音交互的关键点一是唤醒词,之后就是语音活动检测,最后一步要解决“鸡尾酒会效应”。我正在探索语音活动检测的解决方案,遇到了这个工具包于是试了一下。这个项目是基于PyTorch的,与webrtcvad有着天壤之别,在嘈杂环境下解决语音活动检测还是得靠神经网络,而webrtcvad在嘈杂状态下是无法工作的,感兴趣的同学可以看一下,或许你们有更好的解决方案。webrtcvad# -*- coding: utf-8 -*-import webrtcvadimport collection原创 2020-12-14 13:06:36 · 5112 阅读 · 1 评论 -
ReSpeaker Mic Array v2.0 快速上手代码解析(声源定位、语音助手)
ReSpeaker Mic Array v2.0 快速上手参考自:https://wiki.seeedstudio.com/ReSpeaker_Mic_Array_v2.0/#doa-direction-of-arrivalhttps://wiki.seeedstudio.com/cn/ReSpeaker_Mic_Array_v2.0/我的环境树莓派3作用该功能类似天猫精灵,即在设备播放过程中检测唤醒词用于打断或重定向任务。即让智能设备在"说"的时候同时还可以"听" ,人类是有意识的,所以自原创 2020-11-20 10:36:11 · 5749 阅读 · 4 评论 -
ReSpeaker Mic Array v2.0 VAD检测 usb.core.USBError: [Errno 13] Access denied
nano /etc/udev/rules.d/99-com.rules加上这句SUBSYSTEM==“usb”, ATTRS{idVendor}==“2886”, MODE=“0666”重启sudo udevadm triggerfrom tuning import Tuningimport usb.coreimport usb.utilimport timedev = usb.core.find(idVendor=2886, idProduct=0x0018)# print dev原创 2020-11-17 14:29:20 · 944 阅读 · 3 评论 -
python 语音学习 librosa语音特征Feature extraction
文档这东西真好,提取特征是件挺麻烦的事情,预加重、分帧、加窗 … 不得不感叹py是真舒服。相比python_speech_features的文档,librosa似乎更舒适代码 “你好”的频谱import matplotlib.pyplot as pltimport librosa.displayfrom python_speech_features import *import numpy as npimport utilsx , sr = librosa.load("output原创 2020-09-29 09:52:12 · 2100 阅读 · 7 评论 -
python 标贝 模拟人声/语音克隆/语音复刻(API)体验
吐槽提起语音克隆技术业内人人士估计都知道Real Time Voice Cloning,谷歌工程师的论文SV2TTS,由比利时列日大学的研究人员复现了该框架并开源了他们的实现。本来挺感兴趣的,试想如果能把亲人的语音克隆带在身边是多么美妙的事情,其实我也很想克隆我儿子的声音,毕竟他长得太快了,不过兴趣是兴趣,现实是现实,研究了几天由于内功不够深厚差点走火入魔,py学习时间仅有个把月的我还是暂时封印它吧。但是SV2TTS太美妙了,比如TTS语料库惊人,类似清华公开的库动不动就十几个G,而SV2TTS只需要简原创 2020-09-09 19:57:45 · 4965 阅读 · 10 评论 -
python 语音学习-Vad检测+滑动平均(剔除语音空白)
功能将一段语音中空白处剔除代码详解from scipy.ndimage.morphology import binary_dilationimport librosaimport numpy as npimport structimport librosa.displayimport webrtcvadimport soundfile as sf// ** a的b次方 32767int16_max = (2 ** 15) - 1#输入wav, source_sr = libro原创 2020-09-03 11:09:19 · 3428 阅读 · 0 评论 -
python 语音学习-将wav中一句话的每个字截取出来并获得mfcc特征
这段语音是“你好吗”,下面将提取出每一个字的特征提取后:from pydub import AudioSegmentfrom pydub.silence import split_on_silenceimport numpy as npimport matplotlib.pyplot as pltimport librosa.displaysound_file = AudioSegment.from_wav("test.wav")# 数字音频信号以系统能处理的最大音频信号的编码为原创 2020-08-20 21:08:20 · 841 阅读 · 0 评论