2022.9.24 第2次周报

本文提出了一种针对口吃语音的检测和校正算法,结合神经网络和字符串运算在MATLAB中实现。该系统创建了用户友好的GUI,能清除口吃,提高语音识别率。同时,学习了吴恩达的机器学习课程,重点了解了代价函数、梯度下降和线性回归。
摘要由CSDN通过智能技术生成

文献阅读

本周阅读了《Speech Recognition and Correction of a Stutterrd Speech》文献。

摘要

本文的目的是开发一种算法,以增强口吃的语音识别。口吃是一种疾病,通过非自愿重复,单词/音节的延长或非自愿的无声间隔影响语音流利。当前的语音识别系统无法识别口吃的语音。在文献中已经报道了检测口吃的方法,但是尚未报告有效的口吃校正技术。本文解决了此问题,并提出了在可接受的时间限制内检测和纠正口吃的方法。为了清除样品中的延长,开发了通过神经网络的幅度阈值。使用现有的文本对语音(TTS)系统通过字符串重复删除算法来删除重复。因此,对所有没有口吃输出信号,产生更好的语音识别。

研究内容及结论

在实时模式下检测和校正这些口吃语音样本,生成没有任何口吃的经过校正的语音样本。人们提出了一种使用神经网络和少量字符串运算的算法来检测和校正语音。这个系统可以与手机和笔记本电脑集成,帮助患有这种语言障碍的人用语音控制他们的设备,就像当今世界大多数人所作的那样。帮助言语残疾人使用他们已经可以使用的工具,而不用担心他们的言语障碍。

口吃的语音处理系统在MATLAB环境中实现。创建了一个用户友好的GUI,该GUI使用户能够记录自己的演讲,然后处理演讲以生成无序的语音,如下所示。GUI为用户提供了仅删除用户语音中的延长或所有类型口吃的选项。这里讨论的斯托特的类型是部分或全词的重复,延长和插入。
图1(a) 从用户语音样本中删除所有类型的口吃

图1(b) 去除用户语音样本中的延长

本文的主要目的是提出一种算法,该算法有效地检测和纠正口吃障碍者的语音段中的口吃。提出的算法对于50个口吃的语音样本的精度为86%。两种算法用于更精确的口吃拆卸系统,可以在任何设备上构建。

可以将开发的系统纳入任何现有的语音识别系统中。它还可以用作语音治疗系统,在该系统中,患有口吃的用户听起来像从系统中获得的正确输出。因此,患有口吃的人可以使用该设备来使用现有的虚拟助手服务,或者使用该设备充满信心地与他人交谈。这将提高这种疾病患者之间的沟通水平。

深度学习

本周学习了吴恩达《机器学习》的代价函数、梯度下降、线性回归。

代价函数

代价函数就是用于找到最优解的目的函数,这也是代价函数的作用。
在这里插入图片描述
The cost function(代价函数) or Square error cost function(平方误差代价函数)公式:
在这里插入图片描述

梯度下降

梯度下降(gradient descent):在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。下图中展示了只有两个参数的模型运用梯度下降算法的过程。
在这里插入图片描述

线性回归

下图为线性回归模型的代价函数对参数的偏导数:
在这里插入图片描述在这里插入图片描述

总结

本周学习了吴恩达的机器学习,看了几遍都还是懵懵懂懂,这方面的知识严重缺失,希望通过后期的学习可以及时填不上,后面我也会继续学习机器学习,了解更多算法和模型,尽快入手代码,使自己得到很好的提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值