自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Windows系统配置Openface——畅通无阻!

把二进制文件也就是OpenFace_2.2.0_win_x64中的文件全部拷到x64/release文件夹下,再重新生成一下各个可执行文件,一共五个都生成一下,图片上是其中一个,这部分可能会报一些小错,但是没什么问题,耐心运行完五个文件,马上就能成功了!这一步容易因为网速等配置的问题导致下载不成功,如果没有在git上配置好网络代理建议直接去github上下载对应的压缩包,不过在我配置代理的时候貌似说git现在已经不支持代理了,所以还是直接老老实实github上下载。注册使用百度网盘即可享受免费存储空间。

2024-04-24 10:00:00 939 3

原创 GANimation: One-Shot Anatomically Consistent Facial Animation源代码Debug——持续更新中...

在复现或者是说尝试运行代码的过程中,遇到了相当多的问题,并且都没有找到直接对应的解决方法,因此准备撰写一下在过程中遇到的问题,以及对应的解决方法,供大家参考,由于目前还在持续尝试中,因此先罗列出自己遇到的问题,后续找到解决方法后会更新文章。相信搜到这篇文章的读者应该都多多少少看过GANimation这篇论文,具体就不介绍他的内容了。

2024-04-22 15:27:39 701 1

原创 dlib.cnn_face_detection_model_v1实现人脸检测

在用JupyterLab使用cnn_face_detection_model_v1时遇到了一些问题,在此提供一些解决方法

2024-03-31 23:06:54 624 1

原创 验证数据集和测试数据集的区别

除非另有明确说明,否则在这本书的实验中, 我们实际上是在使用应该被正确地称为训练数据和验证数据的数据集, 并没有真正的测试数据集。如果我们在模型选择过程中使用测试数据,可能会有过拟合测试数据的风险,如果我们过拟合了训练数据,还可以在测试数据上的评估来判断过拟合。之前看李沐老师的《动手学深度学习》的时候,有讲到过验证数据集和测试数据集的区别,但是某一次给导师汇报工作的时候,居然还是记得不是很清楚,然后理直气壮的说反了,所以还是来整理一下这个概念。原则上,在我们确定所有的超参数之前,我们不希望用到。

2024-03-19 16:13:36 362

原创 torchaudio音频处理入门——输出音频基本信息

在音频系统中,电平值的绝对大小会影响到声音的响度或音量,而相对于系统的最大电平值的比例则决定了信号的响度级别(dB SPL或dBFS等)。encoding 是采样编码格式,指定了音频数据是如何被编码的,例如 PCM_S 通常代表 Pulse Code Modulation(脉冲编码调制),这是一种常见的无损音频编码方式,S 可能是指 Signed(有符号整数),表示音频样本的值既可以是正的也可以是负的。bits_per_sample 是比特深度,表示每个采样点的量化精度,也就是每个音频样本占用的位数。

2024-02-28 17:25:14 200 1

原创 Can only read 16-bit WAV files, but received 32

只有16-bit才能读取,因此需要对我预处理后的语音文件进行32-bit到16-bit的转换,其实可以直接用tf.audio.encode_wav将原文件编码成你需要的格式就好。处理音频文件的时候不知道为什么,用了方法以后变成了32-bit WAV文件,找了好多方法都没成功。而 tf.audio.decode_wav的官方文档说。一行代码成功解决bug!

2024-02-27 17:40:29 160

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除