2023年8月 记录如何利用GPU

稳定扩散

各种项目和教程完善,基本达到了开箱可用的程度。
学会使用后可以达到不错的效果。

项目原地址

https://github.com/AUTOMATIC1111/stable-diffusion-webui

常用插件ControlNet地址

https://github.com/Mikubill/sd-webui-controlnet

主要模型下载地址

https://huggingface.co/stabilityai

ControlNet模型下载地址

https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main

目前找到的最完善的教程地址

https://space.bilibili.com/1814756990/channel/collectiondetail?sid=1285674

实时翻译

应该有在线的解决方案,比如各种同声传译软件,但本地的解决方案不是很完善,效果也不是很好,尤其是非英语的效果更不好。

Whisper只能翻译成目标语言为英语,源语言可以任选。

命令行界面可以使用whisper.cpp

https://github.com/ggerganov/whisper.cpp

图形界面

https://github.com/Const-me/Whisper/

Python实现的界面

https://github.com/Dadangdut33/Speech-Translate
可以使用pip安装。
这个使用在线引擎时支持目标语言为其他语言,但是效果不太好。

超分补帧

还算完善,能找到较多教程,但无法对网页视频生效,但是可以间接使用OBS或VLC录屏加推流,PotPlayer或mpv播放流来实现全屏补帧。
参考:https://www.bilibili.com/video/av290389163/

提高视频分辨率可以使用Anime4K

https://github.com/bloc97/Anime4K

补帧可以使用DAIN、AviSynth+、VapourSynth

https://github.com/baowenbo/DAIN (DAIN应该不能实时补帧)
https://github.com/AviSynth/AviSynthPlus/
https://github.com/vapoursynth/vapoursynth

也可以用集成好的播放器

比如 https://www.bilibili.com/read/cv16736410/

语言模型

本地部署可以使用ChatGLM或ChatGLM2

https://github.com/THUDM/ChatGLM-6B
https://github.com/THUDM/ChatGLM2-6B
效果很好。

音频合成

声音转换
整体还算完善,但似乎教程没有图像生成方面多。

SoftVC VITS Singing Voice Conversion(So-VITS-SVC)

https://github.com/svc-develop-team/so-vits-svc

Retrieval-based-Voice-Conversion-WebUI(RVC)

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

DDSP-SVC

https://github.com/yxlllc/DDSP-SVC

音质提升

AUDIO SUPER-RESOLUTION USING NEURAL NETS

https://arxiv.org/pdf/1708.00853.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值