稳定扩散
各种项目和教程完善,基本达到了开箱可用的程度。
学会使用后可以达到不错的效果。
项目原地址
https://github.com/AUTOMATIC1111/stable-diffusion-webui
常用插件ControlNet地址
https://github.com/Mikubill/sd-webui-controlnet
主要模型下载地址
https://huggingface.co/stabilityai
ControlNet模型下载地址
https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main
目前找到的最完善的教程地址
https://space.bilibili.com/1814756990/channel/collectiondetail?sid=1285674
实时翻译
应该有在线的解决方案,比如各种同声传译软件,但本地的解决方案不是很完善,效果也不是很好,尤其是非英语的效果更不好。
Whisper只能翻译成目标语言为英语,源语言可以任选。
命令行界面可以使用whisper.cpp
https://github.com/ggerganov/whisper.cpp
图形界面
https://github.com/Const-me/Whisper/
Python实现的界面
https://github.com/Dadangdut33/Speech-Translate
可以使用pip安装。
这个使用在线引擎时支持目标语言为其他语言,但是效果不太好。
超分补帧
还算完善,能找到较多教程,但无法对网页视频生效,但是可以间接使用OBS或VLC录屏加推流,PotPlayer或mpv播放流来实现全屏补帧。
参考:https://www.bilibili.com/video/av290389163/
提高视频分辨率可以使用Anime4K
https://github.com/bloc97/Anime4K
补帧可以使用DAIN、AviSynth+、VapourSynth
https://github.com/baowenbo/DAIN (DAIN应该不能实时补帧)
https://github.com/AviSynth/AviSynthPlus/
https://github.com/vapoursynth/vapoursynth
也可以用集成好的播放器
比如 https://www.bilibili.com/read/cv16736410/
语言模型
本地部署可以使用ChatGLM或ChatGLM2
https://github.com/THUDM/ChatGLM-6B
https://github.com/THUDM/ChatGLM2-6B
效果很好。
音频合成
声音转换
整体还算完善,但似乎教程没有图像生成方面多。
SoftVC VITS Singing Voice Conversion(So-VITS-SVC)
https://github.com/svc-develop-team/so-vits-svc
Retrieval-based-Voice-Conversion-WebUI(RVC)
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
DDSP-SVC
https://github.com/yxlllc/DDSP-SVC