germandai-CSDN博客

原创 flux.1模型在40hx上绘图实践

Stability AI曾经开创了AIGC的新纪元，但管理团队在经营理念上一直有分歧，到了SD3的推出后，团队在开源还是闭源的问题上，产生了重大冲突，直到模型又一次无意外地泄露后，无奈地开源了。一方面是资本方的压力，一方面是技术上竞争激烈。flux模型具有SD3的先天优势，同时对加工处理流程进行了重新定义，更高质的出图，更快的速度，更低的vram需求，重新找回了Stability AI初创时的激情。目前安装了几个平台，还是forge的最好用，sd.next也实现flux模型有兴趣的可以去玩一下。

2024-09-13 13:18:15 461 1

原创 webui automatic1111上可以跑stable diffusion 3的方法

stable diffusion 3 最初只支持API调用，最后把模型也完全开放了。既支持远程API模型调用，也支持本地模型。中下载所有clip，g与l二个模型，如果你的显存特别特别多, 内存也是怎么都用不完的，可以考虑下载T5xxl，或者直接下载带T5clip的sd3基础模型。看不明白本文的同学，建议再等一下，等master中合并了sd3后，再玩吧。stable diffusion 3 可以简单句子生成高质量图形，可以生成准确的文字，甚至可以支持中文。下载基本模型，不带clip的。

2024-06-22 12:36:02 1487 1

原创 Stable Diffusion AMD加速方法-ZLUDA重出江湖

ZLUDA的作者，最初是与Intel合作的，在Intel显卡上做了一个接口，可以直接让Nvidia的CUDA应用调用Intel显卡资源，实际性况是效果不错，但Intel这么牛X的企业，怎么可能寄人篱下，本着做大做强的原则，Intel做了OpenVINO, 而且做得很好，与CUDA能打一打的样子，ZLUDA作者就失业了。这锅又丢回了AMD。目前几大开源的Stable Diffusion平台，更新速度都慢了，一个是没有太多新技术出现，新出的基础模型也都不完整开源了（API调用），能整的功能，也都整得差不多了。

2024-05-17 11:11:56 3001

原创 RK3399广告机主板板刷armbian--改固件方法

再用vi或者nano修改/mnt/loop/boot/extlinux/extlinux.conf, 也有些armbian是用uEnv.txt的。sudo mount /dev/loop15p1 /mnt/loop 这边的loop15p1就是之前要记住的后面加p1表示第一个分区。同时提一句，rk3399各厂家配的网络芯片差异比较大，最好选网卡芯片跟你板子一致的固件，这样即使部分驱动缺少，也可以通网络联上去进行修改。2. 找一个版本新一点的armbian固件，只要的arch64的，基本上都可以。

2024-04-12 18:19:08 3641 3

原创 SDSX-小米这篇论文牛吹大了，比SD1.5快30倍，比SDXL快60倍

1，蒸馏法，其实最早实现的模型应用的是我们中国人，也就是LCM，出图速度确实快，通常20步出的图，它只需要4步，LCM推出后几天后，老外也搞了一个Turbo, 能在1-2步出图。3, 小米模型用的是固态模型，只有512及1024二种，而别人用的是动态模型，支持多种分辨率，固态模型出图是比动态模型快，没毛病。然后我仔细研究了一下他们的论文，嗯.......没毛病，有雷不死的风格，就象不锈钢，玻璃一样，确实有这么个东西，但玩了点花活。而且是一步生图，图片质量还相当的好。

2024-03-28 08:45:12 1002 4

原创绿联NAS DX-4600 pro深挖笔记（持续更新至24.5.17, 小雅alist文件下载到本地）

打开调试功能，获取验证码（就是root密码），端口号是 922。内核是 5.10.120, 系统是openwrt。2. UGOS操作系统。

2024-03-15 17:08:57 2495

原创高概率文字生成Stable Cascade Comfyui极简安装教程

Stable Diffisuin 2.1之前的模型的痛点是不能生成文字，SDXL能生成文字，但正确率极低。stable cascade模型分a,b,c三个，顺序是C->B->A。2. 插件支持：automatic1111 webui及其分支forge上，都有2个插件，但这二个插件集成度不高，是通过独立卡片在界面上集成，核心未集成。Comfyui安装法：Comfyui有是流程化设计，而cascade最大区别就是生图流程变化很大，所以Comfyui集成cascade有先天优势。启动comfyui.

2024-03-13 12:50:08 701

原创阿里云DSW做AI绘画时的显卡选择A10?V100?

需要用复杂运算的，选V100tensorrt多出不少，而且现在的AI都支持tensorrt了。如果玩双精度，就优势很明显了。V100是Volta架构，A10是Ampere架构，架构上讲A10先进点，其实只是制程区别，用起来没区别。如果是人民币玩家，当生产力工具的，肯定是选择A10了，毕竟性价比优势摆着。需要用大内存的，选A10, 24G用起来舒服。V100是HBM的内存读取，带宽大，但是DDR5的。二块卡都是全精度为主的算力卡，半精度优势不明显。

2024-03-08 18:57:54 2327 1

原创白嫖阿里云DSW做AI绘画的几点技巧（老鸟参考，新手免入）

如果你坚持要用虚拟环境，需要自己建帐号，然后用自己帐号建环境，当然也可以用脚本关闭venv的root检测。我是直接没用虚拟环境，区别是起动方式，前者用webui脚本启动，后者用python launch.py 启动，这些都可以在DSW管理界面中用Terminal完中，主要问题是我讨厌notebook。Huggingface.co是访问不了的，不是禁断，而是huggingface现在全面启用cdn, 懂的就懂。可以感受一下顶级显卡的速度，当生产力工具肯定是不行的，毕竟5000个使用量用起来很快的。

2024-03-08 18:41:11 684

原创 Stable Diffusion webui 常用启动参数

-enable-insecure-extension-access 开启外部访问后，必须加此项才可以更改系统配置及安装扩展。--pin-shared-memory 与cuda-stream一起使用，从显存卸载的内容，放到共享显存中，而不是放到内存中。--all-in-fp32 全部跑fp32精度，同上--precision full。--always-offload-from-vram 时刻卸载显存内驻留内容。--no-half-vae 仅在vae时关闭半精度。--no-half 关闭半精度。

2024-03-03 16:30:19 2169 3

原创 0.8秒一张图40hx矿卡stable diffusion webui 高质极速出图组合(24.3.3）

stable diffusion webui上，最关键的问题是，如何又快又高质地出图了，因为turo的推出，让出图速度有飞的提升，但出图质量让人堪忧。然后现在又有了eulur A Turbo采样器，弥补了这个问题。经过三个月的等待，SD Webui (automatic1111)终于推出了新版本1.8.0，本次版本最大的更新，可能就是pytorch更新到2.1.2, 不过还是晚了pytorch 2.2.2版。不过这版的一些更新，在forget分支上早就实现了，所以。我还是用forget分支。

2024-03-03 14:54:00 990

原创当大语言模型遇到AI绘画-google gemma与stable diffusion webui融合方法-矿卡40hx的AI一体机

先聊天，英文不会的同学，第一句就写 “中文”，然后AI语言就都是中文了。小作文有时是英文的，有时是中文的，你可以跟AI说 ”上文翻译成中文“ ，然后点修改文字，修修补补，写完后，保存，再跟AI说”上文翻译成英文“ 再点击绘画，等一下，图就出来了。针对 40HX的提示：40hx显存只有8G, 所以如果要AI语言与AI同时运行，需要对显存与运行负载有规划，SDXL模型与Gemma7b都是直接能把8G显存点满的，所以一个都不能用，SD2.1+Gemma2b 这样的分配，大致是5G+2G的显存组合，刚好能用。

2024-02-29 13:57:14 890

原创 google最新大语言模型gemma本地化部署

ollama为了保持各种模型的兼容性，这二项参数上留得很保守，在Gemma与40hx这样的适配上，可适当增加。然后运行 sudo docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main。按ctrl-d可退出。

2024-02-29 13:28:31 2244

原创不再担心显存不够了，矿卡40HX AI绘图，当下最快出图的Stable Diffusion webui分支项目forge

矿卡 40HX在玩AI绘画时，除了8Gb内存有不太够用外，半精度运行速度也不行，所以之前为了上SDXL SVD之类的时候，花了很多时候去做优化。安装完成后，因为40hx的特殊性，需要加 --all-in-fp32 参数启动，可选参数 --listen 用于打开远程访问，可选参数 --enable-insecure-extension-access 用于打开扩展插件安装。6. 100%兼容webui项目，界面与操作一模一样，各种功能操作也一样，所以习惯了webui项目的同学，直接上手就可以了。

2024-02-27 13:19:29 1636 2

原创 stable diffusion开源项目SD.next添加双语支持（2024.2）

同时这款插件主要是给stable diffusion webui (automatic1111开源项目）做的，与SD.next项目差异很大，所以很多英文是翻译不出来的，这时候可以动动你勤劳的小手，自己往I18N_sd-webui-zh_CN.json中添加你要的翻译字段，做出完善的汉化界面。3. 进入extensions子目录，git clone https://github.com/journey-ad/sd-webui-bilingual-localization.git。2. 打开。

2024-02-22 14:42:53 1286

原创矿卡40hx stable diffusion转战SD.next

其中Attention这里，xformers与Scaled-Dot-Product二选一，xformers是独立的加速方法，SDP是pytorch的原生加速方法，pytorch2.2版本中，重点吹了这个功能，个人感觉下来，确实比之前的SDP有提速，但与xformers区别不大。而SD.next的作者一直在持续更新，有点超越的意思。a. 把模型放到对应目录中，如果你安装其它版本的stable diffusion，也可以选择与其它版本共用模型，比方你可以指定automatic1111项目中的模型存放目录。

2024-02-22 14:24:15 904

原创 stable diffusion webui 升级 pytorch2.2

如果要提前尝鲜的同学，可以自己升级一下，不过限于有一定经验的同学，而且是automatic1111项目原生安装的。如果是网上下载的一键安装包，就不建议升级了。（同时记得科学x上网）1. 进webui的venv下的bin目录，windows版的，执行activate.bat, linux版的执行source activate. 进入venv模式。2. 用nvidia-smi查验驱动版本，最新的是12.2, 但pytorch目前只有12.1. 低于12.1这个版本，就不用继续了。7. 结论是速度没啥变化。

2024-02-18 16:58:05 1694

原创给Truenas scale添加性能监控屏

Truenas scale基本属于无头（headless)主机，通过安装一块性能监控屏，可以随时查看主机工作状态，（除了好看，似乎也其它用处）后期想添加一些GPU性能分析上去，不过先把粗糙的硬件搭起来。3. sudo apt install usbutils (当屏插到主机上时，可以用 lsusb命令查看一下有没成功找到设备）5. su之后 vi /etc/lcd4linux.conf 在文件头部添加。1. 参考我的另一篇文章，在truenas上把apt与dpkg开通。7. exit退出root。

2024-02-02 15:09:32 718

原创 Truenas scale打开apt功能

truenas scale是什么就不介绍了，truenas设计是开箱即用的，所以普通玩家是不需要去折腾系统本身的。如果不是必须，就不要变更系统，因为后期的升级很可能会破坏的可靠性。dpkg是不太建议的一个操作，深度玩家有很多奇奇怪怪的应用，apt源上没有，编译又不会，只能找编译好的包。3. 用本地windows中，找开ssh工具，如putty. 登录truenas主机，用普通用户登录。4. 输入su, 输入truenas的root密码，通常是你管理界面上的那个。1. 建一个普通权限用户。

2024-02-02 13:43:41 1595 2

原创矿卡40hx跑stable diffusion webui的TensorRT填坑指南

具体方法见我另外个贴。通常一个onnx模型需要20-30生成，TensorRT的特点也就是这样，先优化成Tensor Core可加速处理的模型，然后再生成图片。编译时很无聊，你可以用我之前贴中发过的GPU监控小程序，看看GPU跑的状态，万一跑飞了，可以重新来过。如果你真的很想用大尺寸或者sdxl，也可以网上找编译好的onnx模型来试，不过编译参数需要对得上，有点麻烦。当然，你在把模型编译完后，再把内存优化参数带上去，重新启动，就可以正常出图了。

2024-01-18 17:50:23 1052 1

原创 stable diffusion webui安装TensorRT扩展2024.1

如果你的stable diffusion webui（auto1111开源版）不能安装TensorRT扩展，现象是无限挂机，同时确定你的webui版本是1.6.1以上的话，可以按照本方法临时解决。TensorRT是什么，可以见我另外个贴子，反正生成速度很快就是了，但对硬件有要求，就是要有tensor core的GPU, 简单判断就是RTX起步的显卡。auto1111项目中其实已经有修复，但最近这个项目更新有点慢，所以还没发布新版本，估计在下一下子版中就会有修复了。删除后webui就可以正常启动了。

2024-01-18 15:28:31 2412 3

原创 AI绘图, 远程服务器GPU状态软件对比

Prometheus与Grafana都是具有完整架构的应用，所以所以安装过程有点冗长，软件间需要配置，但功能是很强大的，除了对GPU进行完整分析与监测外，还可以以CPU，RAM，网络等进行深层次采集与分析。jupyterlab nvdashboard,看名字就知道是专门为nvidia做的python应用，安装可以用pip直接安装，装好后也不用什么配置，具体方法可以看我的另外一篇文章。界面比较简单直观，想要的内容基本都有了。数据实时率很高，目前来说是AI绘画的绝配了。2. 小而坚的python小工具。

2024-01-11 17:56:56 536 1

原创远程监控linux主机的GPU状态--小工具

我有一块主机，做了ubuntu虚拟机，然后把一块矿卡直通给虚拟机用。然后在本地windows连接。每次跑图及测试，都要关心GPU的工况。所以网上找了一个小工具，帮我看GPU状态。1. 进入SD或者Comfyui目录中的venv/bin , 执行source activate 命令。这样做主要是懒得再建一个虚拟环境。3. 安装完成后，执行 nvdashboard 8000 (8000是端口号，你也可以换成你喜欢的号）4. 在本地windows的浏览器上，输入地址: http://你的主机地址:8000。

2024-01-11 16:17:40 674 1

原创 40hx上的AI视频生成-Comfyui+SVD

采用fp16的SVD模型，详见我另外一个贴子，启动用下面这个参数。* 全精度优化速度后出图3it/s，但SVD内存不够。* 半精度优化内存后出图 30-50s/it。* 全优化后，12s/it, 速度稳定。

2023-12-31 11:38:45 962 1

原创 SDXL Turbo及SD Turbo不能用SDXL但想体验1步生图的进来

SDXL Turbo是基于SDXL基础模型做的快速出图版本，1步就可以生成图片，但在有些出视频或者实时绘画时，还是会感觉不快，因为又有了SD Turbo版本，就是之前的SD2.1模型。不能玩SDXL的平台，可以用这个模型体验一下。

2023-12-29 18:23:26 819 1

原创 Stable Video Diffusion SVD 8GB 出图

在做Comfyui的txt2vid, 生成AI短视频，发现8GB要跑起来真的很难，好在有人提供了半精度模型。是SD2.1模型，其它还XL型及decoder, 下载后替换原来的模型就可以，不细述。

2023-12-29 18:10:55 752 3

原创华硕40hx矿卡在Comfyui中的五倍加速(3it/s)

矿卡 40hx Compyui

2023-12-25 12:13:16 1026 2

原创 SD-AMD显卡ROCm的windows驱动进展2023.12.14

之后的顺序就是，pytorch拿到MiOpen的windows版本，更新Pytorch ROCm 的windows版本，然后有能力的自己更新组件，懒人就等A1111项目更新webui。12月份应该能有结果。* 感觉分分钟就能得到windows的AMD绘画了，但骚气的事情是，Pytorch中缺乏一个MiOpen的组件，而MiOpen的开发人员表示在休假，AMD的粉就继续等。* 再后来，等了N久后，最近ROCm出了windows版本，然后PyTorch也表示与AMD将在Windows上深度合作。

2023-12-14 16:03:55 1375 4

原创 LCM Lora模型到底有多快

上面是一次生成图像的结果，加载了SDXL基本库及refiner库，再加载vae, 通过LCM模型，生成1024x1024的图，在华硕矿卡40HX上跑完，用了15.6秒，如果不用LCM模型，通常需要1分钟以上。感兴趣的同学，赶快去试一下。

2023-12-06 16:10:16 592 1

原创 AI绘画再提速-stable diffusion LCM Lora模型简书

扩展阅读：LCM是当下最热点的AI技术之一，civita上已经有很多基于LCM的模型提供，可以获得比基础版本更优秀的出图体验，喜欢的同学可以直接去网站上打LCM关键词的模型来玩。尽管LCM出现时间不久，因为其速度提升很明显，获得了大家的好评，所以网上介绍LCM的文章也很多了，我这边就不仔细介绍了，如果具体安装想进一步了解的同学，可以留言或者私信我。在webui的扩展中增加sd-webui-animatediff插件，重启后，在采样器上找到LCM采样器，基础模型选SDXL, 其它用法参考方法一。

2023-12-06 13:58:29 2753 2

原创 Stable Diffusion webui小技巧-黑底界面

automatic1111项目中，初始版面是白底的，加载了多合一中文界面后界面不适合阅读。如果转成黑底界面就很直观了。扩展件中也有一些界面优化的部件可供使用。但其实只要加个参数就可以把界面转成黑底。linux版本中是 webui-user.sh文件中 export COMMANDLINE_ARGS=后面加入（上引号中）windows版本中是webui-user.bat文件中 set COMMANDLINE_ARGS=后面加入。在启动参数中加入 --theme dark 重新启动后就可以看到黑底界面了。

2023-11-19 10:33:00 2485 2

原创 Stable Diffusion webui中的python版本切换

需要指出的是，stable diffusion webui是基于pytorch组件的，pytorch组件中对python版本是不同的包支持，也就是python3.11与python3.10是二个不同的组件库，所以在切换时，需要较长时间安装pytorch包（如果没安装过的话）。stable diffusion webui (automatic1111项目)开源项目，默认支持是python3.10版本，但目前很多操作系统已经缺省设置为python3.11。在webui项目中，其实也可以指定具体的执行版本。

2023-11-18 16:21:34 1760 1

原创 (9.1更新弃用)AI绘画stable diffusion SDXL 1.0 refiner 插件

介绍了最新SDXL 1.0模型的reinfer插件的使用方法

2023-08-24 14:21:35 2261 1

原创 openwrt自动重启故障的修复(2023)

watchcat服务，是一个简单的脚本程序，用于监测网络通讯质量，原始配置是每隔30分钟ping一次dns:8.8.8.8服务器，如果回包不正常或者未得到回包，就重启主机。1. 如果你对你的网有信心，可以直接在web界面中，把这个进程关闭掉，也可以ssh到openwrt命令行中，mv /usr/bin/watchcat.sh /usr/bin/watchcat.sh.bak 将此文件改名，以后想用了，再改回了。保存后，重启主机就可以了。最近下载了一个x86的定制固件，安装到一台小主机中，做路由器用。

2023-08-13 16:10:10 6330 1

原创 StableDiffusion XL 1.0 SDXL 使用方法(填坑)

StableDiffusion XL的二个模型，分别是base与refiner, 很多介绍中对二个模型的用法没解释清楚，其实这二个模型，都可以单独生成图片，Base更注重模型的内容生成，refiner更注重细节的补充。sd_xl_base_1.0_0.9vae.safetensors <------这是1.0base的vae修正版, 放入models目录下的Stable-diffusion目录中。官方说法是除了这几种分辨率外，其它的分辨率会增加破图的可能性（事实上1024x1024破图的概率也比较大）

2023-08-08 18:17:31 9559

原创 Ubuntu环境中Stable Diffusion的roop插件安装(8.12更新)

roop插件是一款换脸神器，可以在Stable Diffusion中实现一键换脸，现在已经有了基于automatic1111的web-ui开源项目上的插件。3. 关闭webui后，重新启动，如果你运气好的话，会自动安装所有需要的部件并下载roop所需的模型文件，之后就可以正常使用了。5. 安装过程中，如果有报错，仔细看一下报错原因，分块解决。如果安装完成，就冲启webui。windows版本上的安装教程已经很多了，这边就不说了。启动webui后，打开界面，在扩展里安装roop插件，这边就不详述了。

2023-08-08 14:58:38 1630

原创矿卡40HX上跑stable Diffusion XL 1.0模型的方法

简单的办法，就是把优化参数改为--lowvram, 可以顺利跑动，但速度是相当的慢，基本上几分钟才能出一张图。然后我关注了一下vram的载入情况，发现模型载入后，基本上用了一半的显存，再跑图就不够了，哪怕把图片大小调很低也不能满足要求。这里有二方面原因，一方面是基础模型本来就大(是基于1024x1024采样的，之前模型都是512x512), 另一方面是40HX如果在全精度状态下，vram占用比较大，为了能顺利跑动SDXL 1.0, 只能把系统改到混合精度，这样即能兼顾速度，又能减少模型载入。

2023-08-02 15:41:25 1325

原创矿卡40HX在linux下AI绘画简单流程

（有linux经验的可以看：CMP 40HX的Nvidia驱动程序，原生驱动程序只有460.35.1-490这几个可以，再高或者再低的版本，就不支持了。总之说这么多，就是驱动很难搞。华硕CMP 40HX硬体上占用二个半槽位，卡长接近24cm，如果补完电容后，是pcie 16x通道的，所以在入手前先要自己评估一下安装条件。特别是pcie通道不如硬体一样，一眼能看出来的，很多显卡在4x或者8x上也能正常运行，40HX补过电容后，很可能跑不起来。（可以先安装个win系统，用gpu-z看一下）这部份就不展开讲了。

2023-05-28 15:18:29 2992 1

原创 AI秒出图！StableDiffusion Automatic1111正式支持Tensorrt

Tensorrt是nvidia推出的推理器，在基于pytorch框架的应用上，它可以先用pytorch进行预处理生成ONNX预处理模型，这样完成了大量重负荷的工作，然后通过Tensorrt推理器，对ONNX进行推理计算。stable diffusion中要把Tensorrt用起来，除了我们知道的Nvidia显卡驱动，CUDA Toolkit, CUDnn外，还要安装TensorRT, 而且TensorRT需要手动安装，Nvidia没有提供一键安装包。秒级出图的AI绘画终于支持Automatic1111。

2023-05-28 14:31:44 1662 1

原创 AI绘画矿卡CMP 40HX 五秒出图（2023.8.6更新）

40hx矿卡在stable diffusion automatic1111 webui上的性能优化

2023-05-27 12:46:07 4739 4

空空如也

空空如也