- 博客(1657)
- 资源 (119)
- 收藏
- 关注
原创 【深度学习】InstantIR:图片高清化修复
InstantIR(Instant Image Restoration)是一种创新的单张图像修复方法。它通过利用即时生成的参考信息,实现对受损图像的高质量修复。得益于先进的生成模型和视觉编码器,InstantIR 不仅能够恢复图像细节,还支持通过文本提示进行性能增强,甚至实现定制化的图像编辑。
2024-11-03 14:00:28 17
原创 【深度学习】InstantIR:图片高清化修复
InstantIR(Instant Image Restoration)是一种创新的单张图像修复方法。它通过利用即时生成的参考信息,实现对受损图像的高质量修复。得益于先进的生成模型和视觉编码器,InstantIR 不仅能够恢复图像细节,还支持通过文本提示进行性能增强,甚至实现定制化的图像编辑。
2024-11-03 13:16:09 12
原创 【深度学习】PromptFix:多功能AI修图
PromptFix的设计初衷是让用户通过简单的文本提示,就能完成复杂的图像处理任务。🎨图像上色:为黑白或灰度图像添加逼真的色彩。🧹对象移除:从图像中删除不需要的物体或元素。🌫️去雾:消除图像中的雾气,提高清晰度。💨去模糊:对模糊的图像进行锐化处理。🖼️水印移除:去除图像上的水印或标志。❄️去雪:清理下雪场景中的雪花干扰。🌙弱光增强:提升在低光照条件下拍摄的图像质量。基于扩散模型的骨干网络,PromptFix在纠正图像缺陷的同时,能够很好地保留原始图像的结构和细节。
2024-11-03 13:13:59 15
原创 训练和部署Qwen2.5,实战教程步骤,训练qwen2.5教程,vLLM,Open WebUI,LLaMA-Factory
Qwen2.5多规模模型:提供从 0.5B 到 72B 参数规模的模型,满足不同需求。强大的语言理解和生成能力:在文本生成、对话、问答等任务上表现出色。开源友好:模型和代码在上公开,方便开发者下载和使用。通过本教程,您应该已经了解了如何下载、部署和训练 Qwen2.5 模型。无论是直接调用 API,还是通过前端界面与模型交互,都可以帮助您更好地利用 Qwen2.5 的强大功能。如果您需要对模型进行微调,LLaMA-Factory 提供了便捷的工具链,助您快速实现自定义需求。
2024-11-01 16:31:20 173
原创 制作一个简易恒流电子负载教程,实战教程,单片机程序,电路图,方案
恒流电子负载是一种电子设备,用于模拟恒定电流消耗的负载,它在测试和评价电源(如电池、稳压电源、开关电源等)性能时非常有用。恒流电子负载可以根据设定的电流值,稳定地吸收指定电流,而不受电源输出电压波动的影响。这类设备广泛应用于电子测试领域,用于测试电源在不同负载条件下的响应和稳定性。more恒流电子负载的用途恒流电子负载能模拟稳定电流消耗,从而帮助测试电源的稳定性。例如,测试稳压电源在负载变化时的电压输出是否平稳,评估其负载调整率。通过恒定电流放电,能够准确评估电池的容量、寿命和放电特性。
2024-11-01 11:55:34 1007
原创 【深度学习】DreamClear:提升图片分辨率的模型
DreamClear是由发布的一个开源项目,旨在通过高容量的模型和隐私安全的数据集构建方法,实现真实世界图像的高效修复。该项目在 NeurIPS 2024 上发表,论文题为《DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation》。
2024-11-01 11:17:10 71
原创 谷歌公布NotebookLM技术细节
NotebookLM 是 Google DeepMind 开发的一款创新工具,旨在将用户提供的文档内容转化为生动的对话形式。通过先进的音频生成技术,NotebookLM 不仅能够生成自然流畅的语音,还能模拟多位说话人的互动,使复杂的信息更加易于理解和消化。NotebookLM 通过先进的音频生成技术,实现了高质量、多说话人的自然对话生成,极大地提升了 AI 的交互性和实用性。
2024-11-01 11:12:32 23
原创 文生图排行榜单
在当今人工智能生成图片领域,模型的质量和表现成为了用户关注的重点。Artificial Analysis提供了一个,对不同的AI图像生成模型进行了基于Image Arena众包偏好的质量评估。这一平台不仅展示了多种模型的排名,还为用户提供了参与排名评选的机会,通过提交作品来查看自己喜欢的模型在排行榜中的表现。
2024-11-01 10:58:47 12
原创 合并SDXL的模型和Lora权重,合并为一个文件
完整教程:https://qq742971636.blog.csdn.net/article/details/143229120。目的是为了加速,SDXL模型,Lora模型,分别加载比较耗时,合并到一起就好了。合并SDXL的模型和Lora权重,合并为一个文件。
2024-10-28 16:44:19 31
原创 stable diffusion webui API调用示例,调用参数,override_settings参数
有几种方法可以将此值添加到您的有效负载中,但我这样做了。我将使用“sd_model_checkpoint”和“CLIP_stop_at_last_layers”进行演示。我的疑问是如何用tensorRT的设置,这是需要使用override_settings的。所有参数其实是和自己安装的东西有关,在接口里可以直接看那些参数可以用。这个接口就是 GET /sdapi/v1/options。参数就可以访问接口了,同时/docs就是接口文档。执行webui,执行的时候带有。
2024-10-28 16:14:17 221
原创 构建最新的LLaMA-Factory镜像
安装 AutoGPTQ:https://www.dong-blog.fun/post/1737#1.%20%E7%8E%AF%E5%A2%83%E5%87%86%E5%A4%87。
2024-10-26 13:29:23 254
原创 Open WebUI + openai API / vllm API ,实战部署教程
介绍Open WebUI + Ollama 的使用: https://www.dong-blog.fun/post/1796。介绍 Ollama 的使用: https://www.dong-blog.fun/post/1797。这意味着你可以用vllm模型部署openai的api接口,然后在Open WebUI里面使用。介绍vllm 的使用:https://www.dong-blog.fun/post/1781。本篇博客玩个花的,Open WebUI 本身可以兼容openai 的api, 那来尝试一下。
2024-10-26 11:21:24 240
原创 Ollama 使用指南,实战教程
Ollama 是什么:随着人工智能的发展,越来越多的开发者希望在本地运行和定制自己的语言模型。Ollama是一个轻量级且可扩展的框架,旨在帮助你在本地机器上构建和运行语言模型。本文将详细介绍如何使用 Ollama,从模型的导入、定制到命令行的使用,助你快速上手。Ollama 提供了一个简单的 API,用于创建、运行和管理模型,并提供了一系列预构建的模型库,方便在各种应用中轻松使用。导入和定制不同格式的模型(如 GGUF、PyTorch、Safetensors)。
2024-10-26 10:31:09 51
原创 Open WebUI + Ollama 部署LLM大模型,实战教程
Open WebUI地址:https://github.com/open-webui/open-webui是一个可扩展、功能丰富且用户友好的自托管网页用户界面(WebUI),设计旨在完全离线运行。它支持多种大型语言模型(LLM)运行器,包括 Ollama 和兼容 OpenAI 的 API。以下是 Open WebUI 的主要特点:more。
2024-10-26 09:03:13 135
原创 SD,StableDiffusion 训练Lora,合并Lora,合并Lora和SD
LoRA,全称为,是一种通过低秩矩阵分解来适应和优化大型语言模型的方法。与传统的微调方法相比,LoRA能够在保持模型性能的同时,大幅减少需要调整的参数数量,从而提高训练效率并降低资源消耗。(arxiv)以及LoRA GitHub仓库。LoRA作为一种高效的微调方法,正在逐渐成为优化大型模型的首选工具。通过本文的全面介绍,希望您能够更好地理解LoRA的工作原理、应用方法以及相关工具的使用,从而在实际项目中灵活应用LoRA技术,提升模型的性能和适应性。
2024-10-25 10:57:29 39
原创 解决 NCCL 通信超时问题:NCCL_BLOCKING_WAIT 的使用与优化
使用是解决 NCCL 超时问题的一个有效方法,它让分布式训练过程中的通信操作更加稳定,尤其是在网络条件不理想或通信数据量较大的情况下。尽管这并不能直接提高通信性能,但它有效地避免了超时导致的训练中断问题。如果在分布式训练中遇到类似的通信超时问题,可以尝试开启阻塞等待模式,并结合其他优化措施,来提高训练的整体稳定性和效率。
2024-10-24 16:59:25 39
原创 智能加湿器
自选主控(如stm32\51单片机)做一个智能加湿器,基础功能:检到当前环境温度,通。过间值判断到设定的闽值继电器(模拟加湿器)开关,通过按钮可以增加或减少闽值,可。以在上位机查看和控制(微信小程序,APP,串口助手),通过模块测量人是否在环境。中,从而开关加湿器(模块自选)自主创新,功能越丰富,得分越高。
2024-10-24 14:23:32 75
原创 如何训练SDXL,finetune,Docker,实战教程
额外注意,数据集目录/root/xiedong/flux_all,下面又是目录,别瞎设置,数据集重复太多次会导致训练很慢。比如设置数据集目录叫50_aki,那么就是重复吃数据50次,那桶会很大,一般设置为3_aki就可以了。时影响模型训练的不同方面。
2024-10-22 16:04:17 140
原创 No data found. Please verify arguments (train_data_dir must be the parent of folders with images)
该错误通常是因为数据集的目录结构不符合模型训练的预期格式。要解决这个问题,需要确保你的数据集目录结构设置正确。是子文件夹,里面存放了训练所需的图片。确保你的目录结构与此类似,且命名不含中文字符,避免隐藏文件的干扰。目录下的每个子文件夹都必须包含训练图片,而且子文件夹的命名也有特定要求。下面是一个正确的目录结构示例,使用。是你的训练数据目录,而。
2024-10-22 15:01:26 21
原创 sd-dreambooth vs sdxl-finetune
DreamBooth 更适合需要定制化个体的场景,而 SDXL 微调则更偏向整体风格和功能的全面调整。根据项目的规模、资源以及具体需求,选择合适的微调方式能够有效提升生成模型的表现和灵活性【7†source】【9†source】【10†source】。
2024-10-22 12:14:22 44
原创 安装vllm并部署Qwen2VL API 重新打包CUDA12.1支持镜像
最近的一篇博客详细介绍了如何为Qwen2VL模型部署API服务,并重新打包支持CUDA 12.1的镜像。如果你正寻求如何在自己的环境中部署这一模型,这篇博客无疑是一个值得推荐的参考。这不仅适用于已经有一定技术基础的开发者,也对初学者非常友好,因为每一步都有详细的命令和解释。如果你对如何在实际项目中部署深度学习模型感兴趣,或者希望深入了解如何优化Docker镜像以支持特定的CUDA版本,这篇博客将为你提供极具价值的指导。此外,博文还提供了丰富的调试和测试方法,帮助你快速定位问题,确保服务的顺利运行。
2024-10-21 11:40:20 98
原创 如何 使用vllm部署Qwen2VL API, Qwen2VL 的速度测试
使用 vllm 部署 Qwen2VL API》是一篇内容丰富、结构清晰的技术博客,适合希望掌握AI模型部署与优化的技术人员阅读。通过这篇文章,您将全面了解vllm工具的使用方法,掌握Docker化部署的技巧,并学会如何通过参数优化提升模型性能。如果您对AI模型的高效部署感兴趣,欢迎访问目标博客,获取更多详细信息和实用指南。目标博客文章的访问链接:[使用 vllm 部署 Qwen2VL API]
2024-10-18 17:44:21 182
原创 Rotary Position Embedding(RoPE)在视觉Transformer中的应用与提升
通过将RoPE扩展到二维,并引入可学习的混合频率参数,RoPE-Mixed不仅提升了模型在多分辨率和高分辨率任务中的性能,还保持了极高的计算效率。其中,RoPE-Mixed相比于RoPE-Axial和传统方法,提升效果最为显著,证明其在复杂的检测任务中具备更强的表达能力。未来,RoPE在视觉领域的应用有望进一步拓展,结合更多的Transformer架构和复杂任务,探索其更广泛的应用潜力。尽管这两种方法在固定分辨率下表现良好,但在处理不同分辨率输入时,往往需要额外的调整,影响了模型的灵活性和泛化能力。
2024-10-17 15:52:53 66
原创 Qwen2VL ValueError: No chat template is set for this processor.
训练模型后导出的模型没有文件而已,把原始仓库的chat_template.json文件复制一份到现在的文件即可。
2024-10-15 11:50:03 35
原创 【深度学习】LLaMA-Factory 微调sft Qwen2-VL 进行印章识别
了解如何利用LLaMA-Factory进行Qwen2-VL模型的微调是掌握先进机器学习技能的关键一步。本文将带你探索如何设置LLaMA-Factory环境、配置训练参数、处理数据集,最终实现多卡训练和模型微调。即使是初学者,凭借这篇博客,你也能顺利上手并自主完成Qwen2-VL模型的定制化训练。
2024-10-14 16:09:57 285
原创 【深度学习】transformer为什么使用多头注意力极致?为什么不使用一个头
在现代深度学习中,Transformer 模型的多头注意力机制已被广泛应用,特别是在自然语言处理领域。最近我读到一篇有趣的博客文章,详细介绍了为什么 Transformer 采用多头注意力,而不是简单的单头注意力。文章从理论推导到代码实现,对多头注意力机制进行了深入分析。下面我为大家总结其中的几个关键点。
2024-10-13 11:30:35 236
原创 探索多模态模型 Qwen2-VL 的图像像素设定:了解 `MIN_PIXELS` 和 `MAX_PIXELS` 的奥秘
的意义不仅仅在于图像处理,更重要的是,它们可以帮助模型灵活地处理不同场景中的图像。根据文章的介绍,这些参数设定会自动调整输入图像的尺寸,使其在保持近似原始比例的前提下适配多模态模型的需求。这一点对于图像的高效处理和系统性能的优化至关重要。在处理多模态模型时,特别是图像与文本的联合任务,图像的分辨率对模型的性能至关重要。文章中不仅包含了对源码的解析,还结合了具体应用场景,带你快速上手 Qwen2-VL 中的图像处理策略。的作用类似于一个滤镜,确保输入图像的分辨率符合模型要求的同时,避免超出计算资源的限制。
2024-10-12 17:42:08 105
原创 【深度学习】Qwen2-VL API速度测试与部署
在我最近的博客中,我深入探讨了如何使用 Qwen2-VL 模型来优化图像处理的显存占用和 API 服务的配置。这篇文章针对想要高效利用 vllm 的开发者提供了实用的指南,包括如何启动 Docker 镜像、安装必要的依赖,以及如何配置。我详细介绍了使用 Docker 启动 Qwen2-VL 的步骤,分享了相关的代码示例,并讨论了显存占用问题。通过实际测试,我还展示了不同配置下的平均执行时间和显存占用情况,帮助读者了解如何优化其模型的性能。参数以平衡性能与计算资源消耗。
2024-10-12 07:50:31 233
原创 使用LMDeploy部署InternVL2,速度测试
该项目的目标是构建一个多模态API服务,使用模型,通过API接口接收图像和文本输入,并生成相应的描述性文本输出。服务运行在Docker环境中,并使用lmdeploy库进行模型的部署。该博客为开发者提供了一个全面的指南,从环境准备到服务启动,再到模型的测试和评估,涵盖了使用和模型的各个方面,适合对多模态API服务感兴趣的开发者和研究者。
2024-10-12 07:44:58 85
原创 【深度学习】LLaMA-Factory部署Qwen2-VL-72B-Instruct-GPTQ-Int4
https://www.dong-blog.fun/post/1737#%E9%83%A8%E7%BD%B2%20Qwen2-VL-72B-Instruct-GPTQ-Int4%20%E6%A8%A1%E5%9E%8B
2024-10-09 12:34:02 139
原创 【深度学习】OCR,CLIP4STR论文,多模态OCR
预训练的视觉语言模型(VLMs)已成为各种下游任务的基础模型。然而,场景文本识别(STR)方法仍然倾向于依赖仅在单一模态(视觉模态)上预训练的骨干网络,尽管VLMs具有成为强大场景文本识别器的潜力。例如,CLIP可以稳健地识别图像中的常规(水平)和非规则(旋转、曲线、模糊或被遮挡的)文本。基于这些优点,我们将CLIP转化为场景文本识别器,并介绍了CLIP4STR,这是一个基于CLIP图像和文本编码器的简单而有效的STR方法。它具有两个编码器-解码器分支:视觉分支和跨模态分支。
2024-08-27 11:23:29 421 1
原创 【深度学习】OCR模型的现状,厉害的OCR模型一览,OCR模型排行榜
在 TrOCR 之后,OCR 领域依然在快速发展,研究者们在不断探索新的模型和方法,以提升文字识别的准确性、速度和对复杂场景的适应能力。
2024-08-26 16:10:15 344
原创 【深度学习】OCR,TrOCR,transformer 端对端,论文
文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外,通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中,我们提出了一种端到端的文本识别方法,名为TrOCR,它使用预训练的图像Transformer和文本Transformer模型,充分利用Transformer架构来实现图像理解和单词片段级别的文本生成。TrOCR模型简单但有效,可以通过大规模的合成数据进行预训练,并使用人工标注的数据集进行微调。
2024-08-26 14:20:42 332
原创 【深度学习】openai gpt调用的格式,参数讲解,tools是什么
通过定义工具接口、集成到模型的工具系统、实现调用逻辑以及处理响应,你可以让你自己的大模型在需要时自动调用工具。这使得你的模型能够在更复杂的场景下,提供准确且有用的回答。
2024-08-25 20:10:03 241
原创 【单片机】LCD1602和OLED里,如何实现滚动显示特效?
滚动特效的核心思路是在一个固定长度的显示区域内,通过不断改变显示内容的起始位置,模拟出内容在屏幕上滚动的效果。我们可以使用一个定时器来周期性地更新显示内容,从而实现动态滚动。通过本文介绍的方法,可以轻松实现OLED显示屏上的滚动特效。滚动效果不仅可以提升用户体验,还可以在有限的显示区域内展示更多的信息。函数实现滚动逻辑,并在主循环中合理控制滚动的速度和方向。希望这篇文章对您在嵌入式开发中的应用有所帮助。
2024-08-25 16:23:40 391
原创 【单片机】PICC编译器和XC8编译器的历史发展,有什么关系
Hi-Tech C 编译器(PICC)和 MPLAB XC 编译器代表了 PIC 微控制器开发工具的两个不同阶段。Hi-Tech C 编译器奠定了基础,而 MPLAB XC 编译器则在此基础上,提供了更强大的功能和更好的支持。对于嵌入式开发者来说,理解这两个编译器的发展历史,不仅有助于更好地使用现有工具,也能为未来的开发提供有益的参考。
2024-08-24 19:26:32 296
51单片机 示波器 LCD12864 淘宝资料 论文 淘宝爆款
2020-01-19
STM32F103VET6 正点原子 移植 模板 ,模仿正点原子工程
2019-12-17
LCD12864 万年历 单片机 农历 显示 温度DS18B20 DS1302 AT24C02
2019-12-05
STM32F103RCT6 PCB 原理图 打板 原子 mini
2019-11-29
TI tiva tm4C ARM 库函数手册
2019-11-26
android P 9.0 支持HTTP
2019-09-25
PIC16F887 官方文档 用户手册 另加2个仿真例程 LCD1602 矩阵键盘 拨号 计算器 音乐盒
2019-09-19
kaggle 猫狗数据集二分类 系列(1)构建模型进行二分类,保存模型,画出走势图 代码
2019-09-16
avr MEGA16 DS1302 LCD1602 万年历 时钟显示 proeus 仿真 + 程序
2019-09-11
Gitxmind GIt bash 使用 xmind
2021-07-11
SHT3x_Datasheet_digital英文手册.pdf
2021-02-21
51单片机 普中V2 数字时钟 电子时钟 万年历 DS1302 LCD1602 AT24C02
2020-10-26
STM32F103C8T6 单片机 ESP8266 12F接入机智云
2020-09-05
工具软件 MSP430F149下载程序所需要用到的软件
2020-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人