- 博客(1269)
- 资源 (125)
- 收藏
- 关注
原创 【深度学习】OCR,CLIP4STR论文,多模态OCR
预训练的视觉语言模型(VLMs)已成为各种下游任务的基础模型。然而,场景文本识别(STR)方法仍然倾向于依赖仅在单一模态(视觉模态)上预训练的骨干网络,尽管VLMs具有成为强大场景文本识别器的潜力。例如,CLIP可以稳健地识别图像中的常规(水平)和非规则(旋转、曲线、模糊或被遮挡的)文本。基于这些优点,我们将CLIP转化为场景文本识别器,并介绍了CLIP4STR,这是一个基于CLIP图像和文本编码器的简单而有效的STR方法。它具有两个编码器-解码器分支:视觉分支和跨模态分支。
2024-08-27 11:23:29 303 1
原创 【深度学习】OCR模型的现状,厉害的OCR模型一览,OCR模型排行榜
在 TrOCR 之后,OCR 领域依然在快速发展,研究者们在不断探索新的模型和方法,以提升文字识别的准确性、速度和对复杂场景的适应能力。
2024-08-26 16:10:15 158
原创 【深度学习】OCR,TrOCR,transformer 端对端,论文
文本识别是文档数字化领域中的一个长期存在的研究问题。现有的方法通常基于用于图像理解的CNN和用于字符级文本生成的RNN。此外,通常还需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中,我们提出了一种端到端的文本识别方法,名为TrOCR,它使用预训练的图像Transformer和文本Transformer模型,充分利用Transformer架构来实现图像理解和单词片段级别的文本生成。TrOCR模型简单但有效,可以通过大规模的合成数据进行预训练,并使用人工标注的数据集进行微调。
2024-08-26 14:20:42 223
原创 【深度学习】openai gpt调用的格式,参数讲解,tools是什么
通过定义工具接口、集成到模型的工具系统、实现调用逻辑以及处理响应,你可以让你自己的大模型在需要时自动调用工具。这使得你的模型能够在更复杂的场景下,提供准确且有用的回答。
2024-08-25 20:10:03 157
原创 【单片机】LCD1602和OLED里,如何实现滚动显示特效?
滚动特效的核心思路是在一个固定长度的显示区域内,通过不断改变显示内容的起始位置,模拟出内容在屏幕上滚动的效果。我们可以使用一个定时器来周期性地更新显示内容,从而实现动态滚动。通过本文介绍的方法,可以轻松实现OLED显示屏上的滚动特效。滚动效果不仅可以提升用户体验,还可以在有限的显示区域内展示更多的信息。函数实现滚动逻辑,并在主循环中合理控制滚动的速度和方向。希望这篇文章对您在嵌入式开发中的应用有所帮助。
2024-08-25 16:23:40 259
原创 【单片机】PICC编译器和XC8编译器的历史发展,有什么关系
Hi-Tech C 编译器(PICC)和 MPLAB XC 编译器代表了 PIC 微控制器开发工具的两个不同阶段。Hi-Tech C 编译器奠定了基础,而 MPLAB XC 编译器则在此基础上,提供了更强大的功能和更好的支持。对于嵌入式开发者来说,理解这两个编译器的发展历史,不仅有助于更好地使用现有工具,也能为未来的开发提供有益的参考。
2024-08-24 19:26:32 177
原创 【单片机】PIC单片机编程里前面的配置文件含义,xc.h的#pragma配置
指令实现,用于控制单片机的一些关键行为和特性。在具体编程时,这些配置非常重要,因为它们直接影响到单片机的工作模式、启动方式、以及保护措施。这些配置指令用来定义PIC单片机的各种工作模式和功能,是开发过程中必须设定的一部分,以确保硬件和软件能够正确地协同工作。这段代码是用于配置PIC单片机的编译设置和硬件参数的。
2024-08-24 14:54:02 252
原创 Linux,使用FFmpeg进行MKV视频音量自适应调整
FFmpeg 是一款开源的多媒体处理工具,支持视频、音频的转换、编辑、处理等功能。它几乎支持所有常见的音视频格式,并提供丰富的滤镜和功能,适用于各种专业和日常的音视频处理场景。dynaudnorm对于一些更复杂的场景,你可以进一步自定义dynaudnorm通过FFmpeg的dynaudnorm滤镜,你可以轻松实现音量自适应调整,为视频的音频处理提供高效的解决方案。这不仅提升了视频的播放体验,还能为你在处理音视频项目时节省大量时间和精力。
2024-08-23 10:06:39 282
原创 如何在Linux系统中放大MKV视频文件的音量
ffmpeg是一个开源的多媒体处理工具,可以用来转换音频和视频格式、采集音频和视频流、进行音频处理等。它几乎支持所有已知的音视频格式,因此在需要编辑或处理多媒体文件时,ffmpeg是首选工具。通过本文的介绍,你已经了解了如何在Linux系统中使用ffmpeg放大MKV视频文件中的音量。无论你是刚接触ffmpeg,还是想深入了解音频处理,本文都提供了足够的信息供你参考。ffmpeg是一个非常强大的工具,通过合理使用它的音频滤波器和其他参数,你可以轻松地调整视频文件的音量,并保持高质量的输出。
2024-08-22 22:14:18 408
原创 【深度学习】如何理解 Transformer 位置编码:每个位置的编码真的都是唯一的吗?还是周期性的?
位置编码在 Transformer 模型中的作用至关重要,它通过一组不同频率的正弦和余弦函数为每个位置生成唯一的表示。虽然这些函数是周期性的,但不同维度的组合确保了位置编码在实际应用中的唯一性。在处理自然语言序列时,Transformer 的位置编码机制已经被证明是有效且稳健的。即使你知道理论上可能存在编码重复的情况,也无需担心,因为在实际应用中,这种情况几乎不可能发生。Transformer 的设计使得我们可以在保留位置信息的同时,充分利用自注意力机制进行并行处理,从而带来更强大的自然语言理解能力。
2024-08-22 20:55:10 791
原创 【运维】Linux如何解压.rar文件
在Linux系统中解压.rar文件,你可以使用unrar或rar工具。如果系统中还没有安装它们,可以先通过包管理器进行安装。
2024-08-21 16:05:10 283
原创 【运维】Linux中的xargs指令如何使用?
xargs是处理批量命令的一大利器,可以和许多其他命令结合使用来自动化操作。它的灵活性使其在脚本编写和日常管理任务中非常有用。
2024-08-21 10:04:43 154
原创 【单片机】51单片机中的`data`与`code`关键字详解
存储数据和临时变量,掉电后数据丢失。扩展的存储区域,通常用于存储大量数据。存储程序代码和常量数据,掉电后数据不会丢失。在51单片机的程序中,开发者可以使用不同的关键字来指定变量或数据的存储位置,从而提高程序的运行效率和代码的可读性。其中,data和code是两个最常用的关键字。51单片机中的data和code关键字提供了对不同存储器区域的灵活访问方式。正确使用这些关键字不仅可以优化程序性能,还能有效地管理有限的内存资源。
2024-08-21 10:00:23 582
原创 【运维】如何在浏览器中查看和管理 Cookie 信息?
在开始之前,我们先简要介绍一下什么是 Cookie。Cookie 是由网站生成并存储在用户设备上的小数据片段,它们可以包含用户会话信息、跟踪用户活动或存储用户偏好设置。当您再次访问同一网站时,浏览器会发送这些 Cookie 以帮助网站识别您,从而提供更好的服务。了解如何查看和管理 Cookie 信息有助于更好地控制您的浏览器数据安全。希望本文能为您提供清晰的指导,如果您有任何进一步的问题或需要更详细的帮助,欢迎随时联系我!
2024-08-19 21:51:44 279
原创 【Android】android,震动一下,50ms,震动等级设置低一点
要在Android中实现震动50ms,并将震动等级设置为低,你可以使用Vibrator类。
2024-08-19 15:35:51 288
原创 【Android】在Android中,自定义Toast以实现放中间、加粗字体和红色文本的效果
在Android开发中,Toast是一种常用的轻量级消息提示方式。它可以在不打断用户操作的情况下显示一段信息,并且自动消失。默认情况下,Toast的样式和位置是固定的,但有时候我们可能需要更灵活地自定义Toast,例如将Toast显示在屏幕中央、设置特定的文本颜色、字体样式等。本文将介绍如何实现这些自定义需求。在某些情况下,我们可能希望自定义Toast的文本样式,例如改变文本的颜色、字体大小、或者将文本加粗。
2024-08-19 15:33:00 560
原创 Failed loading language ‘chi_sim‘ Tesseract Open Source OCR Engine v4.1.1 with Leptonica
通过下载并配置好语言数据文件,以及设置正确的环境变量,你应该能够顺利使用 Tesseract 进行中英文混合文本的识别。如果问题仍然存在,建议检查tessdata目录中的文件权限,确保 Tesseract 可以读取这些文件。
2024-08-19 14:29:25 122
原创 【深度学习】OCR, 如何使用 Tesseract 进行 OCR 识别
Tesseract 是一个强大的开源 OCR(光学字符识别)引擎,支持多种语言和字符集。它的命令行工具可以将图像中的文本提取为文本文件,广泛应用于文档数字化、数据提取等场景。Tesseract 是一个功能强大且灵活的 OCR 工具,通过命令行可以实现多种复杂的文本提取需求。希望这篇博客能帮助你快速上手 Tesseract,提升工作效率。
2024-08-19 14:28:21 235
原创 【深度学习】OCR的图像处理方式,如何提升OCR效果
在使用Tesseract进行OCR(光学字符识别)时,有时可能会遇到输出质量不理想的问题。本文将总结如何通过图像处理技术和其他方法提高Tesseract的输出质量。
2024-08-19 14:00:13 183
原创 【深度学习】OCR结果文字框排序,Z字排序,PaddleOCR结果z字排序,Python代码
在OCR应用中,特别是处理包含多行文本的图像时,文本框的顺序往往并不满足人类的自然阅读习惯(即从左到右,从上到下的Z字形顺序)。例如,当我们处理一个包含多个文本块的复杂文档时,OCR可能会将这些块按照它们在图像中的出现顺序进行排列,但这与我们实际阅读时的顺序可能大相径庭。为了优化OCR的输出,使其更加直观和易于理解,我们需要对这些文本框进行重新排序,以符合人类的阅读习惯。这种排序通常被称为Z字形排序,具体过程如下。
2024-08-19 13:47:39 60
原创 【深度学习】【多模态】使用MiniCPM-V 2.6进行图片OCR
将下面的python中的目录地址换成MiniCPM-V-2_6项目所在地址。OCR没有专用OCR识别能力强,但分析能力非常好,感觉可以用于分析版面。准备一个图片’test.jpg’。
2024-08-19 13:18:56 276
原创 【51单片机】OLED如何显示汉字?OLED驱动显示程序代码,七针OLED,六针OLED,SPI通信
【代码】【51单片机】OLED如何显示汉字?OLED驱动显示程序代码,七针OLED,六针OLED,SPI通信。
2024-08-18 12:03:22 94
原创 stc89c52单片机的p4引脚如何使用?
STC89C52RC 是一种基于 8051 架构的 8 位单片机,由 STC 微电子公司生产。它具有 8KB 的 Flash 存储器、256 字节的 RAM 和 32 个 I/O 端口。它支持 UART、定时器、外部中断等功能,适用于各种嵌入式控制应用。它的高性能和丰富的外设使其成为许多电子项目的理想选择。芯片中是有P4端口的,但如何使用?
2024-08-18 11:35:29 91
原创 【51单片机】OLED驱动显示程序代码,七针OLED,六针OLED,SPI通信
在嵌入式系统中,OLED显示屏因其自发光、高对比度、宽视角等优点广泛应用于各种产品中。本篇文章介绍了如何通过单片机驱动一块128x64分辨率的OLED显示屏,并详细解析了核心代码,包括OLED的初始化、数据发送、字符显示等。OLED屏幕的硬件接口通常包括数据线、时钟线、复位引脚、命令/数据选择引脚等。本文使用的是并口模式,通过GPIO口模拟SPI协议与OLED进行通信。oled.h本篇文章介绍了如何通过单片机驱动一块128x64的OLED屏幕,主要功能包括初始化OLED、显示字符和清屏。
2024-08-18 11:21:34 91
原创 【51单片机】DS1302驱动,11.0592MHZ,使用DS1302
在你的ds1302.h文件中,已经包含了一个简单的 DS1302 驱动程序,用于设置和获取实时时钟模块的数据。现在我们来重写一个简单的main.c,并展示如何使用这些函数。main.c。
2024-08-17 21:26:54 217
原创 【51单片机】ds18b20驱动,11.0592MHZ,使用DS18b20
此程序读取DS18B20的温度并在LCD上显示。如果未检测到DS18B20传感器,程序会在LCD上显示 “No DS18B20” 并停止运行。:程序假设你有一个16x2的LCD显示器与单片机连接,用于显示读取的温度。文件包含了之前的驱动程序函数。如果没有,你可以直接将这些函数拷贝到这个。根据你提供的DS18B20和DS1302驱动程序,我将为你编写一个。文件将读取DS18B20的温度,并每秒更新一次显示在LCD上。文件,专门用于读取DS18B20的温度并显示。函数用于实现毫秒级的延时。
2024-08-17 21:12:59 166
原创 【51单片机】DHT11驱动,11.0592MHZ,使用DHT11传感器测量温湿度
DHT11是一款低成本的温湿度传感器,能够同时测量空气中的温度和湿度,并将其数据以数字信号的形式输出。这个项目中,我们使用了一块STC单片机,通过UART串口通信将DHT11传感器读取到的温湿度数据输出到PC上的串口监视器中。通过这个项目,我们学会了如何使用DHT11传感器来测量环境温度和湿度,并通过串口将数据输出到PC。代码的结构清晰,功能实现简单明了,适合初学者学习传感器数据读取与串口通信的基础知识。
2024-08-17 21:05:31 230
原创 【运维】out of shared memory. Please try to raise your shared memory limit
共享内存(shared memory)是一种进程间通信的方式,允许多个进程共享同一块内存区域。在深度学习任务中,DataLoader 的多个 worker 进程常常需要共享大量数据以高效处理数据加载。当共享内存不足时,便会导致上述错误。当你在 Docker 容器中使用 PyTorch 进行深度学习任务时,默认的 64MB 共享内存可能不足,导致 DataLoader 出现内存不足的错误。通过调整 Docker 的--shm-size参数,你可以有效解决这个问题。
2024-08-15 14:50:07 87
原创 m4a转wav,使用FFmpeg和Python将M4A文件转换为WAV
FFmpeg: 适合直接在终端进行批量转换,非常快捷。pydub: 适合在Python程序中集成音频转换功能,灵活性高。
2024-08-15 11:42:18 347
原创 【运维】深入理解 Linux 中的 `mv` 命令,使用 `mv` 移动所有文件但排除特定文件或文件夹
通过本文的介绍,我们可以看到mv命令不仅仅是一个简单的移动工具,通过一些小技巧和选项,我们可以灵活地处理文件和文件夹的移动与重命名任务。特别是在需要排除特定文件或文件夹的情况下,使用扩展的模式匹配可以极大地方便操作。掌握这些技能,将有助于你更高效地管理 Linux 系统中的文件。
2024-08-15 10:45:08 276
原创 【运维】报错Resource averaged_perceptron_tagger_eng not found.
python代码前加这几句,开魔法执行,会下载好对应包,就不会报错了。
2024-08-14 17:12:43 212
原创 【深度学习】什么是自回归模型?
自回归模型是一种重要的时间序列模型,通过利用过去的值来预测当前或未来的值。它在统计学、经济学、自然语言处理等领域有广泛的应用。自回归模型的简单性和可解释性使其成为许多应用的首选,但在更复杂的情况下,可能需要结合其他模型如移动平均模型(MA模型)或混合模型(如ARIMA)来更好地捕捉时间序列中的模式。扩散模型(Diffusion Model)和自回归模型(Autoregressive Model)是两种不同的生成模型,各自有独特的特点和应用场景。
2024-08-14 16:19:02 178
原创 【深度学习】【语音】TTS,MeloTTS代码讲解
Xtω∑n−∞∞xn⋅wn−t⋅e−jωnXtωn−∞∑∞xn⋅wn−t⋅e−jωnXtωXtω是时间ttt和频率ω\omegaω上的 STFT 结果。xnx(n)xn是原始时间域信号。wn−tw(n - t)wn−t是窗口函数,在每个时间点ttt移动。e−jωne−jωn是傅里叶变换的复指数。
2024-08-14 15:31:09 219
原创 【运维】JetBrains Gateway (Pycharm) SSH免密连接,改为免密连接
一直要求输入密码,很烦人:如何免密连接?1 重新打开gateway,来到这个界面点新建连接:2 点这里设置:
2024-08-14 12:01:13 173
原创 【运维】深入了解 grep 命令,如何优雅地使用 grep 命令
grep是一个功能强大且灵活的工具,广泛应用于文本处理和日志分析。通过熟练掌握其各种选项和正则表达式,你可以更高效地处理日常任务。在工作中,grep可以帮助你快速定位问题,提升工作效率。无论你是新手还是经验丰富的开发者,grep都是你工具箱中不可或缺的利器。通过不断实践和应用,你会发现grep的强大之处,并逐渐掌握它的高级用法。
2024-08-14 11:33:18 68
51单片机 示波器 LCD12864 淘宝资料 论文 淘宝爆款
2020-01-19
STM32F103VET6 正点原子 移植 模板 ,模仿正点原子工程
2019-12-17
LCD12864 万年历 单片机 农历 显示 温度DS18B20 DS1302 AT24C02
2019-12-05
STM32F103RCT6 PCB 原理图 打板 原子 mini
2019-11-29
TI tiva tm4C ARM 库函数手册
2019-11-26
android P 9.0 支持HTTP
2019-09-25
PIC16F887 官方文档 用户手册 另加2个仿真例程 LCD1602 矩阵键盘 拨号 计算器 音乐盒
2019-09-19
kaggle 猫狗数据集二分类 系列(1)构建模型进行二分类,保存模型,画出走势图 代码
2019-09-16
avr MEGA16 DS1302 LCD1602 万年历 时钟显示 proeus 仿真 + 程序
2019-09-11
Gitxmind GIt bash 使用 xmind
2021-07-11
SHT3x_Datasheet_digital英文手册.pdf
2021-02-21
51单片机 普中V2 数字时钟 电子时钟 万年历 DS1302 LCD1602 AT24C02
2020-10-26
STM32F103C8T6 单片机 ESP8266 12F接入机智云
2020-09-05
工具软件 MSP430F149下载程序所需要用到的软件
2020-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人