- 博客(103)
- 收藏
- 关注
原创 网络摄像头——获得图像画面
摘要:文章介绍了两种使用多线程优化OpenCV读取网络摄像头的方法,解决单线程模式下I/O阻塞导致的画面延迟问题。方法一通过生产者-消费者模式,使用单独线程采集视频帧并存入队列;方法二采用更完整的面向对象设计,创建专门的CameraThread类管理视频流,实现了异常处理、队列管理和线程控制功能。两种方法均能显著提高视频流的处理效率,其中方法二对海康威视等主流摄像头提供了更完善的RTSP协议支持,包含主/辅码流选择和异常处理机制,适合需要稳定视频流的应用场景。
2025-05-28 14:33:25
197
原创 语音识别——文本转语音
edge-tts利用微软Edge的在线文本转语音服务,提供比Python自带pytts更自然的语音效果。安装需pip安装edge-tts和mpv播放器,支持终端直接播放(--text参数)或保存为MP3(--write-media)。Python可通过subprocess调用edge-tts进程,将音频管道传输给mpv实现实时播放,示例代码展示了如何设置语音类型(如zh-CN-XiaoxiaoNeural)和音量调节,避免生成临时文件
2025-05-26 16:38:31
491
原创 python——多线程编程(threading)
本文通过多个案例展示了Python中threading库的使用,帮助理解多线程编程。案例1展示了如何创建和启动多个线程执行简单任务;案例2演示了如何向线程传递参数;案例3介绍了线程池的使用,适用于I/O密集型任务;案例4通过锁机制解决了线程间的竞争条件;案例5介绍了守护线程的使用场景;案例6则通过Event对象实现了线程间的同步与通信。这些案例涵盖了多线程编程中的常见场景,帮助开发者更好地掌握并发编程技巧。
2025-05-22 17:54:15
853
原创 Ubuntu开机自启服务
本文介绍了如何为ui_main.py脚本创建并配置一个systemd服务,以便在Linux系统中实现自动启动和管理。首先,在项目文件夹中创建了一个启动脚本run_ui_main.sh,用于激活Conda环境并执行Python脚本,同时将日志输出到指定文件。接着,通过创建ui_main.service文件定义了systemd服务的配置,包括服务描述、执行路径、重启策略等。然后,通过systemctl命令重新加载配置、启动服务并检查状态,确保服务正常运行。最后,提供了停止服务和禁用开机启动的操作步骤,并通过状态
2025-05-19 19:54:04
351
原创 语音识别——通过PyAudio录入音频
PyAudio是一个强大的Python库,专为音频处理设计,支持音频的录制和播放。用户可以通过PyAudio从麦克风等设备录制音频,并将其保存为文件或进行进一步处理。安装PyAudio只需执行pip install pyaudio命令。录制音频的基本步骤包括初始化PyAudio、设置音频流参数、开始录制、读取并保存数据,最后停止
2025-05-15 10:39:18
552
原创 语音识别——声纹识别
通过将说话人的声音与数据库中的记录声音进行比对,判断说话人是否为数据库白名单中的同一人,从而完成语音验证。目前,3D-Speaker 声纹验证的效果较为出色。3D-Speaker 是一个开源工具包,可用于单模态和多模态的说话人验证、说话人识别以及说话人日志分割。
2025-05-15 10:34:22
1807
原创 语音识别——语音转文字
阿里开源的SenseVoiceSmall模型是一款具备音频理解能力的音频基础模型,支持语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件检测(AED)等功能。经过超过40万小时的数据训练,该模型支持50多种语言,并在多语言识别、情感辨识和音频事件检测方面表现出色。SenseVoiceSmall采用非自回归端到端框架,推理延迟极低,10秒音频推理仅耗时70毫秒,效率显著优于Whisper-Large模型。此外,该模型提供便捷的微调脚本和完整的服务部署链路,支持多并发请求和多种客户端语言。
2025-05-15 10:22:19
810
原创 语音识别——根据声波能量、VAD 和 频谱分析周围是否有人说话
语音活动检测(Voice Activity Detection,简称VAD)。简单来说,VAD就是用来判断一段音频里有没有人说话的技术。在实时语音识别的场景里,这个技术特别重要,因为它决定了什么时候把采集到的音频数据扔进大模型里处理。但问题来了:怎么精准判断“最佳时机”呢?用如果固定时间间隔的方法,问题就大了——间隔太短,模型会频繁启动,浪费算力,还抓不住完整的一句话;间隔太长,文字输出就会拖拖拉拉,用户体验直接崩掉。为了解决这个难题,大家常用webrtcvad库里的VAD_MODE方法。
2025-04-14 16:06:22
1435
2
原创 目标检测——标签类别映射批量修改
对于两个数据集,第一个数据集的people是1号类别,第二个数据集的people是9号类别,此时需要通过映射的方式去批量修改数据集,在对其进行合并。
2025-04-11 09:56:53
190
原创 语音识别——根据声波能量、VAD 和 频谱分析实时输出文字
4. 对每个采集的音频块分析,需要连续几次(required_speech_frames)达到说话的条件才记录,超过(required_silence_frames)没说话则输出文字,超过(long_silence_frames)帧没听到声音则认为不再说话,退出监听状态。然而,我在实际测试中发现,这种方法在某些场景下不够灵敏,尤其是在白噪音较大或较小的环境中,难以做到真正的自适应。提供了丰富的模型资源和详细的调用代码。有些相似,但作为国产社区,它在本地化支持和模型适配上有着独特的优势,值得推荐。
2025-04-11 09:55:31
782
原创 通过Llama-Factory对Deepseek-r1:1.5b进行微调
由于近期项目需求,我们计划在机器狗上部署对话大模型,并结合具体业务场景进行定制化回答。在技术选型过程中,我们对比了RAG(Retrieval-Augmented Generation)和模型微调两种策略。RAG虽然在知识检索方面表现优异,但需要额外部署文本嵌入模型,增加了部署复杂性和资源开销。相比之下,模型微调能够直接针对特定场景优化模型性能,避免了冗余组件的引入,因此我们最终选择了微调策略。在微调框架的选择上,我们采用了LLaMA-Factory。
2025-03-29 11:04:40
945
1
原创 ROS2-话题学习
自己写的代码放在./demo_python_pkg/demo_python_pkg目录下。格式为:"名字 = 包名.文件名:函数名"可执行的节点文件在以下文件夹。在根目录运行以下终端命令。
2025-03-09 22:17:56
521
原创 如何在Linux上离线部署Grounding DINO
最近由于需要用到Grounding DINO进行标注,Grounding DINO可以通过文本提示的方式检测目标,号称检查一切,有点类似Segment Anything Model (SAM)分割一切的大模型。因此需要用到Grounding DINO,但是在部署的时候发现国内无法访问,因此需要把相关的资源下载到本地部署。
2024-12-02 14:37:32
1774
原创 关闭windows更新方法
计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings\PauseUpdatesExpiryTime。在windows更新里选择暂停windows更新。然后按下win+r,输入regedit。
2024-10-24 12:51:59
459
原创 目标检测——flask后端YOLOv8检测视频,前端实时显示检测结果
【代码】目标检测——flask后端YOLOv8检测视频,前端实时显示检测结果。
2024-09-17 15:53:17
1682
1
原创 写论文篇——导师开会笔记
大背景逐渐具体写到自己的小方向然后讲解针对现在的问题已有的解决方法,并指出现有的解决方法的问题针对以上的问题提出你的方法的贡献最后可以介绍下后文的章节构成。
2024-09-06 16:32:07
434
原创 模版匹配——在大量的图片中找到与模版相似的图像
通过resne提取图像特征,计算余弦相似度。再映射至hsv和lab颜色空间计算颜色的相似度,共同去评估模版与目标的相似度。数据采用的是M3FD里面的车辆类别数据集。
2024-09-02 13:35:41
689
原创 Gradio学习——图像流输出
对于在后端实时获取的视频帧,经过图像处理函数处理后,需要不停的返回给前端。由于不是固定的视频,无法用gr.Video()方法,那利用gradio应该怎么处理?这个方法可以用,但是会存在播放的图像帧较卡的情况,所以需要调整time.sleep的时长。必须要添加time.sleep(),防止输入的图像帧太多从而导致程序卡死的情况。
2024-08-27 22:17:52
1512
原创 RK3588——Linux系统烧录(以Firefly的Core-3588L为例)
随便选择一个版本下载即可,主要用到RKDevTool.exe烧录工具和.img镜像文件,我用的是AIO-3588L_Ubuntu20.04-Xfce-r3115_v1.3.0d_240206.img镜像。硬件连接正常的话就应该开始升级了,设备会经过两次重启,请务必等到风扇一直转动后才断开type-c线,否则可能导致烧录失败。按住设备上的 RECOVERY (恢复)键并保持,连接电源,保持2秒左右,松开RECOVERY (恢复)键。风扇稳定转动后,按下关机,断开type-c接线,烧录完毕。
2024-08-18 14:40:57
2223
3
原创 RK3588——配置静态IP
找到你想要配置的网络连接的名称,此处我的连接为Wired connection 1。检查IP地址是否已正确设置。替换为你的网络连接名称,替换为你的静态IP地址,确认网络连接是否正常工作。替换为DNS服务器地址。
2024-08-18 13:53:04
2000
原创 目标检测——YOLOv8训练自己的数据集
数据集标签的格式标注为yolo的txt格式,在labelimg选择YOLO即可,然后进行标注,最后把数据集划分为训练集,验证集,(测试集)即可。创建detect.py文件,复制以下代码运行。创建train.py文件,复制以下代码运行。创建val.py文件,复制以下代码运行。
2024-08-09 17:24:46
659
原创 Python——Lambda匿名函数
函数通常用于需要函数对象的地方,但不想费心定义一个完整的函数。它们常用于与高阶函数(接受其他函数作为参数或返回函数的函数)一起使用,比如。函数是一种小型的匿名函数,它允许你创建一个函数而无需使用标准的函数定义语法。函数可以接收任意多个参数 (包括可选参数) 并且返回单个表达式的值。这里是一个简单的例子,它定义了一个。列表中的每个元素,计算它们的平方。函数,该函数接收两个参数。
2024-08-04 21:26:51
391
原创 目标检测——YOLOv10: Real-Time End-to-End Object Detection
在过去的几年中,YOLO(You Only Look Once)算法因其在计算成本和检测性能之间有效的平衡而成为实时目标检测领域的主导范式。研究人员已经探索了YOLO的架构设计、优化目标、数据增强策略等,取得了显著的进展。然而,对非极大值抑制(Non-Maximum Suppression, NMS)的依赖限制了YOLO的端到端部署,并负面影响了推理延迟。此外,YOLO中各个组件的设计缺乏全面和深入的检查,导致明显的计算冗余,并限制了模型的能力。这导致了次优的效率,并且有很大的性能提升空间。
2024-08-04 18:28:51
1399
原创 OpenCV——显示中文字体方法
1. 在windows的“C:\Windows\Fonts”文件夹找到simhei.ttf字体路径,在font中替换为自己的路径。
2024-07-26 15:53:38
959
原创 RKNN3588——YOLOv10的PT模型转RKNN模型
修改yolov10的源码1. 修改head.py文件,在lass v10Detect(Detect)中的forward添加2. 修改exporter.py文件,新增支持导出rknn的onnx,直接全部复制替换。3. 转onnx。
2024-07-26 15:48:33
1881
PyQt5学习相关代码-PyQt5快速开发与实战
2024-05-13
目标检测模型-RetinaNet模型-Pytorch版本
2024-05-14
目标检测模型-Faster-RCNN模型-Pytorch版本
2024-05-13
目标检测改进-常见的视觉注意力机制-Pytorch代码
2024-05-13
目标检测模型-SSD512-SSD300-Pytorch版本
2024-05-13
目标检测模型-YOLOv7-Pytorch版本
2024-05-13
目标检测模型-YOLOv4-Pytorch版本
2024-05-13
目标检测数据集-BSData缺陷数据集,BSData表面损伤数据集
2024-05-13
目标检测模型-YOLOvX-Pytorch版本代码
2024-05-13
目标检测数据集-RSDDs数据集-钢轨表面缺陷检测
2024-05-13
利用python的pyautogui函数实现简单的自动化操作
2024-05-13
YOLOv8的Pyside6可视化界面
2024-05-13
微信小程序-电影推荐wechat-weapp-movie
2024-05-13
Eat-what源文件
2024-05-11
“吃什么”软件,EW,eat what?
2024-05-11
CIFAR-100图像分类数据集
2024-05-11
CIFAR10分类数据集
2024-05-11
LabelImg目标检测、分割标注软件
2024-05-08
Rosetta粗糙集理论分析的软件
2024-05-08
简历模板-申博申硕-.doc-共有四个精华模板
2024-04-25
IR4红外光人体检测数据集-YOLO格式-数据标签
2025-04-14
IR3红外光人体检测数据集-YOLO格式-标签
2025-04-14
IR1红外光人体检测数据集-YOLO格式
2025-04-11
IR4红外光人体检测数据集-YOLO格式-可视化标签图像数据(2/2)
2025-04-14
IR4红外光人体检测数据集-YOLO格式-可视化标签图像数据(1/2)
2025-04-14
IR4红外光人体检测数据集-YOLO格式-图像数据(2/2)
2025-04-14
IR4红外光人体检测数据集-YOLO格式-图像数据(1/2)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据(2/4)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据(3/4)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据(4/4)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据(1/4)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-图像数据(1/2)
2025-04-14
IR3红外光人体检测数据集-YOLO格式-图像数据(2/2)
2025-04-14
IR2红外光人体检测数据集-YOLO格式
2025-04-14
语音对话的相关的模型资源
2025-04-12
RKNN3588-YOLOv8的PT的requirements.txt
2024-11-15
Flask-YOLOv8-Pytorch代码
2024-05-21
目标检测模型-SSD检测模型-Pytorch版本
2024-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人