张飞飞飞飞飞-CSDN博客

原创网络摄像头——获得图像画面

摘要：文章介绍了两种使用多线程优化OpenCV读取网络摄像头的方法，解决单线程模式下I/O阻塞导致的画面延迟问题。方法一通过生产者-消费者模式，使用单独线程采集视频帧并存入队列；方法二采用更完整的面向对象设计，创建专门的CameraThread类管理视频流，实现了异常处理、队列管理和线程控制功能。两种方法均能显著提高视频流的处理效率，其中方法二对海康威视等主流摄像头提供了更完善的RTSP协议支持，包含主/辅码流选择和异常处理机制，适合需要稳定视频流的应用场景。

2025-05-28 14:33:25 197

原创语音识别——文本转语音

edge-tts利用微软Edge的在线文本转语音服务，提供比Python自带pytts更自然的语音效果。安装需pip安装edge-tts和mpv播放器，支持终端直接播放(--text参数)或保存为MP3(--write-media)。Python可通过subprocess调用edge-tts进程，将音频管道传输给mpv实现实时播放，示例代码展示了如何设置语音类型(如zh-CN-XiaoxiaoNeural)和音量调节，避免生成临时文件

2025-05-26 16:38:31 491

原创 python——多线程编程（threading）

本文通过多个案例展示了Python中threading库的使用，帮助理解多线程编程。案例1展示了如何创建和启动多个线程执行简单任务；案例2演示了如何向线程传递参数；案例3介绍了线程池的使用，适用于I/O密集型任务；案例4通过锁机制解决了线程间的竞争条件；案例5介绍了守护线程的使用场景；案例6则通过Event对象实现了线程间的同步与通信。这些案例涵盖了多线程编程中的常见场景，帮助开发者更好地掌握并发编程技巧。

2025-05-22 17:54:15 853

原创网络摄像机——云台自动巡检找到目标自动截图保存

【代码】云台自动巡检找到目标自动截图保存。

2025-05-21 18:14:22 102

原创 Ubuntu开机自启服务

本文介绍了如何为ui_main.py脚本创建并配置一个systemd服务，以便在Linux系统中实现自动启动和管理。首先，在项目文件夹中创建了一个启动脚本run_ui_main.sh，用于激活Conda环境并执行Python脚本，同时将日志输出到指定文件。接着，通过创建ui_main.service文件定义了systemd服务的配置，包括服务描述、执行路径、重启策略等。然后，通过systemctl命令重新加载配置、启动服务并检查状态，确保服务正常运行。最后，提供了停止服务和禁用开机启动的操作步骤，并通过状态

2025-05-19 19:54:04 351

原创语音识别——通过PyAudio录入音频

PyAudio是一个强大的Python库，专为音频处理设计，支持音频的录制和播放。用户可以通过PyAudio从麦克风等设备录制音频，并将其保存为文件或进行进一步处理。安装PyAudio只需执行pip install pyaudio命令。录制音频的基本步骤包括初始化PyAudio、设置音频流参数、开始录制、读取并保存数据，最后停止

2025-05-15 10:39:18 552

原创语音识别——声纹识别

通过将说话人的声音与数据库中的记录声音进行比对，判断说话人是否为数据库白名单中的同一人，从而完成语音验证。目前，3D-Speaker 声纹验证的效果较为出色。3D-Speaker 是一个开源工具包，可用于单模态和多模态的说话人验证、说话人识别以及说话人日志分割。

2025-05-15 10:34:22 1807

原创语音识别——语音转文字

阿里开源的SenseVoiceSmall模型是一款具备音频理解能力的音频基础模型，支持语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件检测（AED）等功能。经过超过40万小时的数据训练，该模型支持50多种语言，并在多语言识别、情感辨识和音频事件检测方面表现出色。SenseVoiceSmall采用非自回归端到端框架，推理延迟极低，10秒音频推理仅耗时70毫秒，效率显著优于Whisper-Large模型。此外，该模型提供便捷的微调脚本和完整的服务部署链路，支持多并发请求和多种客户端语言。

2025-05-15 10:22:19 810

原创局域网传文件——基于flask实现

包括预览、删除、下载等功能，手机端电脑端对文件的操作都是对uploads这个文件夹进行操作。

2025-04-28 16:40:36 322

原创语音识别——根据声波能量、VAD 和频谱分析周围是否有人说话

语音活动检测（Voice Activity Detection，简称VAD）。简单来说，VAD就是用来判断一段音频里有没有人说话的技术。在实时语音识别的场景里，这个技术特别重要，因为它决定了什么时候把采集到的音频数据扔进大模型里处理。但问题来了：怎么精准判断“最佳时机”呢？用如果固定时间间隔的方法，问题就大了——间隔太短，模型会频繁启动，浪费算力，还抓不住完整的一句话；间隔太长，文字输出就会拖拖拉拉，用户体验直接崩掉。为了解决这个难题，大家常用webrtcvad库里的VAD_MODE方法。

2025-04-14 16:06:22 1435 2

原创目标检测——行人/人体检测数据集

人体检测相关的数据集

2025-04-11 17:53:19 593

原创目标检测——标签类别映射批量修改

对于两个数据集，第一个数据集的people是1号类别，第二个数据集的people是9号类别，此时需要通过映射的方式去批量修改数据集，在对其进行合并。

2025-04-11 09:56:53 190

原创语音识别——根据声波能量、VAD 和频谱分析实时输出文字

4. 对每个采集的音频块分析，需要连续几次（required_speech_frames）达到说话的条件才记录，超过（required_silence_frames）没说话则输出文字，超过（long_silence_frames）帧没听到声音则认为不再说话，退出监听状态。然而，我在实际测试中发现，这种方法在某些场景下不够灵敏，尤其是在白噪音较大或较小的环境中，难以做到真正的自适应。提供了丰富的模型资源和详细的调用代码。有些相似，但作为国产社区，它在本地化支持和模型适配上有着独特的优势，值得推荐。

2025-04-11 09:55:31 782

原创 python导入自己写的python包的问题

获取当前文件的绝对路径的父目录的父目录（项目根目录）在t2.py中加入以下内容。

2025-04-03 10:03:27 225

原创通过Llama-Factory对Deepseek-r1:1.5b进行微调

由于近期项目需求，我们计划在机器狗上部署对话大模型，并结合具体业务场景进行定制化回答。在技术选型过程中，我们对比了RAG（Retrieval-Augmented Generation）和模型微调两种策略。RAG虽然在知识检索方面表现优异，但需要额外部署文本嵌入模型，增加了部署复杂性和资源开销。相比之下，模型微调能够直接针对特定场景优化模型性能，避免了冗余组件的引入，因此我们最终选择了微调策略。在微调框架的选择上，我们采用了LLaMA-Factory。

2025-03-29 11:04:40 945 1

原创目标检测——清洗数据

需根据自己的数据集修改name及文件路径！！！

2025-03-19 09:45:46 362

原创多目标跟踪——SORT算法

【代码】YOLO-Sort。

2025-03-17 22:37:31 205

原创 ROS2-话题学习

自己写的代码放在./demo_python_pkg/demo_python_pkg目录下。格式为："名字 = 包名.文件名:函数名"可执行的节点文件在以下文件夹。在根目录运行以下终端命令。

2025-03-09 22:17:56 521

原创 Ubuntu部署deepseek（离线版）

由于实验室的服务器无法连外网，只能离线手动安装了！！！离线下载。

2025-02-18 17:03:31 2333 1

原创 Ubuntu服务器常用命令操作等————持续更新

1.1 安装好cuda测试其是否可用python。

2024-12-02 16:47:38 733

原创利用Grounding DINO进行自动标注——目标检测任务——YOLO格式

利用Grounding DINO大模型进行数据集的自动标注

2024-12-02 16:27:35 1157

原创如何在Linux上离线部署Grounding DINO

最近由于需要用到Grounding DINO进行标注，Grounding DINO可以通过文本提示的方式检测目标，号称检查一切，有点类似Segment Anything Model （SAM）分割一切的大模型。因此需要用到Grounding DINO，但是在部署的时候发现国内无法访问，因此需要把相关的资源下载到本地部署。

2024-12-02 14:37:32 1774

原创关闭windows更新方法

计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings\PauseUpdatesExpiryTime。在windows更新里选择暂停windows更新。然后按下win+r，输入regedit。

2024-10-24 12:51:59 459

原创目标检测——flask后端YOLOv8检测视频，前端实时显示检测结果

【代码】目标检测——flask后端YOLOv8检测视频，前端实时显示检测结果。

2024-09-17 15:53:17 1682 1

原创写论文篇——导师开会笔记

大背景逐渐具体写到自己的小方向然后讲解针对现在的问题已有的解决方法，并指出现有的解决方法的问题针对以上的问题提出你的方法的贡献最后可以介绍下后文的章节构成。

2024-09-06 16:32:07 434

原创 mmdetection学习——模型对比实验

git mmdetection源码到本地。

2024-09-04 12:39:24 1308 2

原创模版匹配——在大量的图片中找到与模版相似的图像

通过resne提取图像特征，计算余弦相似度。再映射至hsv和lab颜色空间计算颜色的相似度，共同去评估模版与目标的相似度。数据采用的是M3FD里面的车辆类别数据集。

2024-09-02 13:35:41 689

原创 Gradio学习——图像流输出

对于在后端实时获取的视频帧，经过图像处理函数处理后，需要不停的返回给前端。由于不是固定的视频，无法用gr.Video()方法，那利用gradio应该怎么处理？这个方法可以用，但是会存在播放的图像帧较卡的情况，所以需要调整time.sleep的时长。必须要添加time.sleep(),防止输入的图像帧太多从而导致程序卡死的情况。

2024-08-27 22:17:52 1512

原创 RK3588——网口实时传输视频

RK3588板端上接摄像头，采集画面，通过网口实时传输给上位机并显示。

2024-08-21 23:25:07 1806 1

原创 RK3588——vscode设置ssh免密登录

测试下次用vscode远程ssh rk3588不再需要输入密码！最后输入密码就大功告成了！

2024-08-19 18:35:12 799

原创 RK3588——深度学习环境配置

在配置好rk3588的静态ip后，，可以远程ssh配置rk3588的软件环境。

2024-08-19 16:41:25 929

原创 RK3588——Linux系统烧录（以Firefly的Core-3588L为例）

随便选择一个版本下载即可，主要用到RKDevTool.exe烧录工具和.img镜像文件，我用的是AIO-3588L_Ubuntu20.04-Xfce-r3115_v1.3.0d_240206.img镜像。硬件连接正常的话就应该开始升级了，设备会经过两次重启，请务必等到风扇一直转动后才断开type-c线，否则可能导致烧录失败。按住设备上的 RECOVERY （恢复）键并保持，连接电源，保持2秒左右，松开RECOVERY （恢复）键。风扇稳定转动后，按下关机，断开type-c接线，烧录完毕。

2024-08-18 14:40:57 2223 3

原创 RK3588——配置静态IP

找到你想要配置的网络连接的名称，此处我的连接为Wired connection 1。检查IP地址是否已正确设置。替换为你的网络连接名称，替换为你的静态IP地址，确认网络连接是否正常工作。替换为DNS服务器地址。

2024-08-18 13:53:04 2000

原创目标检测——YOLOv8训练自己的数据集

数据集标签的格式标注为yolo的txt格式，在labelimg选择YOLO即可，然后进行标注，最后把数据集划分为训练集，验证集，（测试集）即可。创建detect.py文件，复制以下代码运行。创建train.py文件，复制以下代码运行。创建val.py文件，复制以下代码运行。

2024-08-09 17:24:46 659

原创 Python——Lambda匿名函数

函数通常用于需要函数对象的地方，但不想费心定义一个完整的函数。它们常用于与高阶函数（接受其他函数作为参数或返回函数的函数）一起使用，比如。函数是一种小型的匿名函数，它允许你创建一个函数而无需使用标准的函数定义语法。函数可以接收任意多个参数 (包括可选参数) 并且返回单个表达式的值。这里是一个简单的例子，它定义了一个。列表中的每个元素，计算它们的平方。函数，该函数接收两个参数。

2024-08-04 21:26:51 391

原创目标检测——YOLOv10: Real-Time End-to-End Object Detection

在过去的几年中，YOLO（You Only Look Once）算法因其在计算成本和检测性能之间有效的平衡而成为实时目标检测领域的主导范式。研究人员已经探索了YOLO的架构设计、优化目标、数据增强策略等，取得了显著的进展。然而，对非极大值抑制（Non-Maximum Suppression, NMS）的依赖限制了YOLO的端到端部署，并负面影响了推理延迟。此外，YOLO中各个组件的设计缺乏全面和深入的检查，导致明显的计算冗余，并限制了模型的能力。这导致了次优的效率，并且有很大的性能提升空间。

2024-08-04 18:28:51 1399

原创目标检测——GDXray数据集转为YOLO格式

GDXray数据集转换为YOLO格式

2024-08-04 16:07:03 1191 3

原创目标检测——X光安检数据集

目标检测

2024-08-03 22:16:31 5477 6

原创 OpenCV——显示中文字体方法

1. 在windows的“C:\Windows\Fonts”文件夹找到simhei.ttf字体路径，在font中替换为自己的路径。

2024-07-26 15:53:38 959

原创 RKNN3588——YOLOv10的PT模型转RKNN模型

修改yolov10的源码1. 修改head.py文件，在lass v10Detect(Detect)中的forward添加2. 修改exporter.py文件，新增支持导出rknn的onnx，直接全部复制替换。3. 转onnx。

2024-07-26 15:48:33 1881

PyQt5学习相关代码-PyQt5快速开发与实战

PyQt5基于Qt框架，你需要了解一些基本概念，如Widgets（控件）、Signals and Slots（信号和槽）、Events（事件）等。 3. 创建窗口使用PyQt5，你可以创建多种窗口类型，最基础的是QMainWindow和QWidget。 4. 布局管理 PyQt5提供多种布局管理器，如QHBoxLayout、QVBoxLayout、QGridLayout等，用于管理控件的位置和尺寸。 5. 控件使用 PyQt5包含大量的标准控件，如按钮（QPushButton）、文本框（QLineEdit）、标签（QLabel）等。 6. 信号与槽 PyQt5中的信号和槽用于控件事件的处理，如按钮点击、文本输入等。 7. 数据可视化 PyQt5可以结合matplotlib等库进行数据可视化。 8. 文件操作 PyQt5提供文件对话框等控件，方便进行文件的读取和保存。 9. 多线程 PyQt5支持多线程，可以让你的应用程序运行多个后台任务。 10. 网络编程 PyQt5可以用于创建网络应用程序，支持TCP/IP、UDP等协议。 11. 实战项目通过实战项目，如创建一

2024-05-13

目标检测模型-RetinaNet模型-Pytorch版本

1. RetinaNet模型概述 RetinaNet是在YOLO V2之后、YOLO V3之前的一个目标检测模型。它通过引入Focal Loss损失函数，解决了传统单阶段目标检测模型中前景（positive）和背景（negative）类别不平衡的问题。Focal Loss能够减少容易分类的负样本（easy negatives）的权重，同时增加难以分类的负样本（hard negatives）的权重。 2. RetinaNet模型结构 RetinaNet的结构包括以下几个关键部分： 2.1 特征提取网络 RetinaNet使用残差网络（ResNet）作为其特征提取网络。ResNet通过引入残差单元解决了深度网络中的梯度消失问题，通常有18层到152层不等的变种。RetinaNet代码中使用的是ResNet-50网络。 2.2 特征金字塔网络（FPN） RetinaNet引入了FPN来进行特征融合，FPN能够提取多尺度的特征图，有助于检测不同尺寸的物体。FPN通过自顶向下的结构，将高分辨率的低层特征与高层特征进行融合。 2.3 框回归和分类子网络在特征提取和融合之后，RetinaN

2024-05-14

目标检测模型-Faster-RCNN模型-Pytorch版本

Faster R-CNN（Faster Region-based Convolutional Neural Network）是一种流行的目标检测框架，由Shaoqing Ren、Kaiming He、Ross Girshick和Jian Sun在2015年提出。Faster R-CNN在目标检测领域具有里程碑意义，因为它将区域建议网络（Region Proposal Network，RPN）与卷积神经网络（CNN）结合起来，实现了端到端的检测流程，极大地提高了检测速度和准确性。以下是Faster R-CNN的一些关键特性：端到端训练：Faster R-CNN是首个实现端到端训练的目标检测模型，即从原始图像直接到边界框和类别标签的预测，无需额外的预处理或特征提取步骤。区域建议网络（RPN）：Faster R-CNN引入了RPN，这是一个滑动窗口网络，用于快速高效地生成目标候选区域（region proposals）。候选区域：RPN生成的候选区域会经过ROI（Region of Interest）池化层，以获得固定大小的特征图，这有助于对不同尺寸的目标进行分类和边界框回归

2024-05-13

目标检测改进-常见的视觉注意力机制-Pytorch代码

目标检测中的注意力机制是一种技术，它使模型能够集中于图像中对当前任务最重要的区域。在目标检测的上下文中，注意力机制可以帮助模型更准确地定位和识别图像中的目标，尤其是在存在复杂背景、遮挡或目标尺度变化时。以下是注意力机制在目标检测中的一些应用：特征增强：注意力机制可以增强与目标相关的特征，同时抑制不相关或干扰的特征。上下文信息：通过考虑图像的全局上下文信息，注意力机制可以帮助模型更好地理解和解释目标的上下文环境。多尺度特征：注意力机制可以用于结合不同尺度的特征图，以提高对不同大小目标的检测性能。边界框预测：注意力加权的特征可以用于更精确地预测目标的边界框。类别预测：注意力机制可以帮助模型集中于最有代表性的目标区域，从而提高类别预测的准确性。数据增强：注意力机制可以用于模拟数据增强，通过关注图像的不同部分来增加训练数据的多样性。小目标检测：对于小目标，注意力机制可以提高特征的分辨率，从而提高检测性能。遮挡目标检测：注意力机制可以帮助模型识别出即使在部分遮挡的情况下也能代表目标的关键特征。跨模型集成：注意力机制可以用于集成多个模型的预测，通过集中于每个模型

2024-05-13

目标检测模型-SSD512-SSD300-Pytorch版本

SSD（Single Shot MultiBox Detector）是一种流行的目标检测模型，它通过单次前向传播即可预测图像中的目标位置和类别。SSD模型以其速度快和性能好而受到广泛欢迎，适用于需要实时目标检测的场景。以下是SSD模型的一些关键特性：单次检测：SSD的核心特性是它能够在单次前向传播中预测图像中所有目标的边界框和类别。多尺度预测：SSD通过在不同尺度的特征图上进行检测，能够检测不同大小的目标。默认框（Default Boxes）：SSD使用了一系列预定义的默认框，这些框在训练过程中被调整以匹配真实目标的大小。交叉类别边界框回归：SSD使用了一个统一的框架来同时预测类别和边界框偏移，这提高了模型的效率。数据增强：SSD通常使用数据增强技术来提高模型的泛化能力，包括图像缩放、裁剪和颜色扭曲等。特征融合：在SSD的某些版本中，如SSD-Lite，通过特征融合技术结合了低层次和高层次的特征，以提高小目标的检测性能。端到端训练：SSD模型可以直接从图像到边界框和类别概率进行端到端的训练。实时性能：SSD保持了较高的速度，适用于需要快速检测反馈的应用

2024-05-13

目标检测模型-YOLOv7-Pytorch版本

兼容PyTorch：YOLOv7的PyTorch版本是为PyTorch深度学习框架设计的，这意味着所有的模型架构、损失函数和训练过程都是用PyTorch的API实现的。模块化设计：PyTorch版本的YOLOv7可能采用模块化设计，使得模型的不同部分（如 backbone、neck、head）可以灵活组合和替换。预训练模型：可能会提供在大型数据集（如COCO或ImageNet）上预训练的权重，以便于进行迁移学习。实时性能：YOLOv7旨在提供实时目标检测性能，PyTorch版本也应保持这一特性。多尺度预测：YOLOv7可能在不同的尺度上进行目标检测，以捕捉不同大小的对象。数据增强：在训练过程中可能使用多种数据增强技术，以提高模型的泛化能力。损失函数：YOLOv7的PyTorch实现可能包括自定义的损失函数，用于边界框预测和类别预测。非极大值抑制（NMS）：后处理步骤中可能包括NMS，以合并重叠的检测框并提高最终结果的准确性。跨平台兼容性：由于PyTorch的跨平台特性，YOLOv7的PyTorch版本可以在多种操作系统上运行。

2024-05-13

目标检测模型-YOLOv4-Pytorch版本

YOLOv4是由Alexey Bochkovskiy等人开发的目标检测模型，它是YOLO（You Only Look Once）系列中的第四个主要版本。YOLO系列因其速度快和性能好而受到广泛欢迎，适用于需要实时目标检测的场景。以下是YOLOv4的一些关键特性和改进点：性能提升：YOLOv4在速度和准确性上都有所提升，特别是在MS COCO数据集上，与其他目标检测模型相比，它在保持较高速度的同时，也达到了较高的准确率。模型架构：YOLOv4采用了改进的模型架构，包括 CSP（Cross Stage Partial Network）技术，该技术可以减少计算量，同时保持检测性能。数据增强：YOLOv4引入了多种数据增强技术，如mosaic数据增强和MixUp数据增强，这些技术有助于提高模型的泛化能力。损失函数：YOLOv4使用了CIoU（Complete Intersection over Union）损失函数来替代传统的IoU（Intersection over Union）损失函数，CIoU损失函数考虑了边界框的中心点距离和宽高比，有助于提高边界框预测的准确性。

2024-05-13

目标检测数据集-BSData缺陷数据集，BSData表面损伤数据集

数据集内容：BSData包含1104张3通道图像，其中394张图像有表面损伤类型“凹坑”的标注。标注工具：使用labelme工具进行标注，标注结果以JSON格式提供，可以转换为VOC和COCO格式。图像来源：所有图像来自两种BSD类型。数据集结构：可下载的数据集分为三个文件夹，分别是包含所有图像的data文件夹（JPEG格式）、包含所有标注的label文件夹，以及包含基线模型的saved_model文件夹。 BSD类型分布：一种BSD类型在69张图像中展示，有55种不同的图像尺寸，这些图像可能是清洁或沾污状态。另一种BSD类型在325张图像中展示，有两种图像尺寸，由于这些图像是连续时间拍摄的，沾污程度在不断演变。磨损发展序列：数据集还包含27个凹坑发展序列，每个序列有69张图像。上图是带有凹坑的图像子集。可以在这里下载该数据集。

2024-05-13

目标检测模型-YOLOvX-Pytorch版本代码

实时性能：YOLO系列模型以实时目标检测而闻名，适用于需要快速响应的应用场景。单次预测：YOLO的核心特性是单次前向传播即可预测图像中的目标，这与传统的两阶段检测器（如Faster R-CNN）不同。端到端训练：YOLO模型可以直接从图像到边界框和类别概率进行端到端的训练。多尺度预测：YOLO通常在多个尺度上进行预测，能够检测不同大小的目标。泛化能力：YOLO模型通过在大规模数据集（如COCO和PASCAL VOC）上训练，具有良好的泛化能力。易于部署：YOLO模型由于其速度和性能的平衡，易于部署在各种计算平台上，包括边缘设备。持续改进：YOLO系列模型随着版本迭代不断改进，包括检测速度、准确率、模型大小等。社区支持：YOLO模型有着活跃的社区支持，许多研究者和开发者贡献了代码、教程和改进。多种实现：YOLO模型有多种实现，包括官方实现和社区贡献的版本，支持不同的深度学习框架，如TensorFlow、PyTorch等。

2024-05-13

目标检测数据集-RSDDs数据集-钢轨表面缺陷检测

RSDDs数据集是专为钢轨表面缺陷检测而设计的，它由两个精心策划的子数据集组成，每个子数据集都针对不同类型的铁路轨道。以下是对原始句子的丰富和扩展： Type-I RSDDs子数据集：这个子数据集专注于高速客运铁路（express rails）的钢轨表面缺陷。它包含了67张高分辨率图像，每张图像的尺寸为160像素宽和1000像素长，以捕捉细节丰富的缺陷特征。图像采集自实际的高速客运铁路轨道，反映了高速列车运行环境下钢轨的磨损和损伤情况。 Type-II RSDDs子数据集：与Type-I不同，Type-II子数据集采集自普通/重载货运铁路（common/heavy haul rails）。该子数据集由128张图像组成，每张图像的尺寸为55像素宽和1250像素长，以适应重载铁路轨道的检测需求。这些图像展示了重载货运铁路轨道在高负重和频繁使用下的典型缺陷。图像内容：两个子数据集中的每张图像都经过精心挑选，确保至少包含一个明显的钢轨表面缺陷，如裂纹、磨损、剥离等。图像背景设计得相当复杂，模拟了真实世界中钢轨所处的多变环境，增强了数据集的实用性和挑战性。为了更贴近

2024-05-13

利用python的pyautogui函数实现简单的自动化操作

1.安装python3.4以上版本，并配置环境变量（目前有装3.9遇到坑的，我个人用的3.7.6）教程：https://www.runoob.com/python3/python3-install.html 2.安装依赖包方法：在cmd中（win+R 输入cmd 回车）输入 pip install pyperclip 回车 pip install xlrd 回车 pip install pyautogui==0.9.50 回车 pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple 回车 pip install pillow 回车这几步如果哪步没成功，请自行百度如 pip install opencv-python失败 3.把每一步要操作的图标、区域截图保存至本文件夹 png格式（注意如果同屏有多个相同图标，回默认找到最左上的一个，因此怎么截图，截多大的区域，是个学问，如输入框只截中间空白部分肯定是不行的，宗旨就是“唯一”） 4.在cmd.xls 的sheet1 中，配置每一步的指令，如指

2024-05-13

YOLOv8的Pyside6可视化界面

PySide6：PySide6 是 Qt for Python 的官方绑定，提供了创建图形用户界面所需的所有工具和类。 YOLO 模型：选择一个 YOLO 版本（如 YOLOv3、YOLOv4 或 YOLOv5），并使用预训练的模型或自己训练的模型。项目结构：设计应用程序的布局，包括菜单栏、工具栏、状态栏以及用于显示视频流和检测结果的窗口。视频流处理：集成摄像头或视频文件，使用 YOLO 模型进行实时目标检测，并更新GUI以显示带有边界框的图像。 GUI 组件：播放控制：开始、停止、暂停按钮。参数调整：允许用户更改 YOLO 模型的参数，如置信度阈值、非极大值抑制（NMS）阈值等。模型选择：如果支持多个模型，允许用户选择不同的 YOLO 模型。线程处理：为了不阻塞 GUI，将视频处理和 YOLO 检测放在单独的线程中。错误处理：确保应用程序能够处理各种潜在错误，如模型加载失败、视频流中断等。用户文档：提供用户指南或文档，说明如何使用应用程序，包括如何配置和运行检测。部署：使用 PyInstaller 或其他工具将应用程序打包，以便在没有 Python

2024-05-13

微信小程序-电影推荐wechat-weapp-movie

微信小程序是一种不需要下载安装即可使用的应用，它实现了应用“触手可及”的梦想，用户扫一扫或搜一下即可打开应用。对于电影推荐小程序，它可以通过分析用户的喜好、评分、观看历史等信息来推荐电影。以下是创建一个微信小程序电影推荐功能可能包含的步骤：需求分析：确定小程序的目标用户、功能需求和业务流程。设计界面：设计用户界面（UI）和用户体验（UX），包括电影列表、详情页、用户个人页面等。搭建后端服务：可以使用云服务搭建后端，处理数据存储、电影推荐算法、用户认证等。电影数据源：确定电影数据来源，可以是公开的电影数据库API，如The Movie Database (TMDb)。推荐算法：实现推荐算法，可以是基于用户的协同过滤、基于内容的推荐或混合推荐系统。微信小程序开发：使用微信开发者工具创建小程序项目。编写前端代码，包括WXML（类似HTML的结构）、WXSS（类似CSS的样式）和JavaScript逻辑。使用微信小程序提供的API进行网络请求、数据缓存等。用户认证：集成微信用户认证，允许用户使用微信账号登录。电影展示：展示电影列表，允许用户浏览和搜索电影。

2024-05-13

Eat-what源文件

解决“不知道吃什么”的问题的软件通常属于生活辅助或健康管理类应用。这类软件通过不同的方式帮助用户决定餐食选择，增加饮食的多样性，同时可能还会提供营养信息，帮助用户做出更健康的饮食决策。以下是这类软件可能包含的一些特性：随机推荐：软件可以随机推荐各种菜肴或食谱，帮助用户跳出日常饮食习惯，尝试新的食物。个性化设置：用户可以根据自己的口味偏好、健康需求（如低脂、低糖、无麸质等）、过敏源、素食或纯素食等要求来定制推荐。营养信息：提供每道推荐食谱的营养成分信息，如卡路里、蛋白质、脂肪、碳水化合物等。饮食日记：允许用户记录自己的饮食，帮助跟踪饮食习惯和营养摄入。预算管理：根据用户的预算，推荐经济实惠的食材或食谱。食材库存管理：用户可以输入家中已有的食材，软件据此推荐可以使用这些食材的食谱。定时提醒：设置用餐时间提醒，帮助用户规律饮食。社交分享：用户可以分享自己的餐食选择或食谱到社交网络，与朋友互动。智能学习：软件可以根据用户的反馈和选择习惯，逐渐学习用户的喜好，以提供更准确的推荐。有些功能暂时没有，哈哈哈哈

2024-05-11

“吃什么”软件，EW，eat what？

解决“不知道吃什么”的问题的软件通常属于生活辅助或健康管理类应用。这类软件通过不同的方式帮助用户决定餐食选择，增加饮食的多样性，同时可能还会提供营养信息，帮助用户做出更健康的饮食决策。以下是这类软件可能包含的一些特性： 1. **随机推荐**：软件可以随机推荐各种菜肴或食谱，帮助用户跳出日常饮食习惯，尝试新的食物。 2. **个性化设置**：用户可以根据自己的口味偏好、健康需求（如低脂、低糖、无麸质等）、过敏源、素食或纯素食等要求来定制推荐。 3. **营养信息**：提供每道推荐食谱的营养成分信息，如卡路里、蛋白质、脂肪、碳水化合物等。 4. **饮食日记**：允许用户记录自己的饮食，帮助跟踪饮食习惯和营养摄入。 5. **预算管理**：根据用户的预算，推荐经济实惠的食材或食谱。 6. **食材库存管理**：用户可以输入家中已有的食材，软件据此推荐可以使用这些食材的食谱。 7. **定时提醒**：设置用餐时间提醒，帮助用户规律饮食。 8. **社交分享**：用户可以分享自己的餐食选择或食谱到社交网络，与朋友互动。仅包含以上部分功能，如有雷同，纯属凑巧，双EW.exe

2024-05-11

CIFAR-100图像分类数据集

CIFAR-100数据集是计算机视觉领域中一个广泛使用的图像识别基准数据集，它是CIFAR-10的一个扩展版本，提供了更多的类别和图像。CIFAR-100由加拿大高级研究院（Canadian Institute For Advanced Research）的人工智能研究小组开发，用于机器学习研究，特别是图像识别和模式识别任务。以下是CIFAR-100数据集的一些关键特点： 1. **图像尺寸**：与CIFAR-10一样，CIFAR-100中的所有图像都是32x32像素的彩色图像，带有3个颜色通道（红、绿、蓝），因此每张图像的大小为32x32x3=3072字节。 2. **类别分布**：CIFAR-100包含100个类别，每个类别有600张图像，总共60000张图像。这些类别被进一步组织成一个20个超类别的层次结构，每个超类别包含5个类别。 3. **数据划分**：数据集通常分为50000张训练图像和10000张测试图像。与CIFAR-10一样，训练集和测试集都是从整个数据集中随机抽取的。 4. **图像内容**：CIFAR-100的图像内容比CIFAR-10更加多样化，包括

2024-05-11

CIFAR10分类数据集

CIFAR-10是一个广泛使用的计算机视觉数据集，它由10个类别的共60000张32x32彩色图像组成，每个类别有6000张图像。CIFAR-10是加拿大高级研究院（Canadian Institute For Advanced Research）的人工智能研究小组开发的，用于机器学习研究，特别是用于图像识别和模式识别任务。以下是CIFAR-10数据集的一些关键特点： 1. **图像尺寸**：所有图像都是32x32像素，带有3个颜色通道（红、绿、蓝），因此每张图像的大小为32x32x3=3072字节。 2. **类别分布**：数据集包含10个类别，每个类别有6000张图像。这些类别是： - 飞机（airplane） - 汽车（automobile） - 鸟类（bird） - 猫（cat） - 鹿（deer） - 狗（dog） - 蛙类（frog） - 马（horse） - 船（ship） - 卡车（truck） 3. **数据划分**：CIFAR-10数据集通常分为50000张训练图像和10000张测试图像。训练集和

2024-05-11

LabelImg目标检测、分割标注软件

LabelImg是一个图形界面的图像标注工具，广泛用于机器学习和计算机视觉任务中，特别是在处理图像数据集时为图像创建注释。它允许用户打开图像，然后通过鼠标拖拽来创建矩形框（bounding boxes），以标注图像中的不同对象。这些标注通常用于训练卷积神经网络（CNN）进行对象检测任务。以下是LabelImg的一些主要特点：多类标注：用户可以为不同的对象定义多个类别，并对每个对象分配一个类别。创建矩形框：用户可以创建矩形框来标记图像中的对象。矩形框可以调整大小，并且可以精确地定位到对象的位置。可撤消和重做：软件支持撤销和重做操作，方便用户在标注过程中进行修改。图像预览：LabelImg提供了图像预览功能，用户可以浏览整个数据集中的图像。数据管理：用户可以添加、删除或修改图像和标注，以及管理整个数据集。导出格式：标注完成后，可以将标注数据导出为多种格式，如PASCAL VOC或YOLO格式，这些格式可以被大多数对象检测算法使用。自定义颜色：用户可以为不同的类别选择不同的颜色，以便于区分。快捷键：LabelImg支持快捷键操作，提高标注效率。插件系统

2024-05-08

Rosetta粗糙集理论分析的软件

Rosetta是一款专门用于粗糙集理论分析的软件，它提供了一系列的工具和算法来帮助用户进行数据分析和决策支持。粗糙集理论是一种处理不确定性和不完整性数据的数学工具，它通过分析数据的上近似和下近似来揭示数据中的隐含模式和关系。以下是Rosetta软件的一些主要特点和功能：决策表处理：Rosetta可以导入和处理决策表数据，这是粗糙集分析的基本数据结构。属性约简：软件可以自动进行属性约简，识别决策表中不必要的属性，并生成简化的决策表。规则提取：Rosetta可以基于简化的决策表提取决策规则，这些规则可以用于分类和预测。一致性分析：软件可以评估决策表的一致性，帮助用户理解数据的不确定性。数据可视化：Rosetta提供了数据可视化工具，帮助用户更直观地理解数据和分析结果。多种算法：软件内置了多种粗糙集算法，包括经典的粗糙集约简算法和一些启发式算法。交互式界面：Rosetta具有用户友好的图形界面，使得操作和分析过程更加直观和方便。扩展性：用户可以根据自己的需要开发和集成新的算法或功能。文档和社区支持：Rosetta提供了详细的文档和教程，帮助用户快速上手

2024-05-08

简历模板-申博申硕-.doc-共有四个精华模板

在申博申硕之路上，一份出色的简历至关重要！我们为您提供四款精心设计的简历模板，让您的简历更具吸引力和专业性。无论您是应届毕业生还是职场人士，我们的模板都能满足您的需求，助您脱颖而出，赢得心仪的申硕录取机会。选择我们，让您的申硕之路更加轻松顺利，让梦想更近一步！让我们一起携手，打造完美简历，实现申硕梦想！

2024-04-25

IR4红外光人体检测数据集-YOLO格式-数据标签

清洗了的红外行人检测数据集，其中包括2921个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。 YOLO标签数据全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR3红外光人体检测数据集-YOLO格式-标签

清洗了的红外行人检测数据集，其中包括14623个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。数据标签全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR1红外光人体检测数据集-YOLO格式

数据集包括：: 3493个图片（4dc9-JPEGImages） YOLO格式标签（4dc9-Txt-Label）可视化检测结果（4dc9-JPEGImages-results）用于YOLO红外光人体检测的训练，相关详情介绍在：https://blog.csdn.net/weixin_49824703/article/details/147150512?sharetype=blogdetail&sharerId=147150512&sharerefer=PC&sharesource=weixin_49824703&spm=1011.2480.3001.8118 这个链接的红外光人体数据集-1

2025-04-11

IR4红外光人体检测数据集-YOLO格式-可视化标签图像数据（2/2）

清洗了的红外行人检测数据集，其中包括2921个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。可视化标签图像数据全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR4红外光人体检测数据集-YOLO格式-可视化标签图像数据（1/2）

2025-04-14

IR4红外光人体检测数据集-YOLO格式-图像数据（2/2）

清洗了的红外行人检测数据集，其中包括2921个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。图像数据全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR4红外光人体检测数据集-YOLO格式-图像数据（1/2）

2025-04-14

IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据（2/4）

清洗了的红外行人检测数据集，其中包括14623个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。可视化标签图像数据全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据（3/4）

2025-04-14

IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据（4/4）

2025-04-14

IR3红外光人体检测数据集-YOLO格式-可视化标签图像数据（1/4）

2025-04-14

IR3红外光人体检测数据集-YOLO格式-图像数据（1/2）

清洗了的红外行人检测数据集，其中包括14623个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。图像数据全部相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

IR3红外光人体检测数据集-YOLO格式-图像数据（2/2）

2025-04-14

IR2红外光人体检测数据集-YOLO格式

清洗了的红外数据集，其中包括9045个数据集，数据集的标签格式为YOLO格式，能够直接用于YOLO系列模型的训练。包括图片数据标签及标签可视化的图片，相关数据集介绍链接： https://blog.csdn.net/weixin_49824703/article/details/147150512?spm=1001.2014.3001.5502

2025-04-14

语音对话的相关的模型资源

包括声纹识别和语音转文字，以及把对应的输入通过大模型转语音输出，对应的博客在：https://blog.csdn.net/weixin_49824703/article/details/147135092?spm=1001.2014.3001.5502

2025-04-12

RKNN3588-YOLOv8的PT的requirements.txt

内容概要：本文档为项目所需软件包列表（requirements.txt），列出了使用Python开发环境时需要安装的各种库及其版本号。主要涵盖了基本工具库（如Numpy, OpenCV）、日志记录相关库、数据可视化库以及各种模型导出相关的工具（如ONNX, TensorFlow）等方面的需求。此外，还有一些性能监测和计算辅助库被包含进来，用于系统资源利用情况的检测和优化。适用人群：熟悉Python编程语言并对机器学习有一定程度认识的技术开发人员。使用场景及目标：帮助开发者迅速配置好项目的运行环境，确保所有必要的库都已经正确安装，以便顺利进行项目开发或部署。其他说明：注意检查各个包的兼容性和安全性问题，部分包可能含有已知的安全漏洞（比如scipy曾被Snyk指出存在安全隐患），开发者应当关注官方更新并及时升级相应的库。同时，在实际应用中应选择与自己的硬件平台相匹配的特定版本，例如TensorFlow的不同后缀版本对应不同的处理器架构。

2024-11-15

sci-writing book

提示sci写作表达的神书，推荐全文背诵

2024-09-06

从视频中抽取帧图片并保存

2024-05-24

Flask-YOLOv8-Pytorch代码

Flask与PyTorch结合使用YOLOv8的一般步骤：环境准备：确保安装了Python环境。安装Flask：pip install Flask。安装PyTorch：根据你的系统配置安装PyTorch，pip install torch torchvision。获取YOLOv8模型：根据，YOLOv8模型可以通过Ultralytics提供的文档获取。使用pip安装Ultralytics包：pip install ultralytics。加载YOLOv8模型：使用Ultralytics的YOLO类加载预训练的YOLOv8模型。 from ultralytics import YOLO model = YOLO("yolov8n.pt") # 加载预训练模型创建Flask应用：初始化Flask应用。 from flask import Flask, request, render_template app = Flask(__name__) 创建路由和视图函数：创建一个路由来处理上传的图片，并使用YOLOv8模型进行目标检测。 @app.route(

2024-05-21

目标检测模型-SSD检测模型-Pytorch版本

SSD（Single Shot MultiBox Detector）是一种流行的目标检测框架，它以其速度快和性能好而闻名。SSD通过单次前向传播即可预测图像中的目标位置和类别。以下是SSD模型的详细介绍： 1. SSD概述 SSD是由Wei Liu等人在2015年提出的，其核心思想是在不同尺度的特征图上进行目标检测。SSD利用了深度卷积网络（如VGGNet）提取的多尺度特征来进行目标检测，这使得它能够有效地检测不同尺寸的目标。 2. SSD的关键特性多尺度特征图：SSD在网络的不同层级上使用特征图，这样可以捕捉到不同大小的目标。先验框（Prior Boxes）：在每个特征图的每个位置，SSD会生成多个不同尺寸和宽高比的先验框，这些框用于预测目标的存在及其位置。单次传播：与需要多次迭代计算的检测方法不同，SSD只需要网络的单次前向传播即可完成检测。边框回归和分类：SSD同时预测每个先验框的类别和边界框位置，使用不同的卷积层来预测类别得分和边界框偏移。 3. SSD的网络结构 SSD的网络结构通常基于一个强大的图像分类网络，如VGGNet。在SSD中

2024-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人