迷迷糊糊的小七-CSDN博客

原创 xml文件转成YOLO训练所需要的txt文件

2、把xml_files1里面的路径改成自己xml文件所在的路径，3、把save_txt_files1改成要新保存的txt文件的路径。很多小伙伴在找数据集的时候会遇到数据集是xml文件的。那么不着急，我们直接给它转成txt文件。1、把classes改成自己的类别。要修改的地方就在最下面，

2024-09-20 16:45:53 349

原创 YOLOV8输出预测框的坐标信息

结果：（前提是对应类别的yolov8模型已经训练好）复制到相应位置测试文件及命令即可达到想要的效果。

2024-09-18 09:53:12 2898 4

原创人工智能常用的图像处理算法和预处理算法以及检测算法还有一些常用的开发库

比较出名的有：大恒图像（亚洲Halcon最大代理商）、凌云光技术（VisionPro视觉平台：印刷、3C电子、显示屏、玻璃、线路板检测）、大族激光（振静系统：视觉激光焊接，定视觉位、缺陷检测）、康耐视、基恩士、深圳精锐视觉、深圳市视觉龙科技有限公司、广州超音速、深圳市创科自动化等等。饱和度的变化代表颜色成分的多少。一般对颜色空间的图像进行有效处理都是在HSV空间进行的，然后对于基本色中对应的HSV分量需要给定一个严格的范围，下面是通过实验计算的模糊范围（准确的范围在网上都没有给出）。

2024-06-27 13:51:54 2152

原创图像特征的描述、分类、统计特征以及特征提取的评价

图像的标准差反映了图像像素灰度相对于灰度均值的离散程度，也反映了图像对比度的强弱，标准差越大，意味着图像的灰度级分布越分散，图像的对比度越大。点特征是图像中最基本的特征，它是指哪些灰度信号在二维方向上都有明显变换的点，这是一种比较简答的图像特征，也称为关键点等。图像特征提取指对图像中的信息进行处理和分析，将其中不易受随机因素干扰的、具有标志性的信息作为该图像的特征信息提取出来。2) 图像的特征向量应该是基于图像整体的,特征向量的分布必须是均匀的,而不是只集中再图像的某一局部区域;

2024-06-26 09:39:39 3003

原创 cv知识点(卷积和池化)

最大池化(Max Pooling)是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。如下图所示，表示的就是对一个4x4的特征图邻域内的值，用一个2x2的filter，步长为2进行“扫描”，选择最大值输出到下一层，这叫做最大池化。平均池化(Average Pooling)是将输入的图像划分为若干个矩形区域，对每个子区域输出所有元素的平均值。

2024-06-21 13:53:10 2010

原创 YOLO模型评估指标

我们这步针对所有经过score threshold筛选出的预测框，针对一个预测框来讲，如果边界框位置大小与某个GT非常相似（检测框与GT的IoU ≥ IoU threshold），那么我们就认为这个框就是一个正确的检测结果，并将其与该GT 配对，TP即为这类检测框的数量。：人工设定的IoU阈值。这也解释了为什么在计算TP时，同一个GT只对应一个正确的检测框 TP，如果允许一个GT对应多个正确的预测框，假如对于每个GT都存在大于一个的正确预测框数，那么最终得到的召回率很明显会大于1，这是不符合常理的。

2024-06-18 20:39:52 1630 1

原创深度学习原理

AIGC（Artificial Intelligence Generated Content，即人工智能生成内容）是一种利用人工智能技术自动创建文本、图像、音频和视频等内容的技术。AIGC的核心是通过机器学习和深度学习算法，让计算机模型学会理解和生成人类语言，从而能够自动产生有价值的内容。这是几个关键概念的关系：生成式AI系统的设计通常基于神经网络模型，尤其是自然语言处理（NLP）领域的模型。这些模型的设计灵感往往来源于人脑的结构和功能，通过模拟神经元的连接和信息传递机制，构建复杂的网络结构。

2024-06-17 19:49:56 1322

原创各种机器学习算法的应用场景分别是什么（比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型）？

这些模型都是建立在自然语言处理（NLP）的基础之上，NLP是构成人工智能大模型不可或缺的部分，它既是一个技术领域，也是一套包含多种算法的集合。选择适合的算法取决于具体的问题、数据的特性和性能要求，通常需要根据问题的具体情况来选择和调整适合的算法。它们的主要优势在于能够理解和生成复杂的数据模式，所以，算法的好坏或者选择，已经不是一个单选的过程。为了方便非专业的朋友阅读，我会从算法分类到主流算法举例来展开，预计20分钟的阅读，你会大概对众多繁复的机器学习算法有一个基础认识，了解当下流行的算法应用场景。

2024-06-16 20:39:37 2431

原创人工智能和机器学习的应用日益广泛，在医疗健康领域的具体应用是什么？

相较于传统的群体药动学建模方法，基于机器学习构建的模型能更精准地预测血药浓度和给药剂量，从而提高临床精准用药水平，减少不良反应的发生[51]。这些应用展示了AI和ML技术在医疗健康领域的巨大潜力，不仅能够提高医疗服务的质量和效率，还能推动医疗行业向更加智能化、高效化的方向发展。、分析患者相似度以准确预测药物组合的方法，能够提升药物推荐任务的安全性和准确性[57]。人工智能和机器学习在医疗健康领域中的应用非常广泛，不同的疾病预测模型根据其特定的应用场景和目标疾病类型，采用了不同的算法和技术。

2024-06-16 19:07:18 1941

原创前20名图灵奖得主

提出“分枝限界法”;4.马文·李·明斯基(Marvin Lee Minsky，1927年8月9日-2016年1月24日)，美国科学家，麻省理工学院人工智能实验室的创始人之一，专长于认知科学与人工智能领域。17.骨尼斯·蓝·汤普森(Kenneth LaneThompson，1943年2月4日一)，小名为肯·汤普森(KenThompson)，美国计算机科学学者与软件工程师，1983年图灵奖得主，在贝尔实验室工作期间，汤曾逊设计和实现了Unix操作系统他创造了B语言--C语言的前身，而且他是Plan9操作系统。

2024-06-15 16:37:22 894

原创 GoogLeNet(InceptionV3)模型算法

GoogLeNet团队在给出了一些通用的网络设计准则，以期望在不提高网络参数量的前提下提升网络的表达能力：避免特征图表达瓶颈：从理论上讲，尺寸(seize)才包含了相关结构等重要因素，维度(channel)仅仅提供了信息内容的粗略估计，因此特征图的尺寸应该从输入到输出慢慢减小，避免使用极端压缩。更高的维度特征图更容易获得网络的局部表达：在卷积网络结构中，增加非线。

2024-06-14 20:54:27 1139

原创线性回归模型及应用以及局限性

在线性回归中，我们通常有一个或多个自变量 (X) 和一个因变量 (Y)。模型的目标是找到一条最佳拟合直线，使得这条直线能够最好地描述 (X) 和 (Y) 之间的关系。这条直线的方程通常表示为：其中，(Y) 是因变量（目标变量）(X_1, X_2, ..., X_p) 是自变量（特征）(\beta_0, \beta_1, ..., \beta_p) 是模型的参数，需要通过数据来估计(\epsilon) 是误差项，代表模型未能解释的部数学角度（x,y）样本点如下，

2024-06-14 20:39:55 2088

原创深度学习中的神经网络——揭秘人工智能的核心技术

神经网络，这个曾经只是数学领域的一个概念，如今已经成为了人工智能领域的核心技术。它不仅为人们带来了诸如智能语音助手、自动驾驶等便利，还激发了人们对未来科技的无限想象。让我们携手共进，共同探索神经网络的奥秘，创造一个更美好的未来！

2024-06-13 20:58:01 934

原创人工智能——机器学习——神经网络（深度学习）

人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出现在 1956 年召开的达特茅斯会议上。其中深度学习可以理解为神经网络。刚开始只有神经网络的概念，随着神经网络的层数增加，就逐渐将神经网络叫做深度学习。神经网络的发展历程大致分为浅层神经网络阶段和深度学习阶段。

2024-06-12 08:36:39 5377 5

原创机器学习——训练集、测试集、验证集与模型选择

验证集可以用来评估模型的性能，如准确率、损失函数等，以便我们能够选择最佳的模型参数和模型结构。通过合理的划分和使用它们，我们可以更好地评估模型的性能和泛化能力，并进行有效的模型选择。在实际应用中，需要根据具体的问题和数据量来调整数据集的划分比例和方法，以便获得最佳的模型性能。我们可以通过调整不同的模型参数和结构，在验证集上评估模型的性能，然后选择最佳的模型作为最终的模型。在实际应用中，除了模型的性能外，我们还需要考虑其他因素，如模型的复杂度、可解释性、计算成本等。的过程中，数据的划分是至关重要的步骤。

2024-06-11 11:23:23 2551

原创人工智能和机器学习这两个概念有什么区别？

机器学习，MachineLearning（简称ML），机器学习领域知名学者Tom M.Mitchell曾给机器学习做如下定义：如果计算机程序针对某类任务T的性能（用P来衡量）能通过经验E来自我改善，则认为关于T和P，程序对E进行了学习。通俗来讲，计算机针对某一任务，从经验中学习，并且能越做越好，这一过程就是机器学习。一般情况下，“经验”都是以数据的方式存在的，计算机程序从这些数据中学习。学习的关键是模型算法，它可以学习已有的经验数据，用以预测未知数据。

2024-06-10 19:41:14 1965 2

原创什么是transformer？

这是一个万能形式，任何问题的答案都是通过“问题本身+相关的关键信息”找到的，比如你去谷歌搜索“今天天气怎么样”，这个问题本身就是 Q，而你的语言是“中文”，你的位置是“北京”，你的时间是“今天”，这些就都是 K，那么找到的答案“下雨”就是 V。结构，也就是 encoder 部分是前半句（一个字，一个句子），decoder 部分是后半句（或者下一个字，或者下个句子，都行），就是自己学自己，不是两种不同语言，所以就是 self-attention。，只需要学习 F里的各个参数，就可以回答你想要的问题。

2024-06-10 19:32:27 1433

原创 YOLOV10主要特点和改进

例如，YOLOv10-S的推理速度比RT-DETR-R18快1.8倍，同时保持了相似的精度。这种策略结合了一对多和一对一的标签分配，消除了在推理过程中对NMS的需求。YOLOv10是YOLO系列算法的最新版本，由清华大学的研究人员开发，它在实时目标检测领域实现了显著的性能提升。：YOLOv10的未来发展包括在速度和精度方面的进一步改进，与物联网的集成，以及开发可扩展的解决方案以实现大规模部署。：YOLOv10全面优化了模型的各个组件，从效率和精度的角度减少了计算冗余，提高了参数的利用效率。

2024-06-09 20:22:01 1867

原创计算机视觉顶会和顶级期刊

International Comference on Computer Vision，国际计算机视觉会议，是公认的三个会议中级别最高的，收录率一般在20%左右，由IEEE主办。【收录论文的内容：底层视觉与感知，颜色、光照与纹理处理，分割与聚合，运动与跟踪，立体视觉与运动结构重构，基于图像的建模，基于物理的建模，视觉中的统计学习，视频监控，物体、事件和场景的识别，基于视觉的图形学，图片和视频的获取，性能评估，具体应用等。一年一次，举办地在美国(除2002年)，录取率25%左右，由IEEE主办。

2024-06-07 19:15:55 3238

原创目标检测YOLO小结：

YOLO-V1将一副448x448的原图分割成了7x7=49个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内是否包含物体的置信度confidence(每个bounding box有一个confidence)，以及该网格包含的物体属于20类别中每一类的概率(YOLO的训练数据为voc2012，它是一个20分类的数据集)。所以一个网格对应一个(4x2+2+20)=30维度的向量。

2024-06-06 19:02:44 844

原创盘点人工智能常见的八种算法

支持向量机是一种分类和回归方法，通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。K最近邻是一种基于实例的学习算法，通过找到与新样本最接近的K个邻居并对它们的标签进行投票来实现分类或回归。K最近邻具有简单和直观的优点，并且在许多问题中都表现出了稳健的性能。逻辑回归是一种用于二元分类的算法，通过将线性回归的输出转换为概率形式，逻辑回归能够在给定自变量的情况下预测一个事件是否发生。神经网络是一种模拟人脑神经元结构的计算模型，通过训练大量的样本数据来学习复杂的模式和关系。和自然语言处理等领域，

2024-06-06 14:07:00 1044

xiao77224li的博客