wuling129-CSDN博客

转载【转】哈工大凸显汉字字形信息的论文，ACL 2025最佳论文Chinese Inertial GAN for Writing Signal Generation and Recognition

哈尔滨工业大学团队提出基于惯性传感器的汉字书写交互新方法，通过捕捉手部动作实现汉字自然输入。为解决训练数据不足问题，团队设计"中文惯性生成对抗网络(CI-GAN)"，由字形编码(CGE)、强制最优传输(FOT)和语义关联性对齐(SRA)三大模块协同运作，使Transformer架构的识别准确率提升至98%。该技术不仅革新中文人机交互方式，更通过字形编码让AI理解汉字内在形态逻辑，为人工智能的符号学习开辟新路径。研究揭示，对非任意性形态符号系统的建模可能是提升AI认知能力的关键。

2025-06-05 10:13:43 18

原创 SCI论文核心框架与写作要素小结

SCI论文写作包含核心框架与关键技巧。论文核心框架包括摘要、引言、文献综述、方法、结果、讨论和结论等部分，每部分需突出创新性和重要发现。写作技巧强调：1）找准研究问题三要素（新颖性、科学价值、可行性）；2）规范管理研究数据；3）掌握基础学术英语表达。注意事项包括界定研究边界、详细描述方法、客观呈现结果等。新手常见问题解答指出，确定新颖性需系统文献综述，结果与讨论要分开，提高接收概率需选合适期刊并突出创新价值。

2025-06-04 21:23:07 963

转载 [转载]PyCharm 接入 DeepSeek

点击左侧“API Keys”，点击创建 API key，输出名称为“AI 代码提示”，也可以使用其它自定义的名称。插件安装成功后，在右侧的标签栏中，会显示一个Continue的标签，我们点击即可进入，随后点击设置按键，如下图。点击“创建"，一定要记录此处的 API key，可以先将 API key 复制在其它地方。打开PyCharm，打开文件->设置->插件，搜索“Continue”，点击安装。随后，我们将两处apiKey替换为先前保存的API key。等待插件安装完毕后，点击“应用”，插件安装成功。

2025-02-17 15:45:55 135

转载 [转载]一文详尽之Embedding（向量表示）！

文本是一类非常重要的非结构化数据，如何表示文本数据一直是机器学习领域的一个重点研究方向。文本向量就是深度学习时代产生的一种文本表示的方法。

2025-01-20 10:47:24 106

转载【转载arXiv 2024】空间和通道协同注意力SCSA，即插即用，分类、检测、分割涨点！

实验结果显示，SCSA在不同检测器和模型大小上均优于其他最先进的注意力机制，例如在Faster R-CNN上，使用ResNet-50时，SCSA的平均精度（AP）提高了1.7%，使用ResNet-101时提高了1.3%。在视觉任务中，注意力机制通过增强表示学习，促进了更具区分性的特征学习，并广泛用于重新分配通道关系和空间依赖性。鉴于现有方法在处理复杂场景时的局限性，本文试图探索空间和通道注意力之间的协同效应，以期提出一种新的注意力机制，该机制能够更好地利用多语义信息，提高模型在各种视觉任务中的表现。

2024-10-30 15:46:18 6270 1

转载 [转载]8种高级特征工程技术

最近工作中需要用到点特征分析来比较方法前后的特征分布对比，关注了下特征工程。本文主要介绍处理数值变量特征工程，将介绍使用Python的Scikit-Learn库、Numpy等工具处理数值的高级特征工程技术，旨在提升机器学习模型的效能。摘要：本文探讨了几种用于数值数据的高级特征工程技术，强调了它们在提高机器学习模型性能方面的关键作用。每种技术都提供了特定的优势，适用于特定类型的数据和问题。最合适的变换选择取决于数据的性质、要解决的问题以及选择的模型。没有一种通用的解决方案，这使得实验和验证变得至关重要。

2024-10-19 16:18:52 276

转载 [转载]特征可视化之t-SNE T 分布随机邻域嵌入

参考博文：1、3、4、（讲解最详细）

2024-10-17 16:22:36 452

转载 [转载]通用的视觉Backbone，TransXNet: 全局动态性+局部动态性=性能强大，代码已开源！

香港大学计算机科学系俞益洲教授(https://www.cs.hku.hk/~yzyu/)及其研究团队开发了一种新型的通用视觉主干网络—TransXNet，该模型同时融合了全局和局部动态性。其创新之处在于引入了一个即插即用的模块，名为Dual Dynamic Token Mixer（D-Mixer）。与以往的卷积和self-attention混合模块或全局与局部信息融合模块不同，D-Mixer专注于动态性的捕捉。

2024-10-16 08:48:59 140

转载 [转载]用物理学革新Transformer注意力：「差分注意力」（differential attention）机制消除注意力噪声

随着近些年来NLP领域研究的不断深入，我们逐渐发现，Transformer架构中出现的幻觉问题，以及各种下游任务中的性能不足，都或多或少与注意力缺陷有关。虽然上下文窗口可以扩展，但是Transformer还是无法真正关注到有价值的信息。最近，微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer，不仅保留了原始Transformer中的可扩展性，也能让模型更加关注上下文中与任务相关的关键信息。

2024-10-15 15:09:05 1507 2

转载 [转载]三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

自注意力机制自2017年在开创性论文《Attention Is All You Need》中被提出以来，已成为最先进深度学习模型的核心，尤其是在自然语言处理（NLP）领域。考虑到其广泛应用，深入理解自注意力的运作机制变得尤为重要。图1：原始Transformer架构在深度学习中，"注意力"概念的引入最初是为了改进递归神经网络（RNNs）处理长序列或句子的能力。例如，在机器翻译任务中，逐字翻译通常无法捕捉语言的复杂语法和表达方式，导致翻译质量低下。

2024-10-13 11:35:21 249

转载 [转载]RT-DETR:和YOLO对实时检测PK

所周知，实时目标检测(Real-Time Object Detection)一直被YOLO系列检测器统治着，YOLO版本更是炒到了v8，前两天百度飞桨的PaddleDetection团队发布了一个名为 RT-DETR 的检测器，宣告其推翻了YOLO对实时检测领域统治。论文标题很直接：《DETRs Beat YOLOs on Real-time Object Detection》，直译就是 RT-DETR在实时目标检测中击败YOLO家族！

2024-10-06 11:13:38 731

转载【转】再读VIT

到此为止，关于VIT模型，我们就介绍完毕了。一顿读下来，你可能有个印象：如果训练数据量不够多的话，看起来VIT也没比CNN好多少呀，VIT的意义是什么呢？这是个很好的问题，因为在工业界，人们的标注数据量和算力都是有限的，因此CNN可能还是首要选择。证明了一个统一框架在不同模态任务上的表现能力。在VIT之前，NLP的SOTA范式被认为是Transformer，而图像的SOTA范式依然是CNN。

2024-10-01 11:44:25 233

转载论文解读：A Survey of the Recent Architectures of Deep Convolutional Neural Networks

深度卷积神经网络（CNN）是一种特殊类型的神经网络，在各种竞赛基准上表现出了当前最优结果。深度 CNN 的超强学习能力主要是通过使用多个非线性特征提取阶段实现的，这些阶段能够从数据中自动学习分层表征。大量数据的可用性和硬件处理单元的改进加速了 CNN 的研究，最近也报道了非常有趣的深度 CNN 架构。近来，深度 CNN 架构在挑战性基准任务比赛中实现的高性能表明，创新的架构理念以及参数优化可以提高 CNN 在各种视觉相关任务上的性能。

2024-09-19 18:10:08 249

转载 [转载]十大数据预处理方法

设定窗口大小 w 和步长 s。

2024-08-21 20:36:21 1358

转载 [转载]nn.CrossEntropyLoss()的具体计算过程

这两天排查代码问题，看到损失具体是如何计算的就看了下。logits 里面保存的是每个样本是哪一类的概率,例如第一个样本的预测结果 tensor([ 0.0815, 0.1693, 0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>)，分别对应于类别【248135label是样本的类别：4。

2024-08-07 17:36:44 288

原创 timm 库介绍

PyTorchImageModels，简称 timm，是一个巨大的 PyTorch 代码集合，旨在将各种 SOTA 模型整合在一起，并具有复现 ImageNet 训练结果的能力。虽然模型架构是 timm 的重点，但它还包括许多数据增强 (data augmentations)、正则化技术 (regularization techniques)、优化器 (optimizers) 和学习率策略 (learning rate schedulers) 的实现。

2024-07-23 11:48:02 1036

转载【转载】没有经过任何的论文写作训练，应该如何写论文？

上面说的第一件事其实也跟ResNet有关：真实历史上的ResNet来自于对GoogLeNet的拆解研究，并不是突然发现了“残差学习”的原理才有了ResNet，而是孙剑老师带领的团队先通过拆解GoogLeNet发现shortcut结构好用后思考出来的解释。我们上面设想的“丐版”写法虽然是反映了真实的研究过程的，却并不利于背后原理的深挖和核心思想的传播。这个实例正好能够支持本文的观点：研究怎么做和论文怎么写，是两码事。

2024-07-19 16:25:12 155

转载【转载】Pytorch高频使用代码集锦

nn.ReLU(),nn.ReLU(),return out继承torch.nn.Module类写自己的loss。

2024-07-19 09:35:54 88

转载【转载】斯坦福开源学术研究神器！storm

STORM 是一个LLM系统，可以根据互联网搜索从头开始编写类似维基百科的文章。虽然该系统无法生成通常需要大量编辑的可发表文章，但经验丰富的维基百科编辑发现它在预写作阶段很有帮助。

2024-07-19 08:42:40 821

转载【转载】Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

具体来说，我们介绍了 Open-Vocabulary SAM，这是一种受 SAM 启发的模型，专为同步交互式分割和识别而设计，利用两个独特的知识迁移模块：SAM2CLIP 和 CLIP2SAM。对各种数据集和检测器的大量实验表明，开放词汇 SAM 在分割和识别任务中的有效性，显著优于简单组合 SAM 和 CLIP 的简单基线。前者通过蒸馏和可学习的Transformer适配器将 SAM 的知识融入到 CLIP 中，而后者则将 CLIP 知识迁移到 SAM 中，增强其识别能力。

2024-07-17 17:47:59 293

转载【转载】YOLO进化史：YOLOv5、YOLOv8 与 YOLOv10 的性能分析与边缘部署探讨！

有点意外这种综述也能发论文。这篇论文全面回顾了YOLO（You Only Look Once）目标检测算法的发展历程，重点关注了YOLOv5、YOLOv8和YOLOv10。作者分析了这些版本在架构改进、性能提升以及适用于边缘部署方面的进展。YOLOv5引入了重要的创新，如CSPDarknet Backbone 网和Mosaic增强，平衡了速度和精度。YOLOv8在此基础上加强了特征提取和 Anchor-Free 点检测，提高了灵活性和性能。

2024-07-14 17:21:03 1118 1

转载【转载】CNN一定比Transformer差吗？LeCun新作：神经网络在实践中的灵活性到底有多大？

人工智能在今天百花齐放，大模型靠规模称王，小模型则凭数据取胜。当然我们也希望，可以付出更少的资源，并达到相同的效果。很早之前，谷歌就有相关研究，探索了在固定算力的情况下，如何分配模型参数量和训练数据量，以达到最好的性能。近日，LeCun参与的一项工作从另一个角度向我们展示了，神经网络在实践中的灵活性到底有多大？论文地址：https://arxiv.org/pdf/2406.11463这个灵活性指的是，神经网络拟合训练数据（样本数量）的能力，在实际应用中受到哪些因素的影响。

2024-07-14 16:41:33 86

转载 [转载]Open-Set Domain Adaptation for Semantic Segmentation

无监督域适应（Unsupervised domain adaptation,UDA）用于语义分割旨在将像素级的知识从带标签的源域传递到未带标签的目标域。然而，当前的UDA方法通常假设源域和目标域之间有一个共享的标签空间，这在目标域可能涌现出新类别的现实世界中限制了它们的应用性。在本文中，作者首次引入了针对语义分割的开放集域适应（Open-Set Domain Adaptation for Semantic Segmentation,OSDA-SS），其中目标域包含未知类别。

2024-07-09 10:30:15 431 1

转载【转载】GitHub：数据增广最全资料集锦

CVer 陆续分享了GitHub上优质的AI/CV资料集锦，如图像分类、目标检测等，之前的分享详见文末。很多同学反映这个系列很棒，因此系列将继续更新。本文将分享的内容是：

2024-06-24 20:56:39 132

转载 [转载]归一化总结和代码实现

数据归一化是一种预处理步骤，就是想要将不同尺度和数值范围的数据转换到统一的尺度上。这个过程通常涉及对原始数据进行调整，使其符合特定的标准，如使数据的范围落在0到1之间或具有标准正态分布的特性。归一化的主要目的是提高算法的性能和精度，特别是在涉及多个特征且这些特征的度量单位或数值范围不同的情况下。下面咱们从代码层面，说说几种不同的归一化方法，以及归一化带来的效果。

2024-06-23 10:24:27 407

原创 Investigating the effectiveness of data augmentation from similarity and diversity: An empirical stu

数据扩充已成为一种广泛采用的技术，用于提高深度神经网络的泛化能力。然而，仅基于模型训练来评估数据增强方法的有效性在计算上要求很高，并且缺乏可解释性。此外，缺乏定量标准阻碍了我们对数据增强方法的潜在机制和新技术的发展的理解。。所提出的相似性度量描述了原始数据集和增强数据集之间的总体相似性，而多样性度量则根据类别量化了原始数据集中和增强数据集中固有复杂性的差异。重要的是，我们提出的措施与模型训练无关，确保了计算的效率。

2024-05-28 08:11:55 1223

转载【转载】AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation

AdaAugment的主要目标是通过对DA（数据增强）强度在训练过程中的自适应调整，来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题，从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架：在训练目标网络的同时，引入了一个策略网络，以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络，无需单独重新训练目标网络，并根据目标网络的训练进度实现增强强度的实时调整。具体来说，策略网络在当前训练周期的样本 Level 上优化这些幅度。

2024-05-27 17:10:53 494 1

转载【转】一文了解Numpy核心语法和代码梳理

Numpy是一个用python实现的科学计算的扩展程序库，包括一个强大的N维数组对象Array；比较成熟的（广播）函数库；用于整合C/C++和Fortran代码的工具包；实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。

2024-05-27 11:14:40 89

原创【论文解读】OpenMix+: Revisiting Data Augmentation for Open Set Recognition

本文指出结构风险与开放空间风险的平衡是开集识别的关键，并将其转化为开集结构风险。这为闭集识别和开集识别之间的一般关系提供了一个新的视角，而不是一般的直觉，即一个好的闭集分类器总是有利于开集识别。具体地说，我们从理论和实验上证明了最近的基于混合的数据增强方法是激进的闭集正则化方法，它以牺牲开放空间风险为代价降低了结构风险。此外，我们还发现，现有的用于降低开放空间风险的负数据扩充也忽略了结构风险和开放空间风险之间的权衡问题，从而限制了它们的性能。提出了一种高效的负数据扩充策略self-mix和相应的OpenMi

2024-05-22 22:01:33 924

转载 [转]万字长文超全总结Pytorch核心操作！

创建自定义神经网络层是PyTorch中常见的做法。# 创建线性层# 创建ReLU激活函数# 创建输出线性层（如果需要的话，例如对于分类任务）# 应用线性变换# 应用ReLU激活函数# 如果需要，可以添加更多的操作，例如另一个线性层return x其中，CustomLayer类继承自nn.Module，并在__init__方法中定义了两个线性层（一个输入层和一个输出层）以及一个ReLU激活函数。

2024-05-14 22:25:31 151

转载 [转]17 种加速 PyTorch 训练的方法

学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性（Cyclical）学习率以及 1Cycle 学习率 schedule。

2024-04-23 09:39:41 298 1

转载 [转]Batch Size对网络模型训练的影响

theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常，这是使用梯度下降来完成的，它计算损失函数相对于参数的梯度，并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度，而不是整个训练数据集。B_k 是从训练数据集中采样的一批，其大小可以从 1 到 m（训练数据点的总数）。这通常称为批量大小为 |B_k| 的小批量训练。

2024-04-22 17:19:42 561

转载深度学习应用篇-计算机视觉-图像增广[1]：数据增广、图像混叠、图像剪裁类变化类等详解

在图像分类任务中，图像数据的增广是一种常用的正则化方法，主要用于增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，常用于数据量不足或者模型参数较多的场景。而对归一后之后的数据进行操作，裁剪的区域会是纯黑或纯白。在 RandAugment 中，作者提出了一种随机增广的方式，不再像 AutoAugment 中那样使用特定的概率确定是否使用某种子策略，而是所有的子策略都会以同样的概率被选择到，论文中的实验也表明这种数据增广方式即使在大模型的训练中也具有很好的效果。结果如图13 所示。

2024-04-21 17:51:13 492

转载【转载】神经网络常见评价指标超详细介绍（ROC曲线、AUC指标、AUROC）

考虑标签label和预测值pred，其数值如下：其散点图如下：怎样才能通过概率得到预测的类别呢？通常我们需要设置一个阈值，这里以0.5为例，当概率大于等于0.5时，分类器认为这个为真实类别；当概率小于0.5时，分类器认为这个不是真实类别，如下图所示：我们可以根据这个图得到当阈值为0.5时的混淆矩阵：实际上阈值可以取[0,1）之间的任意值，理论上可以取无数个混淆矩阵，而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。

2024-04-12 21:18:33 2184

转载 [转载]基于YOLOv9+SAM实现动态目标检测和分割（步骤 + 代码）

在本文中，我们使用YOLOv9+SAM在RF100 Construction-Safety-2 数据集上实现自定义对象检测模型。这种集成不仅提高了在不同图像中检测和分割对象的准确性和粒度，而且还扩大了应用范围——从增强自动驾驶系统到改进医学成像中的诊断过程。通过利用 YOLOv9 的高效检测功能和 SAM 以零样本方式分割对象的能力，这种强大的组合最大限度地减少了对大量再训练或数据注释的需求，使其成为一种多功能且可扩展的解决方案。YOLOv9性能图示YOLOv9模型图。

2024-04-10 16:59:37 499

转载【转载】为什么要做特征归一化/标准化？

原文链接：为什么要做特征的归一化/标准化？Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术，有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性，最常用的2个例子可能是：特征间的单位（尺度）可能不同，比如身高和体重，比如摄氏度和华氏度，比如房屋面积和房间数，一个特征的变化范围可能是[1000, 10000]，另一个特征的变化范围可能是[−0.1,0.2]，在进行距离有关的计算时，单位的不同会导致计算结果的不同，尺度大

2024-04-02 21:20:01 176

转载 [转载]STN：Spatial Transformer Networks 空间变换网络

卷积神经网络缺乏对输入数据保持空间不变的能力，导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性，但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中，作者提出了一种新的可学习模块，STN。这个可微模块可以插入现有的卷积结构中，使神经网络能够根据特征图像本身，主动地对特征图像进行空间变换，而不需要任何额外的训练监督或优化过程。

2024-04-02 10:58:24 295

原创【转载】OpenCV ECC图像对齐实现与代码演示（Python / C++源码）

作者博客地址：https://blog.csdn.net/LuohenYJ 已关注。

2024-04-01 15:44:38 831

转载 [转载]Out-of-distribution Detection

算是第一次正经的调研吧，之前就做过论文复现和 “不成功” 的调研。至于为什么不成功呢？主要因为我是0基础的科研小白，所以对调研目的的认知错误。其实在年前做过一次关于 Out-of-distribution 的调研了，但是为什么现在又花了差不多一周的时间重新做了一次呢？因为我一开始调研的目的是了解一下这个领域，看看有没有可以用于我当前方向的方法（我当前的方向比较新，只能从类似的任务中借鉴）。所以，我第一次调研的时候，就直接把OOD的方法和我当前的方向做比较，如果没有什么关联就跳过。实际上这是错误的一种调研。

2024-03-20 14:49:37 578 1

转载【转载】标注工具Labelimg的安装与使用

我们知道，图片标注主要是用来创建自己的数据集，方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg，重点介绍其安装以及使用的过程。如果想简便，请直接下载打包版本（下载地址见开头），无需编译，直接打开就能用！这款工具是全图形界面，用Python和Qt写的，最牛的是其标注信息可以直接转化成为XML文件，与PASCAL VOC以及ImageNet用的XML是一样的。

2024-03-13 20:00:16 220

详解Vs2008下打包安装程序的一些技巧

编写你自己的单点登录(SSO)服务

css课件 学习CSS很有帮助

空空如也

css课件学习CSS很有帮助