&永恒的星河&-CSDN博客

原创 Qwen-VL: 一种多功能的视觉-语言模型，用于理解、定位、文本阅读等

在这项工作中，介绍了 Qwen-VL 系列，一系列大规模的视觉-语言模型（LVLMs），旨在感知和理解文本与图像。

2024-08-12 17:53:54 1949

原创基于LoRA和AdaLoRA微调Qwen1.5-0.5B-Chat

基于LoRA和AdaLoRA微调Qwen1.5-0.5B-Chat

2024-07-31 15:50:23 971

原创 PA3D-基于姿态的3D视频行为识别网络

论文题目：PA3D: Pose-Action 3D Machine for Video Recognition论文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Yan_PA3D_Pose-Action_3D_Machine_for_Video_Recognition_CVPR_2019_paper.pdf今天是大年初二...

2020-01-27 11:34:44 2862 1

原创 U-Net经典卷积分割网络

论文名称：U-Net: Convolutional Networks for Biomedical Image Segmentation论文地址：https://arxiv.org/pdf/1505.04597.pdf最近读了一篇分割方向的文章，这是对FCN(全卷积网络)的改进，论文的题目是《U-Net: Convolutional Networks for Biomedical Im...

2019-09-16 17:09:36 3729 4

原创 T3D基于DenseNet可变时序的3D视频行为识别网络

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification论文地址：https://arxiv.org/pdf/1711.08200最近读了一篇关于行为识别方向的文章《Temporal 3D ConvNets: New Architecture and Transfer L...

2019-08-30 22:36:50 5885 5

原创行为识别之——Two-Stream Convolutional Networks

Two-Stream Convolutional Networks for Action Recognition in Videos论文地址：http://de.arxiv.org/pdf/1406.2199 在目前的研究中行为识别的方法比较多，主要可以分为两类，基于传统的方法和基于深度学习的方法。这两周我读了一篇行为识别论文《Two-Stream Convolutiona...

2019-07-14 12:31:56 6301 2

原创 I3D【Inflated 3D ConvNet】——膨胀卷积网络用于行为识别

I3D:Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 论文地址：https://arxiv.org/pdf/1705.07750.pdf 最近读了一篇行为识别的论文I3D，全名《Quo Vadis,Action Recognition? A New Model ...

2019-07-01 16:46:38 33194 14

原创告别过时预测！最新时序新SOTA：TimeFilter教会模型“选择性失明”

关键步骤在于，模型并不直接使用这个包含噪声的全图，而是通过一个巧妙的混合专家动态路由系统，为每一个片段自适应地筛选出当前时刻最关键的依赖类型——可能是仅关注自身历史（时间依赖），或仅关注同期其他变量（空间依赖），抑或是兼顾两者（时空依赖）。传统方法要么完全忽略通道间关联（通道独立，CI），要么全盘接受所有交互（通道依赖，CD），亦或是通过粗粒度的通道聚类（CC）进行折中，但都无法精细捕捉随时间动态演变的复杂依赖模式。今天空暇时间，给大家介绍一篇最新的时序预测佳作——TimeFilter。

2026-01-02 16:10:59 241

原创从PPO到KTO：大模型后训练的“调教”三剑客，谁更胜一筹？

想象一下，你刚买了一只聪明但未经训练的边牧犬。它天生聪明，能听懂很多指令，但就是不知道什么时候该做什么，甚至可能在你想要安静时狂吠不止。大语言模型在预训练后，就像这只聪明的边牧犬——知识渊博却不懂规矩。后训练技术，就是训练这只“AI边牧”的关键方法。

2025-12-29 21:01:51 343

原创时序预测跨界革命：亚马逊Chronos把时间序列变成了一种“语言”

亚马逊研究团队提出创新性时间序列预训练模型Chronos，通过将时间序列数据转化为离散标记并基于Transformer架构训练语言模型，实现了"时间无关"的时序预测。该框架在42个数据集测试中表现优异：在训练集包含的数据集上显著优于传统方法；面对新数据集时，其零样本预测性能与专用模型相当甚至更优。研究证明Chronos能够利用跨领域时间序列数据提升预测精度，为构建通用时序预测模型提供了新思路。

2025-11-26 20:42:12 412

原创多任务学习必读：超越Shared-Bottom，谷歌MMoE模型原理解析与实战优势

而Google在2018年提出的MMoE（Multi-gate Mixture-of-Experts）模型，通过引入多门控机制和专家网络，巧妙解决了这一难题。它不仅能够自动学习任务间的关联程度，还能根据输入特征动态调整参数共享策略，在保持计算效率的同时显著提升模型性能。接下来，我将深入对这篇论文展开全面解读。和以往一样，我会严格依照论文的结构框架，从研究背景、核心论点、实验设计到最终结论，逐一对文章的各个关键部分进行细致剖析，力求为大家呈现这篇时间序列预测论文的全貌，挖掘其中的研究价值与创新点。

2025-11-15 18:01:44 236

原创超越传统：大型语言模型在文本分类中的突破与代价

本研究通过两种不同分类场景——其一是基于在线发布的职位评论对员工工作地点进行分类（多类别分类），其二是将新闻文章分类为虚假或非虚假（二分类）——系统评估了不同大型语言模型与前沿深度学习及机器学习模型的性能表现。同时，通过衡量各模型在性能（F1分数）与时间（推理响应时间）之间的权衡关系，为每个模型的实际适用性提供了更精细的解读。而在较简单的二分类任务中，基础机器学习模型则展现出更优的效能时间比。结果发现：在复杂的多分类任务中，Llama3和GPT-4的表现甚至优于传统最优模型，但代价是更长的推理时间；

2025-11-01 11:24:11 497

原创因果推断落地：从CausalML到EconML，详解Uplift建模核心库

在精准营销和个性化策略中，核心问题从“预测结果”转向了“衡量因果效应”：我们的干预（如发券、广告）究竟带来了多少增量价值？Uplift模型正是解答这一问题的关键，而诸如CausalML、pylift等专业Python库则提供了强大的实现工具，让我们能够高效地构建模型，识别出真正会被策略影响的用户。接下来，我介绍日常做因果推断常用的Python库。

2025-09-25 20:28:56 374

原创告别静态图谱！TextSSL如何用「稀疏学习」实现更智能的文档分类？

近年来，图神经网络（GNNs）被广泛应用于文档分类任务。然而，现有方法大多基于静态的词共现图且缺乏句子层级信息，这带来了三大挑战：（1）词汇歧义性，（2）词汇同义性，以及（3）动态上下文依赖性。为解决这些挑战，本文提出了一种新颖的基于GNN的稀疏结构学习模型，用于归纳式文档分类。具体而言，首先通过句子级词共现图的不相交并集生成文档级图。该模型通过一组可训练的边连接不同句子间的离散词汇，并采用结构学习机制稀疏地筛选具有动态上下文依赖关系的边。具有稀疏结构的图能够通过GNN联合挖掘文档中的局部和全局上下文信息。

2025-09-17 22:24:36 676

原创突破传统！TextING：用图神经网络为每篇文本「量身定制」关系图谱

文本分类是自然语言处理（NLP）中的基础任务，图神经网络（GNN）近期被应用于该领域。然而现有基于图的方法既无法捕捉单个文档内的上下文词际关系，也无法实现对新词的归纳学习。为克服这些问题，本研究提出TextING——一种基于GNN的归纳式文本分类方法。本文首先为每个文档构建独立图结构，随后利用GNN基于词汇的局部结构学习细粒度词表征，该方法还能有效生成新文档中未见词汇的嵌入表示。最终通过融合词节点表征形成文档嵌入。在四个基准数据集上的大量实验表明，本方法优于当前最先进的文本分类方法。

2025-09-17 14:06:31 434

原创【万字长文】电销意图识别的演进与变革：从TF-IDF到预训练大模型的技术全景

电销对话数据通常采用多轮对话格式，包含客服(bot)和客户(user)的交替发言：bot:您好，我是XX公司的客服，打扰您一下user:嗯，你说bot:我们最近推出了一款新产品，请问您有兴趣了解吗？bot:早上好，这里是XX银行信用卡中心user:你好bot:我们正在推广一款免年费的白金信用卡，您是否有兴趣申请？user:免年费？具体有什么权益？

2025-09-14 23:02:31 197

原创 Timer：打破数据稀缺瓶颈！首个亿级数据预训练时序大模型重磅开源

深度学习显著推动了时间序列分析的进步。然而，在现实世界数据稀缺的场景中，深度模型可能遭遇性能瓶颈——这一问题在当前基准测试中可能被小模型性能饱和的现象所掩盖。与此同时，大模型通过大规模预训练在这些场景中展现出强大能力。随着大语言模型的兴起，持续性的突破不断涌现，它们表现出小规模深度模型所不具备的少样本泛化、可扩展性和任务通用性等前所未有的能力。为改变针对特定场景从头训练小模型的现状，本文致力于早期开发大型时间序列模型（LTSM）。

2025-09-01 11:47:48 808

原创一针见血的改进：GATv2一个改动解决静态注意力缺陷，性能全面超越GAT

GATv2改进GAT静态注意力缺陷，实现动态注意力聚焦。研究发现传统GAT存在本质缺陷：其注意力机制对邻居节点的关注度固定不变，无法根据查询节点动态调整。GATv2通过调整计算顺序，将静态注意力升级为动态注意力机制，使节点能够根据实际需求灵活关注不同邻居节点。实验显示，在12个基准测试中，GATv2在同等参数量下全面超越GAT，证明了动态注意力机制的优越性。这一改进为图神经网络提供了更强大的表达能力。

2025-08-27 16:15:19 1294

原创逆袭当UP主！6款国产AI神器，让静态图片‘活’过来，一键生成爆款视频！

你是否曾经看过那些炫酷的短视频，希望自己也能制作出类似效果，却又被复杂的视频编辑软件吓退？现在，随着AI技术的发展，图片生成视频已经变得非常简单。智小象AI是一款面向全球用户的全能型AIGC创意生成平台，由北京智象未来科技有限公司开发。它提供了非常友好的用户界面，让非专业用户也能轻松上手。无需专业背景，不用掌握复杂技能，只需一款好用的AI工具，你就能让静态图片“动起来”，创作出令人惊艳的视频内容。今天就来给大家介绍6款国内图片生成视频AI工具，让每个人都能成为创意大师！

2025-08-22 14:08:55 882

原创保姆级教程！从论文到代码，手把手复现DCNN在 Cora 数据集的半监督分类

在之前的分享中，我们详细介绍过非谱图卷积网络DCNN的核心原理（具体链接见后文）。DCNN创新性地提出了一种基于转移矩阵的扩散卷积机制，通过计算不同传播阶数的邻接矩阵幂来捕获多跳邻域信息，直接在空间域实现图卷积操作。这种方法摆脱了传统谱方法对图傅里叶变换的依赖，无需进行复杂的矩阵分解，既保留了CNN的局部特征提取优势，又能灵活处理任意拓扑结构的图数据。本文将用PyTorch实现DCNN模型，并在Cora数据集上进行节点分类任务，展示其实际应用效果。

2025-08-20 10:35:58 298

原创保姆级教程！从论文到代码，手把手复现 GCN 在 Cora 数据集的半监督分类

本文使用的数据集是Cora，它是一个经典的机器学习论文分类数据集，由2708篇论文组成，涵盖以下7个类别：基于案例（Case_Based）遗传算法（Genetic_Algorithms）神经网络（Neural_Networks）概率方法（Probabilistic_Methods）强化学习（Reinforcement_Learning）规则学习（Rule_Learning）理论（Theory）数据集中的每篇论文都满足：至少引用或被其他一篇论文引用，构成一个连通性良好的论文引用网络。

2025-08-18 18:06:15 365

原创时序预测新范式：FreTS超越时域限制，开启MLP的频域新时代

时序预测在金融、交通、能源和医疗等不同工业领域发挥着关键作用。尽管现有文献基于循环神经网络（RNN）、图神经网络（GNN）或 Transformer 设计了诸多复杂架构，但另一类基于多层感知机（MLP）的方法凭借结构简单、复杂度低和性能优越等特点脱颖而出。然而，现有多数基于 MLP 的预测方法受限于逐点映射和信息瓶颈问题，严重制约了预测性能的提升。为解决这一难题，本文探索了将 MLP 应用于频域时序预测的新方向。

2025-08-14 13:08:49 651

原创时序预测最新佳作: 颠覆传统！U-Mixer模型用MLP+Unet架构刷新时序预测纪录

时间序列预测是各个领域中的关键任务。由于趋势性、季节性或不规则波动等因素的影响，时间序列往往呈现非平稳特性。这种特性会阻碍特征在深度网络中的稳定传播，破坏特征分布，并加剧数据分布变化的学习难度。因此，现有许多模型难以捕捉潜在规律，导致预测性能下降。本研究通过提出的U-Mixer框架应对时间序列预测中的非平稳性挑战。该框架通过结合Unet和Mixer架构，分别捕捉不同时间片段和通道间的局部时序依赖以规避通道间分布变异的影响，同时融合低层与高层特征以获得全面数据表征。

2025-08-05 16:33:04 877

原创突破Transformer局限！MICN：线性复杂度实现时序预测新高度

但其二次方复杂度存在缺陷，且token对间的计算存在冗余，故降低计算复杂度成为重要研究方向，代表性工作包括：LogTrans（Li et al., 2019b）、Informer（Zhou et al., 2021）、Reformer（Kitaev et al., 2020）、Autoformer（Wu et al., 2021b）、Pyraformer（Liu et al., 2021a）、FEDformer（Zhou et al., 2022）。其中，长期时间序列预测的实际需求正日益增长。

2025-08-04 10:56:36 820

原创 Node2Vec核心原理解析：如何用有偏随机游走实现高效图嵌入？

网络节点与边的预测任务需要精心设计学习算法所使用的特征。近年来，表征学习领域的广泛研究通过自动学习特征本身，在预测自动化方面取得了重大进展。然而，当前的特征学习方法尚不足以充分捕捉网络中观察到的多样化连接模式。本文提出node2vec——一种学习网络中节点连续特征表示的算法框架。在node2vec中，通过学习将节点映射到低维特征空间，最大化保留节点网络邻域的可能性。本文定义了灵活的节点网络邻域概念，并设计了一种有偏随机游走程序，可高效探索多样化的邻域。

2025-07-24 11:52:26 683

原创 LINE：突破DeepWalk局限，双阶建模实现工业级图嵌入

为此，本文提出了一种名为"LINE"的新型网络嵌入方法，该方法适用于任意类型的信息网络：无向/有向/加权网络均可处理。尽管近期少数研究开始探索大规模网络嵌入，但这些方法要么采用非网络专用的间接方法，要么缺乏针对网络嵌入设计的明确目标函数。本文研究将信息网络嵌入低维空间的问题，即将每个顶点表示为低维向量的方法。和以往一样，我会严格依照论文的结构框架，从研究背景、核心论点、实验设计到最终结论，逐一对文章的各个关键部分进行细致剖析，力求为大家呈现这篇时间序列预测论文的全貌，挖掘其中的研究价值与创新点。

2025-07-18 17:58:25 537

原创 DeepWalk：图嵌入领域的Word2Vec时刻

本文提出DeepWalk，一种学习网络中顶点潜在表示的新方法。这些潜在表示将社交关系编码在连续向量空间中，便于统计模型利用。DeepWalk将语言建模和无监督特征学习（即深度学习）领域的最新进展从词序列推广到图结构。DeepWalk通过截断随机游走获取局部信息，将游走序列视作"句子"来学习潜在表示。作者在BlogCatalog、Flickr和YouTube等社交网络的多标签分类任务上验证了DeepWalk的潜在表示能力。

2025-07-17 08:38:58 1000

原创超越谱方法：DCNN如何用扩散卷积提升图神经网络性能？

本文提出了一种针对图结构数据的新模型——扩散卷积神经网络（DCNNs）。通过引入扩散卷积运算，作者展示了如何从图结构数据中学习基于扩散的表征，并将其作为节点分类的有效基础。DCNNs具有多项引人注目的特性：其生成的图数据潜在表征在图同构条件下保持不变；支持多项式时间复杂度的预测与学习过程，可表示为张量运算并高效部署于GPU平台。在多个真实结构化数据集上的实验表明，DCNNs在关系型节点分类任务中的表现优于概率关系模型和图核方法。

2025-07-03 12:55:14 591

原创图神经网络新突破！GCN 如何高效解决半监督节点分类难题？

本文提出了一种可扩展的图结构数据半监督学习方法，该方法基于一种直接在图上运行的高效卷积神经网络变体。通过谱图卷积的局部一阶近似，论证了所选卷积架构的合理性。该模型的计算复杂度与图的边数呈线性关系，其学习的隐藏层表征能够同时编码节点局部图结构及特征。在引文网络和知识图谱数据集上的大量实验表明，提出的方法以显著优势超越了相关基线模型。

2025-06-30 18:16:34 299

原创图神经网络新突破！GCN 如何高效解决半监督节点分类难题？

本文提出了一种可扩展的图结构数据半监督学习方法，该方法基于一种直接在图上运行的高效卷积神经网络变体。通过谱图卷积的局部一阶近似，论证了所选卷积架构的合理性。该模型的计算复杂度与图的边数呈线性关系，其学习的隐藏层表征能够同时编码节点局部图结构及特征。在引文网络和知识图谱数据集上的大量实验表明，提出的方法以显著优势超越了相关基线模型。

2025-06-20 13:03:14 263

原创 NLP意图识别实战：基于POS机客户意向识别全流程解析（附完整Pytorch代码）

标签层级定义标准典型话术特征业务处理策略高意向: 明确需求+询价+询问办理流程。关键词: "怎么签约？如何领取？..."中意向: 比价阶段+模糊需求 "其他家费率多少？关键词："再考虑下；我想想；考虑一下..."。一般意向: 直接拒绝/无需求。关键词："不需要；已有POS机"。后续做意图识别也是基于这3个类别展开的。

2025-06-10 19:43:31 566

原创基于TarNet、CFRNet与DragonNet的深度因果推断模型全解析

这正是因果推断所试图解答的核心挑战，尤其是在无法进行随机对照实验的观测数据中，如何准确估计个体处理效应（Individual Treatment Effect，ITE）变得尤为关键。随着深度学习的崛起，TarNet、CFRNet 与 DragonNet 等神经网络架构被提出，作为一系列创新性的深度因果推断模型，它们在建模处理偏倚、对抗分布不一致以及提升反事实预测准确性方面展现出强大潜力。给定一个人接受或未接受某种干预，我们只能看到一个结果，如何估计未观测到的另一个结果？TarNet：因果预测的基本结构；

2025-06-07 21:23:41 1311

原创深度学习与特征交叉：揭秘FNN与SNN在点击率预测中的应用

预测用户响应，如点击率和转化率，在许多网页应用中至关重要，包括网页搜索、个性化推荐和在线广告。与通常在图像和音频领域中看到的连续原始特征不同，网络空间中的输入特征始终是多字段的，并且大多数是离散和类别型的，而它们之间的依赖关系却鲜为人知。主要的用户响应预测模型要么局限于线性模型，要么需要手动构建高阶组合特征。前者失去了探索特征交互的能力，而后者在庞大的特征空间中带来了沉重的计算负担。

2025-06-03 17:14:19 678

原创 LLMTIME: 不用微调！如何用大模型玩转时间序列预测？

通过将时间序列编码为数字字符串，可以将时间序列预测重新表述为文本中的“下一个 token 预测”问题。在这一思路基础上，本文发现大型语言模型（LLMs），如 GPT-3 和 LLaMA-2，竟然能够在零样本（zero-shot）条件下进行时间序列外推，其表现与为下游任务专门设计的时间序列模型相当，甚至更优。为了实现这种性能，提出了一些方法，用于有效地对时间序列数据进行 token 化，并将模型输出的离散 token 分布转化为对连续数值的高灵活度密度分布。

2025-05-31 18:47:23 927

原创 FiBiNET详解：动态特征重要性与细粒度特征交互的CTR利器

广告投放和信息流排序对于许多互联网公司（如 Facebook 和新浪微博）至关重要。在众多真实世界中的广告与信息流排序系统中，点击率（CTR，Click Through Rate）预测扮演着核心角色。目前该领域已经提出了许多模型，例如逻辑回归、基于树的模型、因子分解机模型以及基于深度学习的 CTR 预测模型。然而，当前许多方法在计算特征交互时较为简单，常采用哈达玛积（Hadamard Product）或内积（Inner Product），并且较少关注特征的重要性。本文提出了一种新模型，命名为FiBiNET。

2025-05-28 09:29:34 1002

informer时间序列预测

对于含有n个内节点的二元树，证明E=I+2n。其中E、I分别为外部和内部路径长度。

16~17的国科大数据挖掘与模式识别期末考试卷子

国科大人工智能2015-2018期末参考答案

大数据作业.pdf

国科大模式识别与机器学习期末真题

极大似然估计方法

国科大高级人工智能2016

空空如也