
人工智能
文章平均质量分 95
whaosoft-143
这个作者很懒,什么都没留下…
展开
-
51c大模型~合集135
例如,为了实现高效的矩阵乘法,英伟达在 Ampere、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局,并且每种布局在使用不同数据类型时都有不同的变体。此外,对于任何偶数线程 𝑡_𝑘,𝑘 的最后一位与 𝑟_0 中 𝑗 的倒数第二位匹配,𝑘 的倒数第二位与 𝑟_0 中 𝑗 的倒数第三位匹配。此外,在 Triton 的编程模型中,张量的维度以及与每个张量相关的布局子部分(例如每个线程的寄存器和线程数量)都被限制为 2 的幂。原创 2025-06-06 00:15:00 · 370 阅读 · 0 评论 -
w~视觉~合集7
既然直接建模实例在整个视频上的表征是困难的,那么是否可以首先在单帧中建模实例,然后逐帧关联实例来获取同一实例在所有帧的表征,最后再对实例的时序信息加以利用。毫无疑问,逐帧关联的难度要比直接关联所有视频帧上的同一实例小得多。在给出时间上良好对齐的实例特征的情况下,有效地对这些特征加以利用也是轻而易举的。我们将 VIS 任务分解为图像分割、物体关联、时序精化三个子步骤,相应的我们分别设计 segmenter、tracker 和 refiner 三个网络模块来处理这三个子步骤。原创 2025-06-05 00:15:00 · 661 阅读 · 0 评论 -
w~扩散模型~合集2
4)方法:本文提出了DatasetDM,一种通用的数据集生成模型,可以生成多样的合成图像以及相应的高质量感知标注。解码器只需使用少于1%(约100张图像)的手动标记图像进行训练,从而实现了无限大的带标注数据集的生成。5)结果:通过所提出方法生成的数据集在各种下游任务中展示了强大的性能,包括语义分割、实例分割和深度估计。项目链接:https://github.com/showlab/DatasetDM https://weijiawu.github.io/DatasetDM_page/2)应用:数据集生成。原创 2025-06-05 00:15:00 · 739 阅读 · 1 评论 -
51c视觉~合集5
进一步看,每个Encoder中的Multi-Head Attention, https://blog.51cto.com/whaosoft/11558615原创 2025-06-04 02:45:00 · 1025 阅读 · 0 评论 -
51c大模型~合集134
在当下主流的 AR / VR 头显中,内置相机往往具备 720 P、1080 P 乃至 1440 P 的拍摄能力,但要想在如此高分辨率的画面上做实例分割,推理延迟常常飙升至数百毫秒甚至秒级,远超人眼在交互中对时延(50–100 ms)所能接受的舒适阈值。Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文哥德尔机(DGM)」:DGM 利用基础模型和开放式算法来创建和评估新的 AI 智能体,并能够读取和修改自身的 Python 代码库以进行自我改进,还通过评估在编码基准上的性能来判断更改是否有效。原创 2025-06-04 00:15:00 · 988 阅读 · 0 评论 -
51c自动驾驶~合集57
多目标多头蒸馏模块:我们看到轨迹模仿学习之后的轨迹还过了其他的MLP,这就是其他头,它的目标也是不一样的,第一个是跟碰撞相关的,第二个是跟行驶区域相关的,第三个是跟舒适度相关的,也就是说不同的评判指标都有一个teacher,之前的模仿学习就是人类的teacher,那么这些teacher是怎么来的呢?本文作者提出的新的范式,就是规划模块是多模的输出,同时,目标也是多样性的,即不仅是GT的轨迹也同时引入了更多的正样本,由不同的专家给出的。还是那句话,小米汽车的成功,是小米价值观,小米模式,和小米方法论的成功。原创 2025-06-03 00:15:00 · 826 阅读 · 0 评论 -
w~大模型~合集8
MIMIC-Diff-VQA 数据集包括 164,654 张图片,和 700,703 问题,含盖 7 种不同的具有临床意义的问题类型,包括异常,存在,方位,位置,级别,类型,和差异。前六种问题和传统 VQA 一致,针对于当前图片提问,只有差异类型问题是针对两张图片的问题。各个问题的比例数据和完整问题列表请分别见图 3 和见表格 1。图 3:MIMIC-Diff-VQA 问题类型的统计数据表 1:每种问题类型的问题示例。原创 2025-06-02 00:15:00 · 1049 阅读 · 1 评论 -
51c多模态~合集6
(a)我们通过预处理和过滤原始视频构建交错视频数据,然后使用从大型 VLM 的有限输出中提炼出的小型 VLM 生成基于时间的字幕。(b)对于网络数据,基于 OmniCorpus [39] 进行构建,并执行两阶段主题选择,然后进行质量过滤和字幕生成,以生成结构化序列。不同数据比例的损失曲线,消融实验在 1.5B LLM 上进行。:生成数据采样比例优化至80%(vs理解数据20%),通过损失曲线分析确定最优混合比例(图5)。,使用分层学习率(生成任务lr=3e-5,理解任务lr=1e-5)缓解优化冲突。原创 2025-06-02 00:15:00 · 771 阅读 · 0 评论 -
w~大模型~合集7
通过借鉴 NLP/CV 领域的想法,生物领域的预训练模型近两年雨后春笋般地冒出来,随着模型计算力的提升和生物数据增长,我们期待更多未知的、惊人的发现出现在这个领域中。尽管仍然存在不少需要继续探索的地方,千亿模型的诞生不仅标志着最前沿的 AI 技术和生物学技术的融合,还意味着一个充满无限可能的未来已经开启。我们期待,这一重量级的模型引领制药领域步入一个新的黄金时代,为人类健康和科学事业开创更加光明的未来。原创 2025-06-01 00:15:00 · 842 阅读 · 0 评论 -
51c扩散模型~合集4
我自己的原文哦~ https://blog.51cto.com/whaosoft/13956122生成性能提升不靠堆参数!基于掩码的扩散模型生成能力增强方法本文提出了一种名为 MaskUNet 的新方法,通过对扩散模型中的 U-Net 参数进行掩蔽,显著提升了图像生成质量。该方法利用时间步和样本依赖的掩蔽策略,动态选择有效的 U-Net 参数,从而提高生成效果,同时保持模型的泛化能力。paper title: Not All Parameters Matter: Masking Diffusion原创 2025-05-31 00:15:00 · 873 阅读 · 0 评论 -
51c大模型~合集133
来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。Linear-MoE 的核心贡献在于构建了一个从 Modeling 到 Training 的完整系统,支持线性序列建模层与 MoE 层的灵活组合,同时兼容传统的 Softmax Attention Transformer 层,支持形成混合架构。唯一的瑕疵就是那莫名飞起的镲,说实话有点出戏。原创 2025-05-31 01:25:21 · 1128 阅读 · 0 评论 -
51c视觉~3D~合集3
其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。我们的目标是跟踪一个3D视频中的3D点。对于其他滑动窗口,其前帧会根据前一个滑动窗口的后帧的估计结果进行初始化,而其后帧会根据前一个滑动窗口的最后一帧估计结果进行初始化。给定一个自动驾驶数据的序列,我们的目标是构建一个帧的RGB-D视频以及第一帧中感兴趣点的3D轨迹。当处理第一个滑动窗口的第一帧时,我们使用查询点的坐标在特征图上进行双线性采样,从而获得第一帧的模板特征。原创 2025-05-30 00:12:26 · 1252 阅读 · 0 评论 -
w~大模型~合集6
受大语言模型进步的启发,研究者开发了一种基于序列的方法,将三角形网格作为三角形序列进行自回归生成。这种方法能生成干净、连贯和紧凑的网格,具有边缘锐利和高保真的特点。研究者首先从大量的 3D 物体网格中学习几何词汇的嵌入,从而能够对三角形进行编码和解码。然后,根据学习到的嵌入词库,以自回归下索引预测的方式训练用于网格生成的 Transformer。为了学习三角形词汇,研究者采用了图形卷积编码器,对网格的三角形及其邻域进行操作,以提取丰富的几何特征,捕捉 3D 形状的复杂细节。原创 2025-05-30 00:11:11 · 1001 阅读 · 0 评论 -
w~视觉~合集6
总体来说,每种模型都有自己独特的优势。这表明模型的选择应取决于目标用例,因为标准性能指标可能会忽略特定任务的关键细微差别。此外,许多现有的基准都来自于 ImageNet,这也会使评估产生偏差。开发具有不同数据分布的新基准对于在更具现实世界代表性的环境中评估模型至关重要。原创 2025-05-29 00:15:00 · 1578 阅读 · 1 评论 -
51c~CUDA~合集1
如何大概预估我们某个op在某个GPU上的。原创 2025-05-29 00:15:00 · 722 阅读 · 0 评论 -
51c大模型~合集132
团队从数据的每个查询 x 中抽取开头词 w,然后构造相应的 SFT 数据对 (Q (w), x),此外,团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),表明没有见过相应的训练数据,这类数据构成的数据对为 (Q (w’),R (w’))。该打分公式的主要思想是,模型拒绝回复的可能性越低,或者模型一直重复某个特定的输出,都表明该开头词更有可能是真实在训练数据中出现的开头词。原创 2025-05-28 04:00:00 · 1679 阅读 · 0 评论 -
51c自动驾驶~合集56
视觉-语言-动作模型(Vision-Language-Action, VLA),通过整合。原创 2025-05-28 00:15:00 · 1625 阅读 · 0 评论 -
51c大模型~合集131
该算法超越了目前广泛使用的 GRPO 等方法,定义了一个更广泛的算法设计空间,能将 PRIME、DAPO 等方法的优点融合入算法框架中,无需蒸馏超大参数规模模型,便实现了轻中量级(7B/32B)模型推理能力的再提升。值得一提的是,研究人员观察到,在基于 InternBootcamp 的多任务混合训练过程中,出现了强化学习的 “涌现时刻”:在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练。原创 2025-05-27 03:45:00 · 1419 阅读 · 0 评论 -
w~自动驾驶~合集2~激光&毫米波雷达
二维(2D)目标检测使用2D box在车辆的视觉图像中选择检测到的障碍物目标,然后对目标进行分类和定位。这里的定位指的是图像中目标的定位,而不是真实世界中目标相对于车辆的定位。在三维(3D)目标检测中,使用3D box定位目标,不仅是图像中确定目标的位置,而且还确定了现实世界中目标的姿态和位置。原创 2025-05-27 00:15:00 · 944 阅读 · 0 评论 -
51c视觉~合集4
红外探测技术具有探测距离远、抗干扰能力强、隐蔽性强和全天候等优势在天基预警、末敏弹制导等领域得到了广泛应用。通过红外成像技术能够得到目标图像从而对目标进行预警、识别和跟踪。在实际场景中,目标图像往往所占像素比例小,信号强度低,容易湮没在背景图像中;背景图像变化剧烈,存在较强的结构信息、边缘和噪声,红外图像信噪比低,目标检测难度较大,一直是目标检测领域的研究难点和热门话题。为提高红外图像弱小目标检测能力,大量的弱小目标检测算法被提出。原创 2025-05-26 00:30:00 · 1505 阅读 · 0 评论 -
51c视觉~合集3
本文结合相关论文介绍了一些半监督目标检测算法,即如何利用大量的 unlabeled data 提升模型的检测性能。什么是半监督目标检测?传统机器学习根据训练数据集中的标注情况,有着不同的场景,主要包括:监督学习、弱监督学习、弱半监督学习、半监督学习。由于目标检测任务的特殊性,在介绍半监督目标检测方法之前,我们查看一下目标检测在这四个方向下的具体设定,如下图所示(不包括无监督学习):图一 目标检测的不同的 setting拥有大规模带标签的数据,包括完整的实例级别的标注,即包含坐标和类别信息;原创 2024-11-04 21:37:56 · 907 阅读 · 0 评论 -
w~大模型~合集5
FLock 的机制设计受到了证明权益(PoS)区块链共识机制和桌面游戏《The Resistance》(一种角色扮演类游戏,该游戏的一个变种叫阿瓦隆)的启发。《The Resistance》游戏则通过投票机制,每轮游戏中玩家独立推理并投票,从而实现全局共识。《The Resistance》有两个不匹配的竞争方,其中较大的一方被称为抵抗力量,另一方被称为间谍。在《The Resistance》中,有一个投票机制,在每一轮中,每个玩家进行独立推理并为一个玩家投票,得票最多的玩家将被视为「间谍」并被踢出游戏。原创 2025-05-26 00:15:00 · 1487 阅读 · 0 评论 -
51c视觉~合集39~OCR
Surya 是多语言文档 OCR 工具包,可进行准确的文本行检测,目前支持 90 多种语言,以及即将推出表格和图表检测功能。开源地址:https://github.com/VikParuchuri/surya。原创 2025-05-25 00:15:00 · 1821 阅读 · 0 评论 -
51c自动驾驶~合集55
我们研究了标记化和表示技术,关注 VLA 对视觉和语言信息的编码。谷歌在 2023 年推出 RT-2,作为里程碑式的 VLA 模型,统一视觉、语言和动作标记,将机器人控制视为自回归序列预测任务,使用离散余弦变换(DCT)压缩和字节对编码(BPE)离散化动作,使新对象处理性能提高 63%。VLA 模型作为多模态人工智能系统,统一视觉感知、语言理解和物理动作生成,使机器人或 AI 智能体通过端到端学习解释感官输入、理解情境并自主执行任务,弥合早期系统中视觉识别、语言理解和运动执行间的脱节,突破其能力限制。原创 2025-05-25 01:30:00 · 1171 阅读 · 0 评论 -
51c大模型~合集130
在后 R1 时代,随着 Search-R1、ReSearch、Deep Researcher 等工作的出现,基于 RL 的智能体自主知识获取工作展现了巨大的前景,KnowSelf 还只是在这个时代之前的初步产物,相信随着技术的发展,基于 RL 的智能体自我认知能迸发更大的活力。与知识增强型基线方法相比,KnowSelf 仅用少量知识,就超越了所有的 100% 知识增强基线方法,充分证明了并非知识越多越好,精准的知识引入机制才是关键。这表明,在许多情况下,智能体并非不能做出正确决策,而是受限于规划模式。原创 2025-05-24 00:30:00 · 3565 阅读 · 0 评论 -
w~大模型~合集4
作者认为,通过合成数据,计算模型在训练过程中获得的知识总量的方法,可以为「评估模型架构、训练方法和数据制备」提供了一套系统且精确的打分体系。这和传统的 benchmark 比较完全不同,并且更可靠。他们希望这能帮助未来 LLM 的设计者做出更明智的决策。原创 2025-05-24 00:15:00 · 1243 阅读 · 1 评论 -
w~自动驾驶~合集13
不吹不黑,个人感觉小米的智驾水平还是可以的,有钱有人但还是需要时间来积淀。目前发布出来的技术也不能说是多么遥不可及,我们都是技术的跟随者不是创新者,就上面这些东西只要有人做过我相信大家搭demo大家都可以做到,从0到60,但是真的能把任何一个技术从80做到90,甚至99都太难了,demo后面的每一步都难如登天。特斯拉已经把路给走通了,剩下的就看大家怎么搞了。加油!为了自动驾驶!冲!原创 2025-05-23 00:15:00 · 1084 阅读 · 1 评论 -
w~视觉~合集5
开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。原创 2025-05-22 00:30:00 · 695 阅读 · 0 评论 -
w~扩散模型~合集1
论文提出了 Hyper-SD,一个统一的扩散模型加速框架,可以显著提升扩散模型的在低步数情况下的生成能力,实现基于 SDXL 和 SD15 的新 SOTA 性能。该方法通过采用轨迹分段一致性蒸馏,增强了蒸馏过程中的轨迹保存能力,实现接近原始模型的生成效果。然后,通过进一步利用人类反馈学习和变分分数蒸馏提升模型在极端低步数下的潜力,从而产生了更优化、更高效的模型生成效果。原创 2025-05-22 00:15:00 · 1140 阅读 · 0 评论 -
w~GPU合集1
在阅读和理解经典的轻量级网络 。https://blog.51cto.com/whaosoft/12330150原创 2025-05-21 02:45:00 · 1884 阅读 · 0 评论 -
w~自动驾驶~合集1
我自己的原文哦~ https://blog.51cto.com/whaosoft/12371169以下分享大模型与自动驾驶结合的相关工作9篇论1、ADAPTADAPT: Action-aware Driving Caption Transformer(ICRA2023)ADAPT提出了一种基于端到端transformer的架构ADAPT(动作感知Driving cAPtion transformer),它为自动驾驶车辆的控制和动作提供了用户友好的自然语言叙述和推理。ADAPT通过共享视频表示联合训练原创 2025-05-20 00:15:00 · 1336 阅读 · 0 评论 -
w~自动驾驶~合集3
在所提出的定制交通仿真管道中,构建了一个轨迹生成函数库来微调LLM,这有助于将用户提示转移到不同的代理轨迹中,包括切入和掉头等动作。此外,该管道包含HDMap生成器,用于仿真背景道路结构。在此阶段,先前生成的代理轨迹充当条件输入,确保生成的HDMap符合流量约束。在下文中,我们将详细介绍LLM的微调过程和HDMap生成器的框架。用于轨迹生成的微调LLM以前的交通仿真方法需要复杂的参数规范,包括代理的速度、位置、加速度和任务目标等细节。原创 2025-05-20 00:15:00 · 1034 阅读 · 0 评论 -
51c大模型~合集129
我自己的原文哦~ https://blog.51cto.com/whaosoft/13918448刚刚!北大校友Lilian Weng最新博客来了学习大模型的优质博客又更新了!最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。文章回顾了近期在如何有效利用测试时计算(即「思考时间」)及其作用机制方面的研究进展,旨在让模型「思考得更久」这一目标可以从多个角度得到合理动机支持。通过观察 GPT、Claude、Gemi原创 2025-05-19 00:15:00 · 1397 阅读 · 0 评论 -
w~深度学习~合集3
畅想一下,在人人都能够部署智能体的世界中,成功经验的数量会随着智能体个体任务执行不断累积,而用户也可以将这些经验在云端中、社区里进行分享。这些经验将促使智能体不断汲取能力,自我进化,逐渐达到完全自主。我们向这样的时代又迈进了一步。原创 2025-05-17 00:15:00 · 954 阅读 · 2 评论 -
51c大模型~合集128
例如,一系列(公认)无法在多项式时间内解决却可在多项式空间内解决的 NP-Complete(如旅行商等等),对于使用有限精度 Transformer 的 CoT 而言至少需要超越多项式(例如 exp (n))规模的上下文长度,在真实应用中由于内存的限制完全不可行;纵观计算机科学的发展历史,这一「随时清理」的理念早已渗透到几乎所有计算模型之中:从最早的图灵机模型中,已读写的磁带符号可以被覆盖或重写,直到现在高级编程语言中,垃圾回收机制会自动清理不再可达的内存单元。随着问题规模增加,两者之间的差距愈发明显。原创 2025-05-16 03:45:00 · 1314 阅读 · 1 评论 -
51c视觉~YOLO~合集3~
超图是图的推广形式,是一种高效的特征表示学习方法。在超图中,一条超边可以连接多个顶点,从而表示对象之间的高阶关联。原创 2025-05-15 03:45:00 · 1127 阅读 · 0 评论 -
w~大模型~合集3
研究者总结了对 AMBER 和 CRYSTALCODER 的观察结果和一些启示。他们表示,预训练是一项计算量巨大的任务,许多学术实验室或小型机构都无力承担。他们希望 LLM360 能够提供全面的知识,让用户了解 LLM 预训练过程中发生的情况,而无需亲自动手。原创 2025-05-13 18:50:36 · 730 阅读 · 0 评论 -
51c大模型~合集127
在实际使用场景中,可能需要传输的数据量本身就不大,只是会偶发出现一些【大数据】传输的情况,因此我们没必要预留更大的shm空间,来应对这些只是偶发情况,这样会造成内存的浪费。(3)对于小数据(<=10MB),vllm使用rpc_broadcast_mq和worker_response_mq来做数据传输,这两个队列的本质是ShmRingBuffer(环形共享缓存),其中Shm即我们熟知的shared_memory,而ring是使用环形的方式往shm中读写数据(看不懂也没关系,我们马上来说细节)。原创 2025-05-12 22:44:29 · 1311 阅读 · 0 评论 -
51c大模型~合集126
让我们跳出不言自明的直觉,反观人类智能,其实人类的交流是一种很神奇的能力,两个上百上千亿神经元的黑盒大脑(而且链接方式也各不相同)居然可以不约而同地共享相同的底层符号化认知——不仅包括语言,还包括一些下意识的公共认知(比如底层的 image segmentation 都是下意识自动完成的),让人们可以直接可以从中层逻辑层面进行交流和对齐。比如,在人脸检测中,神经网络往往建模两个眼睛和一个鼻子之间的交互概念,如果这样的交互概念在训练样本和测试样本上出现的频率是差不多的,那么这个交互概念就是可以稳定泛化的。原创 2025-05-10 12:33:20 · 942 阅读 · 0 评论 -
51c视觉~合集37
一旦我们得到了损失,一切都完全标准化了。原创 2025-05-10 12:30:05 · 704 阅读 · 0 评论