- 博客(181)
- 资源 (7)
- 收藏
- 关注
原创 Qwen-VL: 一种多功能的视觉-语言模型,用于理解、定位、文本阅读等
在这项工作中,介绍了 Qwen-VL 系列,一系列大规模的视觉-语言模型(LVLMs),旨在感知和理解文本与图像。
2024-08-12 17:53:54 1189
原创 PA3D-基于姿态的3D视频行为识别网络
论文题目:PA3D: Pose-Action 3D Machine for Video Recognition论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yan_PA3D_Pose-Action_3D_Machine_for_Video_Recognition_CVPR_2019_paper.pdf今天是大年初二...
2020-01-27 11:34:44 2560 1
原创 U-Net经典卷积分割网络
论文名称:U-Net: Convolutional Networks for Biomedical Image Segmentation论文地址:https://arxiv.org/pdf/1505.04597.pdf最近读了一篇分割方向的文章,这是对FCN(全卷积网络)的改进,论文的题目是《U-Net: Convolutional Networks for Biomedical Im...
2019-09-16 17:09:36 3552 4
原创 T3D基于DenseNet可变时序的3D视频行为识别网络
Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification论文地址:https://arxiv.org/pdf/1711.08200最近读了一篇关于行为识别方向的文章《Temporal 3D ConvNets: New Architecture and Transfer L...
2019-08-30 22:36:50 5499 5
原创 行为识别之——Two-Stream Convolutional Networks
Two-Stream Convolutional Networks for Action Recognition in Videos论文地址:http://de.arxiv.org/pdf/1406.2199 在目前的研究中行为识别的方法比较多,主要可以分为两类,基于传统的方法和基于深度学习的方法。这两周我读了一篇行为识别论文《Two-Stream Convolutiona...
2019-07-14 12:31:56 5966 2
原创 I3D【Inflated 3D ConvNet】——膨胀卷积网络用于行为识别
I3D:Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 论文地址:https://arxiv.org/pdf/1705.07750.pdf 最近读了一篇行为识别的论文I3D,全名《Quo Vadis,Action Recognition? A New Model ...
2019-07-01 16:46:38 29499 14
原创 Ovis: 多模态大语言模型的结构化嵌入对齐
通过创新的视觉标记和嵌入查找表,Ovis有效整合了视觉信息与文本分析,展现出在多模态基准测试中的卓越表现。这一成果不仅推动了多模态模型的发展,也为相关领域的研究提供了重要参考,具有广泛的影响力。今天,我将分享一项重要的研究,Ovis:结构化嵌入对齐用于多模态大语言模型。1.获取公众号接入ChatGPT代码,请回复: #公众号接入ChatGPT。4.获取XGBoost时序预测项目,请回复: #XGBoost时序预测。5.获取常用时序数据集,请回复: #时序数据集。6.获取时序论文集,请回复: #时序论文集。
2024-10-23 14:36:59 345
原创 SegFormer: 一个基于Transformer的高效视觉图像分割算法
今天我分享一篇关于 Transformer 架构在图像视觉分割中的应用的文章,主题是 SegFormer。SegFormer 是一种新颖的语义分割方法,它结合了无位置编码的层次化 Transformer 编码器和轻量级 All-MLP 解码器,避免了传统方法中的复杂设计,实现了高效与高性能的平衡。下面是基于论文整体架构的解读方式,可以帮助逐步剖析SegFormer的核心思想和贡献。完整内容,通过下面的方式获取。
2024-10-18 16:06:39 160
原创 基于神经协同过滤(Neural Collaborative Filtering,NCF)的算法
今天我要分享一篇关于深度学习在推荐系统中应用的经典论文,题为“基于神经协同过滤(Neural Collaborative Filtering,NCF)的算法”。该论文于2017年在 ACM SIGIR 会议上发表,老样子,还是按照论文的章节进行详细解读,详细内容,看下面。
2024-10-14 12:01:09 341
原创 ReAct:谷歌提出的推理与行动结合的语言模型新方法
今天分享一篇论文《SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS》,这篇论文提出了ReAct,ReAct方法由谷歌(Google)在 2022 年提出,并发表在自然语言处理领域的顶级会议之一 NeurIPS(神经信息处理系统会议)上。通过整合思维过程和操作,ReAct 能够应对复杂任务,如多跳问答、事实核查和交互式决策。通过微调和多任务训练扩展 ReAct,结合强化学习,可以进一步释放 LLM 的潜力,应用于更多领域。详细文章,关注卫星公众号,获取。
2024-09-30 11:28:53 149
原创 揭秘FlashAttention:提升注意力计算的速度与内存效率
今天分享一篇论文《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》,2023年发表在NeurIPS大会上。论文提出了一种高效的注意力计算方法,显著减少了内存访问次数,提升了Transformers模型在处理长序列时的速度和内存效率。通过引入IO感知的策略,FlashAttention不仅优化了标准注意力机制的性能,还在多种模型和任务上展示了更好的效果。
2024-09-29 17:21:41 286
原创 从填空到生成:GLM的预训练新视界
今天分享一篇论文GLM,2022年由清华大学、智源研究院、MIT等机构发表在国际会议上。其创新点在于提出了一种通用的预训练框架,利用自回归填空填充目标统一不同任务的预训练目标,并引入混合注意力掩码和2D位置编码,以提升自然语言理解和生成的性能。如今如火如荼的大模型GLM-x系列都是基于GLM架构提出来的。我会按照论文框架对各部分进行详细阐述。
2024-09-29 17:15:59 134
原创 LLaMA: 开源大语言模型的革新者
论文中最引人注目的是,LLaMA-13B在规模比GPT-3小十倍的情况下,性能却超越了GPT-3,而LLaMA-65B的表现也与Chinchilla-70B和PaLM-540B等超大规模模型相竞争。与以往的研究不同,LLaMA系列模型仅使用公开的数据集进行训练,完全不依赖任何专有数据集。论文作者指出,这一开源的做法不仅有助于推动大型语言模型的发展,也为研究社区提供了一个更加透明和可控的研究工具。LLaMA模型的发布,标志着大规模语言模型的发展迈向了一个更加开放和高效的新时代。完整内容,请从下方获取。
2024-09-27 10:43:08 455
转载 今天推荐一个山西境内找对象靠谱的相亲平台
利用独特的相亲信息发布和匹配系统,帮助用户更有效地展示自己,增加被匹配的机会。:严格审核用户信息,保护隐私,通过编号获取联系方式,确保交友环境的安全性。:以低费用或免费方式发布相亲信息,日常群发用户信息,显著提升匹配效率。:通过平台找到幸福的真实故事,激励更多单身朋友勇敢寻找属于自己的缘分。:定期举办线上线下活动,提供更多交友机会,增进用户互动,建立友谊。今天推荐上面一个相亲平台,自己可以去搜。
2024-09-23 18:31:20 51 1
原创 QLoRA 微调Qwen1.5-0.5B-Chat
本文实战使用QLoRA技术微调阿里的Qwen1.5-0.5B-Chat模型,采用single-gpu 进行训练。
2024-08-05 17:32:01 655
原创 多模态视觉大语言模型——LLaVA
本文首次尝试使用GPT-4生成多模态指令数据,并基于这些数据训练了LLaVA(Large Language and Vision Assistant)模型,这是一种结合视觉编码器和语言模型的多模态大模型,用于视觉和语言理解。实验表明,LLaVA在多模态任务上表现优异,与GPT-4结合后实现了92.53%最佳准确率。研究还提供了公开数据、模型和代码,以促进视觉指令跟随领域的研究。
2024-08-01 19:02:23 970
原创 A Survey on Multimodal Large Language Models综述
近期,以GPT-4V为代表的跨模态大型语言模型(MLLM)成为研究热点,它利用强大的大型语言模型(LLM)作为大脑执行跨模态任务。MLLM展现出如基于图像创作故事、OCR-free数学推理等令人惊讶的能力,这在传统跨模态方法中极为罕见,预示着通往通用人工智能的潜在路径。为此,学术界和产业界都在努力开发能与GPT-4V竞争甚至更好的MLLM,以惊人的速度推动研究极限。本文旨在追踪和总结MLLM的近期进展。
2024-07-16 16:01:17 1239
原创 TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
摘要部分介绍了一种名为TableGPT的统一精调框架,它利用大型语言模型(LLMs)实现了通过自然语言输入与表格进行交互的能力。
2023-07-19 23:58:29 1337
原创 Tensorflow C++部署实战-linux平台上C++编译环境建立(3)
Tensorflow C++部署实战-linux平台上C++编译环境建立
2022-08-05 00:23:54 697
原创 Tensorflow C++部署实战-linux平台上python环境建立(2)
Tensorflow C++部署实战-linux平台上python环境建立
2022-08-04 01:02:48 462
原创 Tensorflow C++部署实战-linux平台上cuda环境搭建(1)
Tensorflow C++部署实战-linux平台上cuda环境搭建(1)
2022-08-04 00:11:20 557
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人