大模型
文章平均质量分 87
硅谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
利用注意卸载实现高效、经济的大语言模型推理
24年5月来自清华大学的论文“Efficient and Economic Large Language Model Inference with Attention Offloading”。原创 2024-05-24 07:07:14 · 171 阅读 · 0 评论 -
更快、更轻松的LLMs:当前挑战和未来发展方向
24看2月来自印度几家研究机构的论文“Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward”。原创 2024-05-24 06:16:53 · 341 阅读 · 0 评论 -
高效的生成式大语言模型服务——从算法到系统的综述
23年12月来自CMU的论文“Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems“。原创 2024-05-23 19:08:52 · 799 阅读 · 0 评论 -
点燃语言智能:从思维链推理到语言智体的指南
23年11月论文“Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents“,来自上交、AWS和耶鲁。原创 2024-05-23 18:29:38 · 587 阅读 · 0 评论 -
释放大语言模型中提示工程的潜力:综述
23年10月来自北师范大学-香港浸会大学联合国际学院和北师大的论文“Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review“。原创 2024-05-23 09:40:23 · 723 阅读 · 0 评论 -
高效大语言模型:综述
23年12月来自Ohio State、英国伦敦帝国学院、Michigan State、AWS、谷歌、Boston AI、微软、Michigan大学等的论文“Efficient Large Language Models: A Survey“。原创 2024-05-23 09:17:50 · 651 阅读 · 0 评论 -
高效视觉Transformer的综述:算法,技术和性能基准
23年9月来自悉尼大学的综述论文“A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking“。原创 2024-05-23 08:55:33 · 463 阅读 · 0 评论 -
LightLLM:轻量高速的LLM
LightLLM是一个基于Python的LLM推理和服务框架,以其轻量级设计、易于扩展和高速性能而闻名。原创 2024-05-23 08:23:43 · 179 阅读 · 0 评论 -
DeepSpeed-MII
DeepSpeed-MII (Model Implementations for Inference)是 DeepSpeed 的一个开源 Python 库,旨在使模型不仅低延迟和低成本推理,而且还易于访问。原创 2024-05-23 08:18:19 · 315 阅读 · 0 评论 -
NVIDIA FasterTransformer
NVIDIA FasterTransformer (FT) 是一个用于实现基于Transformer的神经网络推理的加速引擎。它是Transformer高度优化版本的实现,其中包含编码器和解码器部分。原创 2024-05-23 08:12:39 · 519 阅读 · 0 评论 -
Transformer推理的全栈优化:综述
23年2月来自伯克利分校和Nvidia的论文“Full Stack Optimization of Transformer Inference: a Survey“。原创 2024-05-23 08:07:39 · 425 阅读 · 0 评论 -
大基础模型的幻觉问题:综述
23年9月份来自南卡大学的AI研究所的论文“A Survey of Hallucination in “Large” Foundation Models“。原创 2024-05-23 07:28:48 · 666 阅读 · 0 评论 -
大规模深度学习模型的高效训练:综述(下)
介绍23年4月的综述论文“On Efficient Training of Large-Scale Deep Learning Models: A Literature Review“,京东、悉尼大学和中科大的合作。原创 2024-05-23 03:49:44 · 688 阅读 · 0 评论 -
大规模深度学习模型的高效训练:综述(上)
23年4月综述论文“On Efficient Training of Large-Scale Deep Learning Models: A Literature Review“,京东、悉尼大学和中科大的合作。原创 2024-05-23 03:34:00 · 734 阅读 · 0 评论 -
大型深度学习训练的并行分布式训练系统:综述
23年1月UCSD的论文“Systems for Parallel and Distributed Large-Model Deep Learning Training“原创 2024-05-23 03:10:51 · 754 阅读 · 0 评论 -
大语言模型的评估:综述
23年8月来自吉林大学、微软、中科院自动化所、CMU、西湖大学、北大、UIC和香港科技大学等的综述论文“A Survey on Evaluation of Large Language Models“。原创 2024-05-23 00:33:08 · 554 阅读 · 0 评论 -
不仅仅从微调模型中学习:综述
23年10月来自武汉大学、北理工、京东研究院和悉尼大学的综述论文“Learn From Model Beyond Fine-Tuning: A Survey“。原创 2024-05-22 23:12:19 · 482 阅读 · 0 评论 -
综述:LLM的上下文学习ICL
23年6月来自北大、上海AI实验室和UCSB的综述论文“A Survey on In-context Learning“。原创 2024-05-22 22:56:59 · 256 阅读 · 0 评论 -
大语言模型的压缩:综述
23年8月来自国内中科院和人大的综述论文“A Survey on Model Compression for Large Language Models“。原创 2024-05-22 22:21:53 · 242 阅读 · 0 评论 -
综述:带有推理和工具使用能力的增强语言模型
23年6月来自Meta在Transactions on Machine Learning Research的综述论文“Augmented Language Models: a Survey“。原创 2024-05-22 15:31:19 · 411 阅读 · 0 评论 -
思维链(Chain of Thought )推理: 综述
23年9月来自哈工大和华为的论文“A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future“。原创 2024-05-22 15:17:05 · 640 阅读 · 0 评论 -
大语言模型的对齐:综述
23年9月来自天津大学的综述论文“ Large Language Model Alignment: A Survey“。原创 2024-05-22 15:08:41 · 356 阅读 · 0 评论 -
大语言模型的幻觉问题综述
23年9月来自腾讯实验室、TTI和几所大学的大语言模型幻觉综述“Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models“。原创 2024-05-22 14:51:18 · 598 阅读 · 0 评论 -
大模型参数-高效微调方法的指导
23年3月来自美国麻省大学Lowell分校的论文“Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning“。原创 2024-05-22 03:31:24 · 682 阅读 · 0 评论 -
大语言模型指令调优综述
23年8月来自浙江大学、南洋理工和亚马逊等单位的综述“Instruction Tuning for Large Language Models: A Survey“。原创 2024-05-22 02:55:46 · 465 阅读 · 0 评论 -
多模态大语言模型综述
23年6月份科大和腾讯发表的综述论文“A Survey on Multimodal Large Language Models“。原创 2024-05-22 02:50:08 · 370 阅读 · 0 评论 -
大语言模型的可解释性综述
23年9月来自多所大学学者(来自美国和中国)的综述论文“Explainability for Large Language Models: A Survey“。原创 2024-05-22 02:40:42 · 387 阅读 · 0 评论 -
视觉-语言基础模型的提示工程系统综述
23年7月来自牛津大学牵头的几位高校学者撰写的综述论文“A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models“。原创 2024-05-21 22:17:07 · 617 阅读 · 0 评论 -
利用LLM的实践:关于ChatGPT及其它的综述
23年4月份Amazon和TAMU、RICE等学校撰写的LLM实践指导论文“Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond“。原创 2024-05-21 22:08:45 · 864 阅读 · 0 评论 -
各种数据模态的AIGC(人工智能内容生成)方法总结
23年8月新加坡技术和设计大学发表的综述,“AIGC for Various Data Modalities: A Survey“,讨论多种模态的AIGC技术调研。原创 2024-05-21 21:58:35 · 638 阅读 · 0 评论 -
基于大语言模型的自主智体
23年8月份中国人民大学刚刚给的综述论文“A Survey on Large Language Model based Autonomous Agents“,把大语言模型作为自主智体的工作调研,基本是具身智能(Embodied AI)的范畴。原创 2024-05-21 21:46:44 · 667 阅读 · 0 评论 -
决策基础模型:问题,方法和机会
23年3月谷歌牵头几所大学撰写的综述“Foundation Models for Decision Making: Problems, Methods, and Opportunities“,针对的是AI认知而不是感知的能力。原创 2024-05-21 21:31:17 · 390 阅读 · 0 评论 -
Octopus v2: 超级智体的设备端语言模型
24年4月斯坦福大学论文“Octopus v2: On-device language model for super agent”。原创 2024-05-21 04:40:47 · 701 阅读 · 0 评论 -
Octopus: 软件API函数调用的设备端语言模型
24年4月斯坦福和哈佛的论文“Octopus: On-device language model for function calling of software APIs”原创 2024-05-21 04:37:23 · 822 阅读 · 0 评论 -
TradingGPT:带分层记忆和不同性格的多智体系统增强金融交易性能
23年9月Stevens理工学院商学院的论文“tradingGPT: multi-agent system with layered memory and distinct characters for enhanced financial trading performance ”。原创 2024-05-21 04:34:10 · 831 阅读 · 0 评论 -
SAPIEN:由大语言模型支持的情感虚拟智体
23年8月Rochester大学论文“SAPIEN: Affective Virtual Agents Powered by Large Language Models”。原创 2024-05-21 04:30:39 · 766 阅读 · 0 评论 -
大语言模型如何捕捉不断变化的世界知识?近期发展综述
23年10月论文“How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances “,来自悉尼大学、利物浦大学、澳大利亚Wollongong大学和伦敦大学学院。原创 2024-05-21 04:28:03 · 280 阅读 · 0 评论 -
AnyTool: 大规模调用API的自我反思分层智体
24年2月清华、微软和滑铁卢大学大学的论文“AnyTool:Self-Reflective, Hierarchical Agents for Large-Scale API Calls”。原创 2024-05-21 04:24:55 · 587 阅读 · 0 评论 -
UFO: Windows操作系统交互的UI聚焦智体
24年2月微软论文“UFO: A UI-Focused Agent for Windows OS Interaction”。原创 2024-05-21 04:19:51 · 829 阅读 · 0 评论 -
语言模型采用提示进行推理的方法综述
介绍23年ACL(Association for Computational Linguistics)年会来自浙江大学、阿里巴巴和新加坡国立大学的论文“Reasoning with Language Model Prompting: A Survey”。原创 2024-05-21 00:53:20 · 1175 阅读 · 0 评论