yuquanqiushiji-CSDN博客

原创训练大模型的显卡参数辨析

Tensor Float 32：截短的 Float32 数据格式，将 FP32 中 23 个尾数位截短为 10 bits，而指数位仍为 8 bits，总长度为 19 bits。PCIe：PCIe本身是一种总线协议，这里指的是这种架构的A100只能通过Nvlink Bridge进行两张互联。A100中的A是Ampere（安培体系）首字母，100是系列号，除了A100，还有A800。7 MIG @ 10GB：分为7个实例，每个显存10GB。7 MIG @ 5GB：分为7个实例，每个显存5GB。

2024-04-07 21:08:16 314

原创 20240325 大模型快讯

专注研发无代码游戏引擎的初创公司BuildBox AI，发布了新一代AI游戏引擎——Buildbox 4 Alpha，输入提示即可为游戏添加资产和动画，或者只需几个字就能生成整个场景。清华和微软的研究人员提出了一种全新的数据精炼流程——LLMLingua-2，目的是从大型语言模型（LLM）中提取知识，实现在不丢失关键信息的前提下对提示词进行压缩。初创公司Suno AI推出工具已经引起了音乐圈的大地震，不需要任何乐理知识，只要在框中输入提示，片刻之后，一段完全符合要求的逼真、高保真的音乐片段就开始自动播放。

2024-03-25 22:16:25 532

原创 20240322 大模型快讯

微软发布NaturalSpeech 3，从语音数据的 “表示” 和 “建模” 两个角度出发，高效地实现像人类一样多样化的语音合成，包含不同的说话人、韵律、情感、风格等。理海大学联手微软团队设计一种新型的多AI智能体框架——Mora，通过整合多个SOTA的视觉AI智能体，来复现Sora展示的通用视频生成能力。API开放平台包含三款模型Yi-34B-Chat-0205、Yi-34B-Chat-200K和Yi-VL-Plus。

2024-03-22 23:00:39 559

原创 20240320 大模型快讯

基于Stable Video Diffusion，Stability AI推出3D视频生成大模型「Stable Video 3D」（SV3D），显著提升3D生成的质量和多视角一致性。Cognition公司培养了全球第一个AI程序员Devin，其可以专门从事软件开发，成功地为大型复杂代码库贡献代码，同时替代CEO，与技术团队或外界交流。英伟达推出新一代GPU Blackwell B200，与H100相比性能提升5倍，成本和能耗最低下降25倍，同时还公布AI推理微服务NIM。

2024-03-20 21:26:42 391

原创 20240315 大模型快讯

OpenAI首席技术官 Mira Murati接受采访坦白Sora训练数据部分来源于YouTube和Facebook，具侵犯用户隐私之虞。苹果正式公布多模态大模型研究成果 —— 高达 30B 参数的多模态、由密集模型和混合专家（MoE）变体组成的 LLM 系列MM1。StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题，对未执行的代码段以细粒度优化。世界知名出版集团爱思唯尔近日紧急撤回数篇大模型生成文字或Midjourney生成插图的论文。

2024-03-15 23:36:18 930

原创 20240314 大模型快讯

Swin-Transformer 团队揭示通用预训练下 7B规模的语言模型LLaMA-2-7B在数学问题解决方面已展现较强潜力，并可使用基于合成数据的有监督微调方法稳定激发出数学能力。初创公司Figure联合OpenAI，推出名为Figure 01的机器人，能说会动，能给人类递食物、捡垃圾、收拾碗筷，还能自主推理，给自己布置任务。芯片创业公司 Cerebras发布世界最快芯片WSE-3，拥有高达 4 万亿晶体管，单机可训练比GPT4大10倍的模型。

2024-03-14 22:44:17 447

原创 20240313 大模型快讯

清华大学和阿里安全联合发布的概念半透膜模型，可在 Diffusion 架构的 AI 作图模型中，精准、可控地擦除各类具象或抽象概念，并几乎完全保留无关概念。微软亚研院发布基于字节的Transformer模型bGPT，将不同类型的数据纳入同一框架之下，可以生成文本、图像和音频，模拟计算机行为。Cognition推出AI软件工程师Devin，掌握全栈技能，云端部署、底层代码、改bug、训练和微调AI模型。

2024-03-13 22:58:31 702

原创 20240312 大模型快讯

近日，超讯通信x七火山推出Etna，实现15秒4K 60帧的超逼真效果AI视频，同时和小米、快手展开战略合作，瞄准500亿美元的短剧出海市场。人工智能初创公司 Cohere迎来自家35B大模型「Command-R」的发布，在可扩展、RAG和工具使用三个方面具有显著的优势。OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码，就可快速探索LLM的内部构造。让用户几秒之内可以实现「移花接木」，并在连续生成的图像中保持角色一致性。

2024-03-12 21:00:47 368

原创 20240311 大模型快讯

Pika推出 Sound Effects，可以为 Pika 生成的视频无缝加音效：一种是给出 prompt，描述想要听到的声音；一种是直接根据视频内容自动生成声音。港大研究人员利用大型语言模来学习图形结构数据中复杂的节点关系，有效地去除了噪声连接，从全局视角识别了节点间的依赖关系，为图结构提供了全面的理解。InfLLM在没有引入额外训练的情况下，利用一个外部记忆模块存储超长上下文信息，实现了上下文长度的扩展。

2024-03-11 21:01:14 475

原创 20240306 大模型快讯

Stability AI 发布论文公开与Sora相同的Stable Diffusion 3架构DiT（Diffusion Transformer），为每种模态设置独立的Transformer，但将序列结合起来做注意力运算。初创公司Groq开发专门针对NLP任务的AI处理器LPU（Language Processing Unit），推理速度是英伟达10倍，但是成本和能耗远超英伟达竞品。英伟达在CUDA 11.6版本明确禁止第三方硬件平台通过翻译层运行CUDA。

2024-03-06 21:27:57 497

原创 20240207 大模型快讯

由前Google机器学习工程师Piotr Dabkowski和前Palantir策略分析师Staniszewski于2022年创立的ElevenLabs，专注文生音频AI赛道，完成B轮融资8000万美元，总估值超10亿美元，跻身独角兽行列。借鉴残差学习和可扩展监督，北大团队提出替代RLHF的高效对齐范式Aligner，使用Seq2Seq模型学习答案对齐与未对齐之间的隐式残差，以优化对齐效果。

2024-02-07 22:55:21 443

原创 20240205 大模型快讯

MGIE 由 MLLM 和扩散模型组成。Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法Audio2Photoreal，可直接根据音频生成逼真的全身人像，模拟出原音频中包含的手势、表情、情绪等等细节。制造业AI大模型厂商博瀚智能有限公司发生工商变更，新增海尔集团旗下青岛海创智链工业互联网产业投资基金合伙企业和青岛海创汇能创业投资中心为有限合伙股东。印度数据中心和服务器公司Yotta计划耗资5亿美元，于2025年3月前从NVIDIA采购16000块H100和GH200两种型号的GPU。

2024-02-05 20:07:28 742

原创 20240202 大模型快讯

商汤升级了商量大语言模型、秒画文生图大模型、大语言模型的数据分析版本和医疗版本「大医」等，将LLM通用能力推向多模态领域。在最新版Gemini Pro的加持下，谷歌宣布Bard不仅获得推理、理解、总结、编码能力的迅速飞升，还支持230多个国家的40多种语言，同时Bard还免费集成了文生图模型Imagen 2。为保护大模型预训练得到的参数版权，上海交大联合Lumia设计了一种人类可读的大模型指纹，在不需要公开模型参数的条件下，有效识别各个大模型之间的血统关系。

2024-02-02 20:47:03 1190

原创 20240131 大模型快讯

针对大型视觉语言模型LVLM，来自北大和中山大学的研究者联合提出MoE-Tuning训练策略，可构建LVLM对应的稀疏模型，并维持初始模型性能。Midjourney专门针对动漫风格升级Niji-Journey V6，具有生成细节丰富的动漫人物和相应风格的文字能力，相比V5版本，V6的3D风格图像效果显著提升。江淮全新MPV瑞风RF8上市发布，拥有全球首款搭载AI大模型的MPV智能座舱，支持多指令语音交互，智能语音可以记录用户去过的地点和播放过的音乐等。

2024-01-31 22:44:13 549

原创 20240130 大模型快讯

马里兰大学联合北卡罗来纳大学开源了针对多模态大模型的图像序列的基准测试，图像序列涵盖动漫图像序列、机器人图像序列和真实世界图像序列，GPT-4V和Gemini准确率均低于20%。由ETHz和微软设计的SliceGPT方法，删除大模型权重矩阵中的行和列以减少参数规模，在保持模型性能的同时，大大减少了计算消耗。北大和快手联合攻关，将图像和文字视为同类，借鉴大语言模型的自回归预测方式，成功训练多模态大模型LaVIT。

2024-01-30 22:30:36 714 1

原创 20240129 大模型快讯

哈工大联合快手提出大模型认知迭代机制，给出了相关基准CogBench，并推出大模型驱动的智能体CogGPT，通过动态信息流模拟的信息环境变化以迭代认知。由斯坦福联手OpenAI，元提示让大模型将复杂任务分解成子任务，并分配给相应的专家模型，最终元模型有效整合这些专家模型的响应结果，输出最终的答案。微软的研究团队设计了一种方法，由大模型合成多样化的文本训练数据，可在不到1000步的训练中生成高效准确的文本嵌入。拜登政府提议美国云服务商确定是否有中国实体利用云计算来训练人工智能模型，考虑禁止这种行为。

2024-01-29 22:43:37 556

原创世界如何被认知

对世界的认知正是从感知到抽象的过程。

2024-01-27 23:15:07 684

原创 20240126 大模型快讯

推出gpt-3.5-turbo-0125、“大”/“小文本嵌入模型”text-embedding-3-large/small降本增效；阿里升级多模态大模型至Qwen-VL-Max，在MMMU、MathVista等任务全面领先开源模型，并在文档分析和中文图像相关任务超过GPT-VL和Gemini，成为SOTA多模态模型。方正推出“方正星空出版大模型”，并面向出版、期刊等领域，发布了方正智能编辑助手、方正鸿云AI工具集、方正智能审校V5.0等“智能+”系列工具。

2024-01-26 23:57:45 996 1

原创 20240125 大模型快讯

DeepMind、微软、深势科技和AISI等在2023年大力推动AI4Science发展，得益于跨领域协同和知识层级交织，AI4Science在物化生等自然科学和计算机科学/数学等领域获得显著进步。Google历时7个月，研究提出时空架构，并基于此推出AI视频大模型Lumiere解决一致性和时长问题，效果优于Pika与Gen-2。国内13家AI公司的14款大模型，包括小米的“小爱同学AI助手”、衔远科技“品商”和“摹小仙”大模型等获得备案审批。

2024-01-25 21:50:13 498

原创 20240124 大模型快讯

微软组建大模型研发团队“GenAI”，专业研究推出性能媲美大模型某些方面，参数量显著减小的“小模型”，希望降低成本并在移动设备上AI竞争获取先机。ETHz和Google推出一种3D场景重建方法InseRF，基于用户的自然语言描述和选择的2D边界框，完成3D场景中新物体的自动生成。纽约大学和Meta将图像检测的视觉语言模型和导航控制模块结合一起，部署在基于开源数据训练的模型当中，构建了拾取机器人OK-Robot。

2024-01-24 22:28:49 750

原创 20240123 大模型快讯

上海交大的GAIR实验室基于RAG检索增强技术，提出一种新的大模型价值观对齐方法OPO，无需训练即可实现大模型实时动态对齐法律和道德标准。Google和威斯康星大学联合推出大模型对自己输出进行自评估的方法ASPIRE，根据评估分值筛选答案以解决大模型幻觉问题。由多家高校、医院和科研机构共同研发并发布中医药大模型“数智岐黄”，成为第一个通过中医医师执业资格模拟考试的大模型。Yann LeCun接受采访认为，在像素空间中的生成模型不适合处理视频，其需要的是在表征空间进行预测的基础模型。

2024-01-23 20:30:11 459 1

原创 20240122 大模型快讯

UCLA等研究机构发布具身智能多模态大模型MultiPLY，通过智能体与3D环境交互，在对象检索、工具使用、多感官标注和任务分解的具体任务实验中，性能刷新SOTA。基于Yi语言模型开发的零一万物Yi-VL多模态大模型正式向全球开源，包括34B和6B两个版本，在中英文数据集CMMMU/MMMU均取得领先成绩。基础模型拥有强大的生成、推理和泛化能力，适用于产业界中最具商业价值的任务，例如精准预测和控制、高效优化决策，以及智能化、可交互的工业应用。

2024-01-22 23:09:53 572

原创 20240117 大模型快讯

由ByteDance Research基于开源的多模态语言视觉大模型OpenFlamingo，开发出机器人领域的第一个视觉-语言操作大模型，使用者可通过语言指令直接规划机器人的底层动作序列。山东省港口集团与百度共同探索大模型落地智慧港口实践，百度智能云千帆大模型平台已在智慧港口领域积累智能调度、安全生产、经营管理、司机客服和港口地图等应用经验。基础模型具有强大的推理、生成和泛化能力，适用于商业场景中最具价值的任务，例如精准预测与控制、高效优化决策，以及智能化、可交互的工业模拟。

2024-01-17 21:34:22 585

原创 20240116 大模型快讯

微软发布覆盖全体用户的Copilot Pro，月付费20刀，可使用Office全家桶中的大模型能力，同时有限访问最新的OpenAI大模型。南加大和哈佛大学研究提出方法，可以让文生图的模型借助参考图片，学习对应的视觉属性共性和不同的文本描述分布，基于此无限生成类似且多元的图片。基础模型具有强大的生成、泛化和推理能力，适用于产业界中最具商业价值的任务，如精准预测和控制、高效优化决策，以及智能化、可交互的工业模拟。字节跳动和复旦大学提出，引入可学习的元提示到文生图扩散模型当中，开发其视觉感知能力。

2024-01-16 22:21:30 456 1

原创 20240115 大模型快讯

OpenAI的竞争对手Anthropic研究者发现：在训练过程中给大模型植入欺骗的后门，后期无法通过监督微调等消除，并且模型的参数越大欺骗发生概率越高，加入COT会让欺骗保持得更久。星辰语义大模型具备长文本生成、多轮对话智能问答和基于思维链的插件体系，基于星辰语义基座模型的星辰教育大模型，能够对学生英语作文的快速评分和提出修改建议。基础模型拥有强大的推理、生成和泛化能力，适用于产业界中最具商业价值的任务，如精准预测和控制、高效优化决策，以及智能化、可交互的工业模拟。

2024-01-15 21:41:08 452 1

原创 20240112 大模型快讯

微软亚洲研究院资深首席研究院边江说：“大模型在不同产业中具有巨大的应用潜力，但很多企业对人工智能大模型的应用方式，还局限在智能客服、对话机器人，或者文字、图片的生成。事实上，基础模型拥有强大的推理、生成和泛化能力，适用于产业界中最具商业价值的任务，如精准预测和控制、高效优化决策，以及智能化、可交互的工业模拟。小冰公司基于混合大模型，面向C端用户推出了一款数字克隆人的应用。谷歌和MIT研究发现，可以通过提示工程驱动大模型生成足量的文本、图像或视频等高质量数据，以供其他模型的后续学习训练。

2024-01-12 23:10:09 664 1

原创 20240111 大模型应用快讯

北航、复旦、悉尼大学、港中文等高校与上海人工智能实验室的学者共同推出多模态语言模型开源社区LAMM（Language-Assisted Multi-modal Model），以训练评估多模态大模型，构建具身智能AI Agent。快手提出一种分而治之的召回策略，概要而言，将候选物料按照相似度分成k组，在k组中分别召回，而后进行聚合。科大讯飞推出基于星火大模型的数字员工，可写营销文案、做ppt，还可帮忙评标、管理合同和卖车。//多模态大模型//

2024-01-11 23:22:23 547

原创 20240110 大模型应用快讯

由荣耀出品，研发7B的魔法大模型，通过量化压缩等手段部署在手机端侧运行。魔法大模型加持的MagicOS本质上还是一个智能体，它可以根据用户的意图，例如从用户的短信中预判出差时间地点，智适应调度差旅App，提供订票信息。由无问穹芯、清华大学和上海交大联合推出，基于FPGA部署LLAMA2-7B，解决了大模型稀疏模式带来的计算效率低下，decode阶段导致的低带宽利用率和动态性引发的编译开销大等问题。由网易有道推出，可实现与用户的近实时陪聊，提供口语打分报告和语言表达的AI润色建议和对话提示。

2024-01-10 21:38:13 507

原创 20240109 大模型应用快讯

智能体的核心基础在于环境感知、数据记忆、推理规划和行动系统，钉钉超级助理不仅在这四个领域取得显著优化，在用户自定义创建方面也提供了交互友好的界面。利用LangChain开发的一类典型大模型应用是和自身私有数据进行交互，LangChain为此提供了两个不同的组件——提取和检索。工具使用涉及到集成第三方工具，对齐LLM的响应和工具的输入，定义调用工具的方式；由艾伦人工智能研究所提出，Unified-IO 2模型大小只有7B，但是第一个可以处理文本、图像、音视频和动作序列的模型。

2024-01-09 21:25:06 624

原创 20240108 大模型应用快讯

大模型在代码编制过程中发挥的价值值得期待，很有可能促成机器语言->汇编语言->高级语言->自然语言的发展。由麻省理工提出的StreamingLLM可以增加大模型的上下文长度限制，Colossal-AI团队在此基础上与TensorRT推理优化结合，开源了SwiftInfer，进一步加快推理速度。由初创公司Figure提出，研制了一个通过观看视频学会煮咖啡的机器人Figure 01，机器人通过神经网络来处理和分析视频数据，然后模仿人类煮咖啡的动作。关键技术：多模态大模型、端到端训练。

2024-01-08 20:16:59 493

原创 20240107 大模型应用快讯

由剑桥大学提出，用于开发和评估多语言任务导向系统，其中任务导向系统指的是模拟人类用户和系统代理之间的交互，可作为酒店预订和特定领域问答等助手，是大模型应用方向之一。由Meta和加州大学伯克利分校提出，通过多模态大模型采集对话者的语音，模拟生成其眼神、嘴型和手势等动态图像，提升远程通话的沟通质量。优势：①一个安全、用户友好的网络界面，用于在当地话语层面和全球对话水平进行细粒度的人工评估；由支付宝提出，基于检索增强的大模型推理架构，通过多分支序列输出策略，在精确生成的前提下显著提升推理速度。

2024-01-07 23:45:10 424

原创 20240106 大模型应用快讯

聚焦学术界产业界应用前沿，探索大模型提效赋能现状。

2024-01-06 18:06:22 449 1

yuquanqiushiji的博客