聚焦学术界产业界应用前沿,探索大模型提效赋能现状
-
通过语音生成面部表情和肢体动作
由Meta和加州大学伯克利分校提出,通过多模态大模型采集对话者的语音,模拟生成其眼神、嘴型和手势等动态图像,提升远程通话的沟通质量。
关键技术:多模态大模型、扩散模型、矢量量化
原文:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
论文来源:https://arxiv.org/pdf/2401.01885.pdf
项目地址:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
-
适用于精准推理的加速框架
由支付宝提出,基于检索增强的大模型推理架构,通过多分支序列输出策略,在精确生成的前提下显著提升推理速度。
关键技术:Trie树、检验-接受
原文:Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
论文来源:https://arxiv.org/pdf/2312.12728.pdf
项目地址:https://github.com/alipay/PainlessInferenceAcceleration
-
评估多语言任务导向系统工具集
由剑桥大学提出,用于开发和评估多语言任务导向系统,其中任务导向系统指的是模拟人类用户和系统代理之间的交互,可作为酒店预订和特定领域问答等助手,是大模型应用方向之一。
优势:①一个安全、用户友好的网络界面,用于在当地话语层面和全球对话水平进行细粒度的人工评估;②基于微服务后端,提高效率和扩展性。
原文:Task-oriented dialogue (TOD) systems are de- signed to model interactions between human users and system agents, focusing on accomplishing spe- cific, predefined tasks such as assisting with ho- tel or restaurant bookings, or providing domain- specific FAQ information