腾讯AI Lab与Robotics X 2023年度回顾

感谢阅读腾讯 AI Lab 微信号第 178 篇文章。本文将进行 2023 年度回顾,预祝大家新年快乐!

2023 年,生成式 AI 的崛起,彻底革新了机器理解世界及与人交互的方式。这一年,大模型驱动的创新产品不断涌现,让普通用户深切体会到AI的潜力,促使各行业重新思考和塑造新商业模型。我们正在见证,AI 加速变革生产力与人类生活。

我们相信,随着多模态大模型的发展,主动式 AI,即智能体(agent),将成为现实。它们将以软件 bot、虚拟人和具身机器人形态出现,自主感知环境,提出问题并行动,协助人类完成多样任务。这三类智能体形态将朝向同一目标发展,即通用人工智能。

在此背景下,AI 和机器人领域正面临前所未有的机遇和挑战。作为公司的企业级实验室,腾讯 AI Lab 和腾讯 Robotics X 机器人实验室在 2023 年持续专注于基础研究和应用探索,不断提升智能体的感知、理解、决策和行动能力,并将相关能力落地数字内容生成、生命科学、社交、AI for FEW、AI for Science 等领域,推进虚拟与现实的深度融合。

应用探索

机器人:能走能拿会思考,探索自主智能机器人

机器人作为三类智能体的重要形态之一,在模拟人类行为和完成物理任务方面具有独特优势。面对物理世界的环境变化和不确定性,机器人必须具备自主学习和处理问题的能力,能够自动调整并规划其系统。

感知、灵敏运动、灵巧操控和智能体是机器人实现自主智能的基础,也是腾讯 Robotics X 机器人实验室长期深耕的方向。今年,团队发布了其首个灵巧操作机器人,并探索了具身智能体类人认知和行为的分层智能架构,拓展其在现实场景中的应用潜力。

● 灵巧操作:自研机器人X-Tender。它包含三指灵巧手TRX-Hand和柔性拟人机械臂TRX-Arm,从本体、感知与控制三方面实现技术突破,能够自主完成包括抓放、倒水、抛接、双手协同、精细操作等多种操作技能,有望促进机器人技术在日常生活场景的广泛应用。具体技术解读可参考:腾讯 Robotics X 深度解读灵巧操作最新研究成果:自研灵巧手与拟人机械臂

● 智能体:四足移动机器人Max自主决策系统。通过将前沿的预训练 AI 模型和强化学习技术应用到机器人控制领域,使得Max能够在复杂环境中展现出栩栩如生的运动行为,并且学会障碍追逐比赛的智能策略。具体技术解读可参考:栩栩如生的机器狗,腾讯 Robotics X 用预训练模型和强化学习提升机器狗控制

● 基于物理的角色控制研究:在《Neural Categorical Priors for Physics-Based Character Control》这篇文章中,我们提出了一个新的学习框架以及多个解决方案,在如剑盾击打和双人拳击游戏等复杂任务上,能够控制角色执行具有多样化的策略和逼真性的高质量动作。该论文入选 SIGGRAPH Asia 2023 最佳论文提名。详情:让虚拟人动作更逼真,腾讯研究获国际顶会最佳论文提名

89506e72c6ddfddac1a1c77ba6fa6851.gif7eb9322c8dda315a2705c4e6a2c79b12.gif

虚拟人:多模态、智能化,提升制作效率

虚拟人是三类智能体的核心组成部分之一。为了实现更真实自然的表现,虚拟人从外观、动作、声音到语言及行为交互等各方面,都需要更加精细和逼真。

今年,腾讯 AI Lab 进一步提升虚拟人 PaaS 多模态虚拟人驱动技术。在虚拟人内容生成场景方向,我们持续优化了「视频工厂」的产品力,并在虚拟人 PaaS 上线了能够进行全双工语音对话的数字人管线和数字人剧情演绎功能,为用户提供了专业品质的虚拟人 AI 生成解决方案。

和平精英吉莉宣传视频

在游戏业务场景中,我们完善了智能化和平台化的 PaaS 服务,将逼真的面部及身体 AI 驱动技术,应用在游戏动画、游戏视频等项目上,聚焦游戏局内及局外的离线剧情内容生产。我们的技术相较于传统角色制作管线,实现了 57%-87% 的生产效率提升。

王者荣耀赛年CG动画

AI + 药物:研发先进算法模型,提速药物研发

AI 技术正在成为新药发现的关键动力。腾讯 AI Lab 基于在深度图学习、预训练大模型等领域多年的技术积累,致力于利用先进 AI 算法优化新药研发流程,以应对药物研发周期长和成功率低的难题。今年,实验室在抗体及其复合物结构预测模型分子大模型领域取得进展。

● 自研 tFold 模型于制药场景落地应用[1]今年,团队针对药企多个复杂的制药场景(First-in-class)进行定制化开发,助力合作药企解决在药物研发管线中的具体问题,节省 96% 对无功能抗体进行表达、纯化及功能验证的湿实验成本,同时为企业缩短 75% 的耗时。欢迎试用腾讯云深 iDrug 平台:https://drug.ai.tencent.com/cn‍‍

● 分子优化大模型 DrugAssist[2‍]我们构建了行业首个分子优化指令数据集 MolOpt-Instructions,该数据集涵盖了多种重要的药物分子属性,拥有千万级 Tokens 数据量。同时,我们开发了分子优化大模型 DrugAssist,药物研发人员可通过对话方式交互,完成对候选药物分子成药性优化,这有利于启发药物化学家探索新的化学结构,提高药物研发效率和准确性。DrugAssist 在重点属性上优化成功率超过 7 成,高于传统模型和行业相关大模型。

AI + 内容 / 社交:提升人人交互、人机交互的个性体验

随着社交和内容互动越来越多地转向线上,高效的数据传输、清晰的音频处理、以及智能 NLP 技术等变得至关重要。今年,我们进一步创新这些技术能力,并应用于会议、直播、音乐和小说音频等场景,为用户提供了更加真实自然和个性化的社交与内容体验。

● 业界首创 AI 音幕技术 audiozoom,实现在线会议精准降噪。我们的方法首创了音频屏障,屏障边界更清晰。同时,该方案支持用户自定义调节适应区域,满足不同空间大小、场合和环境的需求,应用更灵活,部署和调试成本更低。目前 audiozoom 已落地腾讯会议天籁 inside 解决方案,提升了线上会议中的语音清晰度。

● 回声消除与降噪一体化小模型,大幅提升通话性能和双讲稳定性[1-3]该技术基于双路压缩技术,大幅降低了计算量并保证了模型的性能,与企业微信团队联合攻关全量落地企业微信PC端,测试结果显示双讲性能大幅优于市场同类方案。

更多技术细节:https://github.com/tencent-ailab/UltraDualPathCompression

● 多乐器多轨道音乐分离技术,提升音乐用户听觉体验[4-8]双通道统一 BSRNN 算法升级为单模型多轨道输出版本,推理速度加速 4.7 倍,分离性能进一步提升,该项技术获得 SDX Challenge 2023 Cinematic Sound Demixing 赛道 B 冠军,并已广泛服务于腾讯各业务场景。

● 小说音频生成管线,提升用户听书的沉浸感。基于文本自动化生成对话角色信息,用多角色 TTS 合成高质量的语音,提升小说播报效果。目前该技术已上线 QQ 浏览器小说播报业务,将原本单一音色小说播报扩充至多角色播报。

● 游戏解说3D运镜模块,创新玩家观赛体验[9-12]融合 NLP 和语音合成技术,腾讯 AI Lab 为《王者荣耀》打造了实时 AI 解说系统,并于今年新推出了 3D 运镜模块。该功能能根据游戏实时局势,自动识别游戏高光内容,智能调节镜头,丰富镜头语言。同时结合 PaaS 化技术,解说系统的迭代速度和游戏适配效率也得到进一步提升。

cdc67b0f014fbfeb03ec79983754156b.gif

●「文涌(Effidit)」[13]智能写作助手能力升级。今年升级的 3.0 版增加了基于大模型的篇章生成、智能摘要、定制化改写等多项功能,并显著提升了智能纠错等已有功能的效果,从可解释(ACL 2023)[14]、鲁棒性(EMNLP 2023)[15]、时效性(EMNLP 2023)[16]三方面提升了文本纠错系统的性能和易用性。部分功能已经接入搜狗输入法(PC 端「智能汪仔」)、腾讯云、腾讯视频、QQ浏览器、微信读书、腾讯智影等产品,日 API 调用量约为 160 万次。

c6180aba1d3f7e85098290098ebcc819.png

AI for FEW:推进可持续发展

FEW:Food(食物)、Energy(能源)、Water(水),它们是人类生存和发展面临的三大基本挑战。今年,腾讯 AI Lab 进一步助力能源领域节能提效。

● IDC数据中心节能:在腾讯公司永顺两个模组的 IDC 数据中心场景中,团队联合腾讯 IDC 部门完成了冷源的AI自动调优。借助时序预测模型和非凸优化技术,实现了节能效率高达 75 万元/MW,全年预计节省电费 73 万元。

● 电网智能排产:开发和部署运筹优化算法,在满足系统安全性、时间、生产线等多种复杂约束条件限制下,探索成本最低、时间最短、人力最优的解决方案。在国家电网天津物资部项目中,我们基于帕累托优化的多目标混合整数规划智能排产算法,利用分支定界技术,将检测总时间缩减 5% 到 10%,AGV 调度总距离减少 10%。

可信 AI:让人工智能更安全可靠

今年,腾讯 AI Lab 可信 AI 团队围绕大模型的安全,可信智能风控等领域持续开展研究,并将相关成果落地于腾讯公益等实际业务,在顶级学术会议例如 NeurIPS,ICML,ICLR 等发表多篇论文。主要工作包括:

● 模型可靠性评估与增强:团队研发了一套基于因果分析和博弈论技术的大模型幻觉及可靠性评估框架,并在此基础上开发了相应的可靠性增强方案,这些方案已被应用于内部的 AIGC 产品自动合规性审计与 QQ 小窝的开放域风险检测,在保证审核质量的前提下,生成评测报告时间相比人工审核缩短 50%。

● 可信智能风控:团队自研了多视角可信图学习方案,并针对跨域风控场景设计了决策捷径消除方案,以提升决策的可靠性。我们与腾讯 SSV 公益平台部合作研发相应风控平台,已上线于腾讯公益场景辅助人工审计,相比基础方案提升 20% 的检测性能。

QQ小窝科普虚拟人-万事通

学术前沿

作为国内领先、世界一流的企业级实验室,腾讯 Robotics X 和腾讯 AI Lab 持续推进前沿科技基础研究,今年做出 100 多项业界领先的学术成果,发表于 AAAI、CVPR、ACL、NeurIPS、EMNLP 等国际顶级 AI 学术会议及 Cell、Nature 子刊等顶级学术刊物。

同时,两大实验室秉承开放合作的理念,继续携手学界智脑面向科技创新开展深度合作。其中,「腾讯AI Lab犀牛鸟专项研究计划」完成第 6 年度闭环,共发表高水平论文超过 60 篇,与高校联合培养数十名优秀学生,并荣获语音信号处理领域顶级会议 Interspeech 2023 最佳学生论文奖;多项科研成果已应用于腾讯交互翻译、AI 药物发现平台「云深」、智能创作助手 「文涌(Effidit)」等 ;同时在黑灰产治理领域落地,为公益平台风险防护保驾护航。

下面将分主题简单梳理腾讯 AI Lab 在 2023 年发布的一些重要研究成果。

机器学习

团队在今年重点推进机器学习技术与科学计算的结合(AI for Science),尤其在生命科学领域取得多项进展。

● 三项空间组学技术成果:分别从细胞类型注释、微环境建模以及数据库三个方面重点突破,并在准确率、数据规模以及方法创新性上均展示了超出业界标准的水平。这些成果分别入选《Nature Methods》和《Nature Communications》等顶级学术期刊,推动了国际学术社区和相关研究的发展。详情:精准医疗、空间组学、细胞图谱,腾讯AI Lab用深度学习助力生命科学研究

● 世界首套单细胞分辨率的猕猴大脑全皮层细胞空间分布图谱:该成果由腾讯 AI Lab 与中国科学院脑科学与智能技术卓越创新中心、华大研究院、临港实验室等机构合作发布,刊登于国际知名学术期刊 Cell(《细胞》)。这一成果对于理解大脑功能、衰老以及脑疾病的产生和发展具有重要意义,是领域内的里程碑进展。详情:中国脑科学研究实现新突破,腾讯AI Lab深度参与

● 蛋白质结构预测发明专利:该发明降低了对蛋白质序列数据库的数据规模要求,以较低的数据库存储与搜索开销,取得与传统方法相仿的蛋白质结构预测精度。我们的方法还提升了蛋白质三维结构的预测精度与计算效率,这对药物研发中的多个问题提供了帮助,如理解蛋白质功能、预测药物与靶点作用效果、优化药物亲和力和特异性等。详情:腾讯提出蛋白质研究AI模型,预测准确率刷新纪录,入选Nature子刊

● 双视图层次图学习模型(HIGH-PPI):团队充分检测人类相互作用组的蛋白质外部和内部,建立强大的机器理解,从而实现PPI预测及推断相关分子细节信息。HIGH-PPI 模型在 PPI 预测中表现出高精确度和良好的鲁棒性,可以通过精确识别重要的结合和催化位点解释PPI的作用模式,为 PPI 研究提供了领域知识驱动和可解释的框架。详情:腾讯AI Lab提出蛋白质研究AI模型,成果入选Nature子刊

● 基于等变图网络的动态物理过程建模[7]针对于表示和模拟复杂物理系统长时间状态这一科学领域基础问题,团队通过引入对非马尔科夫性的建模和基于物理动力学方程的先验信息,对现有的等变图神经网络进行改进,提出了 ESTAG 和 PINGO 模型。针对复杂物理系统建模的问题,ESTAG 在经典分子动力学模拟任务上误差降低达到 84%。针对于长时间物理系统的模拟,PINGO 成功将现有机器学习模拟的时间长度扩展 40 倍不发散。这些探索极大地提升了机器学习模型解决实际物理问题的潜力,有望为解决实际科学问题提供帮助。

视觉计算

一方面,团队以多模态基础模型为目标,探索统一多模态理解和生成的解决方案,追求多模态的推理乃至涌现能力。

● GPT4Tools多模态统一框架:团队率先发布了业界首个可本地部署的 GPT4Tools,通过工具集成实现了多模态理解和生成一体化。成果已发表于NeurIPS 2023。

● SEED多模态原生基础模型:通过自研图像分词器,SEED 模型进行了视觉-文本端到端自回归训练,实现了多模态理解、生成、推理等复杂任务,并展示了多模态涌现能力。

● SEED-Bench 多模态大模型开源评测体系:发布业内最全面的多模态大模型评测基准之一,推动多模态大模型的迭代和领域进展。

另一方面,团队致力研发领先且开源的视频生成基础模型,并搭建故事生成视频的应用框架。

● 开源 VideoCrafter 系列基础模型:核心包括文生视频和图生视频模型。除了视频生成基础模型以外,我们还构建了从数据、模型方法、评测和反馈的完整技术体系。

● EvalCrafter视频评测标准体系:业内首个完整的视频评测标准体系,推动视频内容生成领域的标准化和规范化。

● 故事生成视频技术研究:研究了故事生成视频技术路线,包括 Animate-A-Story(先检索视频后生成),Make-Your-Story(基于已有场景结构控制生成),TaleCrafter(先图片生成,后图生视频)和 Celeb-Basis(多角色人物ID注入)等,部分成果发表于SIGGRAPH ASIAN 2023和NeurIPS 2023。

团队持续探索神经网络渲染及其相关应用的前沿研究,并基于此搭建了场景及虚拟人混合渲染的应用框架。

● 场景重建:团队提出了一种 Level-of-detail 的隐式神经网络表达模型,实现了高质量的几何重建[11],团队基于高质量几何结果,首次提出了隐式辐射场光照模型,解耦高质量材质信息,并实现数字资产和神经辐射场间的混合渲染[12]。

● 人体建模:团队利用神经网络表达 UV 纹理,以此实现人体建模,并实现了纹理编辑和动作驱动[13]。团队利用 2D 生成先验和 3D 重建先验,进行更好的 3D 人体形状和纹理生成[14]。

● 人脸重建:团队提出了开源大模型 FFHQ-UV,从 in-the-wild 人脸图片提取 UV 纹理数据,并基于此训练神经纹理基[15]。团队利用神经点云的灵活性和 UV position map 的约束,得到高质量、快速的照片真实人头渲染结果[16]。

语音技术

今年,腾讯 AI Lab 在提高语音技术准确性、降低计算成本、提升表现力等多个方面取得多项进展。

● 语音大数据自处理与自标注[1,2]为解决语音技术发展中的数据不足问题,我们提出了 AutoPrep 语音自动处理框架,对大规模低质量无标注语音数据进行自动化音频分割,音质增强,说话人标注,质量筛选,并产生文本与情感标注。显著提升了包括语音合成, 说话人识别等下游任务的性能。相关文章被 ICASSP 2024,AAAI 2024 接收。

● 数据仿真[3-5]我们研发了 FRAM-RIR 高效房间冲激响应仿真工具,优化了传统 RIR 仿真工具速度慢、与真实 RIR 存在误差的问题,使得混响仿真与模型训练管线从离线仿真走向全面在线仿真,提高了模型训练效率与泛化能力。成果被 Interspeech 2023 接收,相关工具已开源:https://github.com/tencent-ailab/FRA-RIR

● 语音合成[6]我们与清华大学合作研究,引入 DDPM 构建了一种生成式的语音韵律表征预测工具,有效避免了过平滑问题,提升了对人类语音风格分布的拟合效果,显著增强了合成语音的表现力;同时该方法的预测结果具备多样性,提高了合成语音与真人表达习惯的相似度。相关成果被 Interspeech 2023 接收。更多细节请浏览:清华-腾讯AI Lab INTERSPEECH 2023最佳学生论文解读

自然语言处理

结合大语言模型技术,今年团队取得了多智能体辩论、机器翻译、语言模型架构创新篇章级翻译等创新技术进展,以期提升人类的生活便捷性和工作效率。

2023年,腾讯 AI Lab 自然语言处理团队在一流的国际会议和期刊上发表了 40 多篇 NLP 方向的学术论文。其中,论文《Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations》和《IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions》被国际顶级会议 EMNLP 2023 评为杰出论文。详情:EMNLP 2023 | 腾讯AI Lab两项研究获杰出论文奖

● 多智能体辩论框架 MAD:提出了基于大语言模型的多智能体辩论 Multi-Agent Debate(MAD)框架[1],通过让多个大模型智能体在复杂任务(如翻译、数学推理)中依次表达观点并辩论,总结出最终答案。这一框架为大语言模型在理解和解决复杂问题方面提供了有力支持,并为决策制定过程带来新视角。

● 基于大语言模型的机器翻译:率先对 ChatGPT/GPT-4 等闭源大模型的翻译能力进行评测,包含提示格式、多语言能力、鲁棒性等多个维度;提出桥接提示方法,显著提升低资源语种间翻译质量。评测报告一年内获谷歌学术引用 340 多次[2]。同时,率先开发了针对翻译任务的指令微调框架,显著提升开源大模型的翻译能力。成果已被 EMNLP 2023 接收[3]。另外提出一套多粒度知识提示与选择框架,帮助大模型自适应地识别和翻译特定领域文本,有效降低幻觉现象、提高翻译质量。成果已被 TACL 2024 接收[4]。

● 语言模型架构创新:提出了「检索即生成」框架,用短语检索替代传统的 token 生成,提高了模型的可解释性和可扩展性,生成内容有据可查,知识更新即插即用。在知识密集型问答任务和开放式文本生成方面的表现均优于传统模型。成果已被 ICLR 2023 接收[5]。

● 篇章级翻译研究:首次探索利用大型语言模型进行篇章级翻译的可能性,通过篇章感知提示策略和语言学探针方法,全面对比不同翻译系统性能,并提出了适用于长文本的外推方法,尤其在文学书籍等超长文本场景中性能明显提升。成果已被 ACL 2023 和 EMNLP 2023 接收[6,7]。此外,联合阅文集团成功举办首届 WMT (国际机器翻译大赛) 篇章级文学翻译比赛,向学术界开放百万级有版权的小说数据[8]。

总结与展望

展望未来,腾讯 AI Lab 和腾讯 Robotics X 机器人实验室将持续深入钻研人工智能和机器人技术,努力将各种形态的智能体融入到人们的生活和工作中,以创新的视角去解决复杂科技问题,激发更多的创新灵感,创造更美好的世界。

2024 年,新年快乐!

附录:论文链接

机器人

[1] Lei Han, Qingxu Zhu, Jiapeng Sheng, Chong Zhang, Tingguang Li, Yizheng Zhang, He Zhang, Yuzhen Liu, Cheng Zhou, Rui Zhao, Jie Li, Yufeng Zhang, Rui Wang, Wanchao Chi, Xiong Li, Yonghui Zhu, Lingzhu Xiang, Xiao Teng, Zhengyou Zhang. Lifelike Agility and Play on Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models. arXiv preprint arXiv:2308.15143, 2023.

[2] Qingxu Zhu, He Zhang, Mengting Lan, Lei Han. Neural Categorical Priors for Physics-Based Character Control. ACM Transactions on Graphics (TOG), 2023.

[3] Tingguang Li, Yizheng Zhang, Chong Zhang, Qingxu Zhu, Jiapeng sheng, Wanchao Chi, Cheng Zhou, Lei Han. Learning Terrain-Adaptive Locomotion with Agile Behaviors by Imitating Animals. International Conference on Intelligent Robots and Systems (IROS), 2023.

[4] Rui Zhao, Xu Liu, Yizheng Zhang, Minghao Li, Cheng Zhou, Shuai Li and Lei Han. CraftEnv: A Flexible Collective Robotic Construction Environment for Multi-Agent Reinforcement Learning. International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2023.

[5] Honghua Dong, Jiawei Xu, Yu Yang, Rui Zhao, Shiwen Wu, Chun Yuan, Xiu Li, Chris J. Maddison, Lei Han. MeGraph: Capturing Long-Range Interactions by Alternating Local and Hierarchical Aggregation on Multi-Scaled Graph Hierarchy. Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS), 2023.

[6] Jiawei Xu, Shuxing Li, Rui Yang, Chun Yuan, Lei Han. Efficient Multi-Goal Reinforcement Learning via Value Consistency Prioritization. Journal of Artificial Intelligence Research (JAIR), 2023.

[7] Huiqi Zhao, Yizheng Zhang, Lei Han, Weiqi Qian, Jiabin Wang, Heting Wu, Jingchen Li, Yuan Dai, Zhengyou Zhang, Chris R. Bowen, Ya Yang. Intelligent Recognition using Ultralight Multifunctional Nano-layered Carbon Aerogel Sensors with Human-like Tactile Perception. Nano-Micro Letters, 2023.

[8] Wenbin Hu, Bidan Huang, Wang Wei Lee, Sicheng Yang, Yu Zheng, Zhibin Li, "Dexterous in-hand manipulation of slender cylindrical objects through deep reinforcement learning with tactile sensing," arXiv:2304.05141, 2023.

[9] Cheng Zhou, Wentao Gao, Weifeng Lu, Yanbo Long, Sicheng Yang, Longfei Zhao, Bidan Huang, Yu Zheng, "A unified trajectory generation algorithm for dynamic dexterous manipulation," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2023.

[10] Cheng Zhou, Yanbo Long, Lei Shi, Longfei Zhao, Yu Zheng, "Differential dynamic programming based hybrid manipulation strategy for dynamic grasping," IEEE International Conference on Robotics and Automation (ICRA), 2023.

[11] Linhan Yang, Bidan Huang, Qingbiao Li, Ya-Yen Tsai, Wang Wei Lee, Chaoyang Song, Jia Pan, "TacGNN: Learning tactile-based in-hand manipulation with a blind robot using hierarchical graph neural network," IEEE Robotics and Automation Letters, 2023, doi: 10.1109/LRA.2023.3264759.

[12] Lipeng Chen, Xiangchi Chen, Wanchao Chi, Yu Zheng, "A Learning Framework for Human-Like Time Parameterization of Robot Manipulation Paths," IEEE-RAS International Conference on Humanoid Robots (Humanoids), 2023.

[13] Qiguang Lin, Chaojie Yan, Qiang Li, Yonggen Ling, Wangwei Lee, Yu Zheng, Zhaoliang Wan, Bidan Huang, and Xiaofeng Liu, "Tracking object’s pose via dynamic tactile interaction," International Jounral of Humanoid Robots, 2023, doi: 10.1142/S0219843623500214.

[14] https://tencent-roboticsx.github.io/NCP/

[15] Qingxu Zhu, He Zhang, Mengting Lan, and Lei Han. 2023. Neural Categorical Priors for Physics-Based Character Control. ACM Trans. Graph. 42, 6, Article 178 (December 2023), 16 pages. https://doi.org/10.1145/3618397

虚拟人

[1] Weiyu Li, Xuelin Chen, Peizhuo Li, Olga Sorkine-Hornung, and Baoquan Chen. Example-based Motion Synthesis via Generative Motion Matching. ACM Transactions on Graphics (SIGGRAPH), 2023

[2] Zhiyang Dou, Xuelin Chen, Qingnan Fan, Taku Komura, and Wenping Wang. C· ASE: Learning Conditional Adversarial Skill Embeddings for Physics-based Characters. ACM SIGGRAPH Asia, 2023.

[3] Zejia Su, Qingnan Fan, Xuelin Chen, Oliver Van Kaick, Hui Huang, and Ruizhen Hu. Scene-Aware Activity Program Generation with Language Guidance. ACM Transactions on Graphics (SIGGRAPH Asia), 2023

[4] Yihao Zhi, Xiaodong Cun, Xuelin Chen, Xi Shen, Wen Guo, Shaoli Huang, and Shenghua Gao. LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation. IEEE/CVF International Conference on Computer Vision (ICCV), 2023

[5] Gaoge Han, Shaoli Huang, Mingming Gong, and Jinglei Tang. HuTuMotion: Human-Tuned Navigation of Latent Motion Diffusion Models with Minimal Feedback. AAAI, 2023

[6] Jiaxu Zhang, Junwu Weng, Di Kang, Fang Zhao, Shaoli Huang, Xuefei Zhe, Linchao Bao, Ying Shan, Jue Wang, and Zhigang Tu. Skinned Motion Retargeting with Residual Perception of Motion Semantics & Geometry. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023

[7] Fang Zhao, Zekun Li, Shaoli Huang, Junwu Weng, Tianfei Zhou, Guo-Sen Xie, Jue Wang, and Ying Shan. Learning Anchor Transformations for 3D Garment Animation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023

[8] Zhengdi Yu, Shaoli Huang, Chen Fang, Toby P. Breckon, and Jue Wang. ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand Reconstruction. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023

[9] Zhifeng Lin, Changxing Ding, Huan Yao, Zengsheng Kuang, and Shaoli Huang. Harmonious Feature Learning for Interactive Hand-Object Pose Estimation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023

[10] Bao L, Zhang H, Qian Y, et al. Learning Audio-Driven Viseme Dynamics for 3D Face Animation[J]. arXiv preprint arXiv:2301.06059, 2023.

[11] P. Cheng*, Y. Yang*, J. Li*, Y. Dai, and N. Du, Adversarial Preference Optimization, arXiv preprint arXiv:2312.07401, 2023

[12] Zeng, D., Dai, Y., Cheng, P., Hu, T., Chen, W., Du, N. and Xu, Z., On Diverse Preferences for Large Language Model Alignment. arXiv preprint arXiv:2312.07401, 2023

AI+药物

[1] Wu, J., Wu, F., Jiang, B., Liu, W. and Zhao, P., tFold-Ab: Fast and Accurate Antibody Structure Prediction without Sequence Homologs. Machine Learning for Structural Biology Workshop, NeurIPS 2022.

[2] Geyan Ye, Xibao Cai, Houtim Lai, Xing Wang, Junhong Huang, Longyue Wang, Wei Liu & Xiangxiang Zeng. (2023). DrugAssist: A Large Language Model for Molecule Optimization. 10.13140/RG.2.2.13421.77281. 

AI+内容/社交

[1] H Chen, J Yu, Y Luo, R Gu, W Li, Z Lu, C Weng,  Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression, INTERSPEECH 2023

[2] H Chen, J Yu, C Weng,  Complexity Scaling for Speech Denoising, accepted by ICASSP 2024

[3] https://github.com/tencent-ailab/UltraDualPathCompression

[4] Y Luo, J Yu, “Music source separation with band-split RNN,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[5] J Yu, H Chen, Y Luo, R Gu, C Weng, “High Fidelity Speech Enhancement with Band-split RNN,” in INTERSPEECH 2023. ISCA, 2023, pp. 2483–2487

[6] J Yu, Y Luo, “Efficient monaural speech enhancement with universal sample rate band-split RNN,” in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1–5

[7] S. Uhlich, et al. "The sound demixing challenge 2023–cinematic demixing track." arXiv preprint arXiv:2308.06979 (2023).

[8] K. Li, Y. Luo, “Subnetwork-to-go: Elastic Neural Network with Dynamic Training and Customizable Inference,” to appear in 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024.

[9] Zeng D, Dai Y, Cheng P, et al. On Diverse Preferences for Large Language Model Alignment[J]. arXiv preprint arXiv:2312.07401, 2023.

[10] Cheng P, Yang Y, Li J, et al. Adversarial Preference Optimization[J]. arXiv preprint arXiv:2311.08045, 2023.

[11] Cheng P, Xie J, Bai K, et al. Everyone deserves a reward: Learning customized human preferences[J]. arXiv preprint arXiv:2309.03126, 2023.

[12] Xie J, Cheng P, Liang X, et al. Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers[J]. arXiv preprint arXiv:2308.13191, 2023.

[13] Shuming Shi, Enbo Zhao, Wei Bi, Deng Cai, Leyang Cui, Xinting Huang, Haiyun Jiang, Duyu Tang, Kaiqiang Song, Longyue Wang, Chenyan Huang, Guoping Huang, Yan Wang, and Piji Li. 2023. Effidit: An Assistant for Improving Writing Efficiency. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)

[14] Yuejiao Fei, Leyang Cui, Sen Yang, Wai Lam, Zhenzhong Lan, Shuming Shi. 2023.

Enhancing Grammatical Error Correction Systems with Explanations. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

[15] Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi. 2023. RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

[16] Yu Zhang, Yue Zhang, Leyang Cui, Guohong Fu. 2023. Non-autoregressive Text Editing with Copy-aware Latent Alignments. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

AI for FEW

[1] Zixuan Liu, Liu Liu, Bingzhe Wu, Lanqing Li, Xueqian Wang, Bo Yuan, Peilin Zhao: Dynamics Adapted Imitation Learning. Transactions on Machine Learning Research.

[2] Ziniu Li, Ke Xu, Liu Liu, Lanqing Li, Deheng Ye, Peilin Zhao: Deploying Offline Reinforcement Learning with Human Feedback. CoRR abs/2303.07046 (2023)

[3] Zixuan Liu, Liu Liu, Xueqian Wang, Peilin Zhao: Differentiable Frank-Wolfe Optimization Layer. CoRR abs/2308.10806 (2023)

可信 AI

[1] Zeyu Cao, Zhipeng Liang, Bingzhe Wu, Shu Zhang, Hangyu Li, Ouyang Wen, Yu Rong, Peilin Zhao: Privacy Matters: Vertical Federated Linear Contextual Bandits for Privacy Protected Recommendation. KDD 2023: 154-166

[2] Liang Chen, Yang Deng, Yatao Bian, Zeyu Qin, Bingzhe Wu, Tat-Seng Chua, Kam-Fai Wong: Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators. EMNLP 2023: 6325-6341

[3] Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu:Fairness-guided Few-shot Prompting for Large Language Models. NeurIPS (2023)

[4] Zhen Zhang, Mengting Hu, Shiwan Zhao, Minlie Huang, Haotian Wang, Lemao Liu, Zhirui Zhang, Zhe Liu, Bingzhe Wu:E-NER: Evidential Deep Learning for Trustworthy Named Entity Recognition. ACL (Findings) 2023

[5] Qichao Wang, Huan Ma, Wentao Wei, Hangyu Li, Changqing Zhang, Peilin Zhao, Binwen Zhao, Bo Hu, Shu Zhang, Bingzhe Wu, Liang Chen: Attention Paper: How Generative AI Reshapes Digital Shadow Industry? ACM TUR-C 2023: 143-144

[6] Haotian Wang, Zhen Zhang, Mengting Hu, Qichao Wang, Liang Chen, Yatao Bian, Bingzhe Wu: RECAL: Sample-Relation Guided Confidence Calibration over Tabular Data. EMNLP (Findings) 2023: 7246-7257

[7] Tao Yang, Tianyuan Shi, Fanqi Wan, Xiaojun Quan, Qifan Wang, Bingzhe Wu, Jiaxiang Wu: PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection. EMNLP (Findings) 2023: 3305-3320

[8] Jie Liao, Jintang Li, Liang Chen, Bingzhe Wu, Yatao Bian, Zibin Zheng:

SAILOR: Structural Augmentation Based Tail Node Representation Learning. CIKM 2023: 1389-139

机器学习

[1] Shen R, Liu L, Wu Z, et al. Spatial-ID: a cell typing method for spatially resolved transcriptomics via transfer learning and spatial embedding[J]. Nature Communications, 2022, 13(1): 7640.

[2] Yuan Z, Li Y, Shi M, et al. SOTIP is a versatile method for microenvironment modeling with spatial omics data[J]. Nature Communications, 2022, 13(1): 7330.

[3] Yuan Z, Pan W, Zhao X, et al. SODB facilitates comprehensive exploration of spatial omics data[J]. Nature Methods, 2023, 20(3): 387-399.

[4] Chen A, Sun Y, Lei Y, et al. Single-cell spatial transcriptome reveals cell-type organization in the macaque cortex[J]. Cell, 2023, 186(17): 3726-3743.

[5] Gao Z, Jiang C, Zhang J, et al. Hierarchical graph learning for protein–protein interaction[J]. Nature Communications, 2023, 14(1): 1093.

[6] Wu L, Hou Z, Yuan J, et al. Equivariant Spatio-Temporal Attentive Graph Networks to Simulate Physical Dynamics[C]//Thirty-seventh Conference on Neural Information Processing Systems. 2023.

[7] Yang Liu, Jiashun Cheng, Haihong Zhao, Tingyang Xu, Peilin Zhao, Fugee Tsung, Jia Li, Yu Rong: Physics-Inspired Neural Graph ODE for Long-term Dynamical Simulation. CoRR abs/2308.13212 (2023)

视觉计算

[1] Yang, R., Song, L., Li, Y., Zhao, S., Ge, Y., Li, X., & Shan, Y. (2023). Gpt4tools: Teaching large language model to use tools via self-instruction.

[2] Ge, Y., Ge, Y., Zeng, Z., Wang, X., & Shan, Y. (2023). Planting a seed of vision in large language model.

[3] Ge, Y., Zhao, S., Zeng, Z., Ge, Y., Li, C., Wang, X., & Shan, Y. (2023). Making llama see and draw with seed tokenizer.

[4] Li, B., Wang, R., Wang, G., Ge, Y., Ge, Y., & Shan, Y. (2023). Seed-bench: Benchmarking multimodal llms with generative comprehension.

[5] Li, B., Ge, Y., Ge, Y., Wang, G., Wang, R., Zhang, R., & Shan, Y. (2023). SEED-Bench-2: Benchmarking Multimodal Large Language Models.

[6] Chen, H., Xia, M., He, Y., Zhang, Y., Cun, X., Yang, S., ... & Shan, Y. (2023). Videocrafter1: Open diffusion models for high-quality video generation. 

[7] Liu, Y., Cun, X., Liu, X., Wang, X., Zhang, Y., Chen, H., ... & Shan, Y. (2023). Evalcrafter: Benchmarking and evaluating large video generation models. 

[8] He, Y., Xia, M., Chen, H., Cun, X., Gong, Y., Xing, J., ... & Chen, Q. (2023). Animate-a-story: Storytelling with retrieval-augmented video generation. 

[9] Gong, Y., Pang, Y., Cun, X., Xia, M., Chen, H., Wang, L., ... & Yang, Y. (2023). TaleCrafter: Interactive Story Visualization with Multiple Characters. 

[10] Yuan, G., Cun, X., Zhang, Y., Li, M., Qi, C., Wang, X., ... & Zheng, H. (2023). Inserting Anybody in Diffusion Models via Celeb Basis. 

[11] Zhuang Y, Zhang Q, Feng Y, et al. Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail[C]//SIGGRAPH Asia 2023 Conference Papers. 2023: 1-10.

[12] Zhuang Y, Zhang Q, Wang X, et al. NeAI: A Pre-convoluted Representation for Plug-and-Play Neural Ambient Illumination[J]. AAAI, 2024.

[13] Chen Y, Wang X, Chen X, et al. UV Volumes for real-time rendering of editable free-view human performance[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 16621-16631.

[14] Xiong Z, Kang D, Jin D, et al. Get3dhuman: Lifting stylegan-human into a 3d generative model using pixel-aligned reconstruction priors[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 9287-9297.

[15] Bai H, Kang D, Zhang H, et al. FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 362-371.

[16] Wang C, Kang D, Cao Y P, et al. Neural point-based volumetric avatar: Surface-guided neural points for efficient and photorealistic volumetric head avatar[C]//SIGGRAPH Asia 2023 Conference Papers. 2023: 1-12.

语音技术

[1] Y Xu, H Chen, J Yu, Q Huang, Z Wu, S Zhang, G Li, Y Luo, R Gu, SECap: Speech Emotion Captioning with Large Language Model, arXiv preprint arXiv:2312.10381, 2023, accepted by AAAI 2024

[2] J Yu, H Chen, Y Bian, X Li, Y Luo, J Tian, M Liu, J Jiang, S Wang,  AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data, arXiv preprint arXiv:2309.13905, accepted by ICASSP 2024

[3] https://github.com/tencent-ailab/FRA-RIR

[4] Y Luo, J Yu, “FRA-RIR: Fast Random Approximation of the Image-source Method,” in INTERSPEECH 2023. ISCA, 2023, pp. 3884–3888

[5] Y Luo, R Gu, "Fast Random Approximation of Multi-channel Room Impulse Response." arXiv preprint arXiv:2304.08052 (2023)

[6] X Li, S Liu, MWY Lam, Z Wu, C Weng, H Meng, Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model, arXiv preprint arXiv:2305.16749, 2023, Best Student Paper of Interspeech 2023

自然语言处理

[1] Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi. Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. arXiv preprint arXiv:2305.19118, 2023.

[2] Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Shuming Shi, Zhaopeng Tu. Is ChatGPT A Good Translator? A Preliminary Study. arXiv preprint arXiv:2301.08745, 2023.

[3] Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Zhiwei He, Tian Liang, Xing Wang, Shuming Shi, Zhaopeng Tu. ParroT: Translating during Chat using Large Language Models tuned with Human Translation and Feedback. Findings of the Association for Computational Linguistics: EMNLP 2023.

[4] Zhiwei He, Tian Liang, Wenxiang Jiao, Zhuosheng Zhang, Yujiu Yang, Rui Wang, Zhaopeng Tu, Shuming Shi, Xing Wang. Exploring Human-Like Translation Strategy with Large Language Models. Transactions of the Association for Computational Linguistics, 2024.

[5] Tian Lan, Deng Cai, Yan Wang, Heyan Huang, Xian-Ling Mao. Copy is All You Need. In Proceedings of the International Conference on Learning Representation, 2023

[6] Longyue Wang, Siyou Liu, Mingzhou Xu, Linfeng Song, Shuming Shi, Zhaopeng Tu. A Survey on Zero Pronoun Translation. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023.

[7] Longyue Wang, Chenyang Lyu, Tianbo Ji, Zhirui Zhang, Dian Yu, Shuming Shi, Zhaopeng Tu. Document-Level Machine Translation with Large Language Models. InProceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023.

[8] Longyue Wang, Zhaopeng Tu, Yan Gu, Siyou Liu, Dian Yu, Qingsong Ma, Chenyang Lyu, Liting Zhou, Chao-Hong Liu, Yufeng Ma, Weiyu Chen, Yvette Graham, Bonnie Webber, Philipp Koehn, Andy Way, Yulin Yuan, Shuming Shi. Findings of the WMT 2023 Shared Task on Discourse-Level Literary Translation: A Fresh Orb in the Cosmos of LLMs. In Proceedings of the Eighth Conference on Machine Translation (WMT), 2023.

9d52a0514a96bda005493bd15491531c.jpeg

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值