AI大模型周刊第37期

点击上方蓝字关注"IT新物种"公众号,及时获取最新一周开源项目。

一周资讯

MWC 2024:高通推出全新 AI Hub,助力 AI 推理速度最高提升 4 倍

2024年世界移动通信大会MWC拉开序幕,高通发布全新高通AI Hub,提供优化的AI模型库,支持在骁龙和高通平台上部署。优化后的模型提升AI推理速度,减少内存带宽和存储空间占用,实现更高能效和电池续航。高通展示多模态大模型在安卓手机和Windows PC上的应用,增强用户体验。此外,高通还展示了在安卓手机上运行的LoRA模型,可以调整生成内容。这些技术提供了个性化生成式AI的高效方式。

安卓率先跑通多模态大模型,终端本地就能看图生成文本!高通:WiFi都会AI起来

在安卓手机上首次实现的多模态大模型,用户可以通过手机AI助手进行照片和语音输入进行对话。高通在MWC 2024上展示了终端侧AI的新突破,包括在手机和PC上运行的音频推理多模态大模型。AI Hub也发布了,支持超过75个大模型。另外,高通还推出了AI增强的WiFi系统FastConnect 7900。这些技术展示了终端侧AI趋势已经到来。

下一个 OpenAI 来了?Mistral 超大杯模型直逼 GPT-4,93 年创始人 6 人公司被微软认领

Mistral AI 今日发布的 Mistral Large 模型性能已经直逼 GPT-4,同时和微软官宣合作。公司成立不足一年,已经获得了巨额融资,并吸引了全球关注。Mistral Large 在处理多语言任务和逻辑推理方面表现优异,力压业内竞争对手。虽然模型并不开源,但公司仍保持开源理念,同时推出具有强大性能的闭源模型。微软与Mistral AI 的合作将加速其下一代 LLM 的发展和商业拓展,有望在全球市场扩大影响力。

谷歌 DeepMind 推出 Genie 模型:110 亿个参数,基于图片和提示词生成 2D 游戏

DeepMind团队推出了新的AI模型Genie,拥有110亿个参数,能够基于用户输入的图片和提示词生成2D平台游戏。Genie经过20万小时的2D游戏视频训练,可以生成2D游戏,而不是完全的VR游戏。这个模型由时空视频标记器、自回归动力学模型和可扩展的潜在行动模型组成。用户只需提供草图或数字艺术作品,Genie就能帮助生成2D游戏。它能将草图转化为开放世界,并根据玩家操作预测下一个像素帧。Genie是在无监督和无标签视频的情况下进行训练,能够学习不同角色的动作和行动。

英伟达新显卡发布!笔记本AI画图提速14倍,轻薄本也能当AI工作站

最新推出的英伟达RTX 500和RTX 1000 GPU专为提升笔记本电脑的AI能力而设计,性能提升显著。除了英伟达,其他芯片厂商也在AI PC领域展开激烈竞争,不断推出新产品。整个AIGC领域呈现出蓬勃的发展态势,预示着未来的技术创新和竞争。

微软 GitHub Copilot 企业版正式上线,每人每月 39 美元

GitHub宣布开放GitHub Copilot Enterprise服务给所有企业客户。该企业版与标准版GitHub Copilot和GitHub Copilot Business服务有不同,可以根据企业的代码库和知识库进行个性化定制。GitHub Copilot Enterprise支持拉取请求描述、摘要和编码问题的聊天支持,还新增了对微软必应搜索引擎的支持。调查显示,使用GitHub Copilot的埃森哲开发人员中有94%表示在重复性任务上花费的时间更少,90%表示在项目信息检索上花费的时间更少。GitHub还提供个人版和Business订阅版服务。

人人都是程序员,英伟达联合推出 StarCoder2 模型:生成、补全、调试代码一气呵成

英伟达与Hugging Face和ServiceNow联合发布了名为StarCoder2的LLMs系列模型,旨在成为代码生成领域的新标准。该系列包括30亿、70亿和150亿参数模型,通过新的代码数据集Stack v2进行训练,能更好地理解低资源编程语言。StarCoder2可执行源代码生成、工作流生成、文本摘要等任务,提高开发人员工作效率。新的30亿参数模型比初版性能更优,采用BigCode Open RAIL-M许可证,允许免版税访问和使用。感兴趣的用户可从BigCode项目的GitHub页面获取源代码,从Hugging Face下载模型。

Adobe 推出 AI 音乐生成工具,可根据文本生成音乐并进行精细编辑

Adobe在布鲁克林举行的Hot Pod峰会上发布了名为“Project Music GenAI Control”的新AI音乐创作工具原型。这个工具利用生成式人工智能技术,帮助用户创作和编辑音乐,用户只需输入文本描述,工具就能生成对应风格的音乐。用户还可以自定义生成的音乐,并进行重新混音生成循环音频。虽然市面上已经存在类似的音乐生成工具,但这个新工具给用户更多控制权。Adobe表示,该工具目前处于早期实验阶段,可能会整合到现有编辑工具中。

Meta 计划在 7 月推出 Llama 3,继续做开源式 AI

Meta将于7月推出最新版本的人工智能大语言模型Llama 3,旨在提升模型性能以取得竞争优势。此前的Llama 2已应用在社交媒体平台,但存在无法回答部分问题的情况。Llama 3则能够解决这些问题,继续延续开源设定。Meta在有序训练这款大语言模型,并将任命内部人员进行语气与安全培训。开源带来的威胁令专家担忧,但Meta坚持开源是为了提供更优质的服务。Llama已成为开源生成AI中的主力军,更新势必将使其再度焕然一新。

KOALA AI 模型问世:8GB 内存就能运行,2 秒内生成高质量图片

新型人工智能图像生成模型KOALA由韩国科学团队研发,采用知识蒸馏技术大幅降低了硬件需求,生成高质量图片仅需2秒。该模型参数由25.6亿减少到7亿,无需高端图形处理器,只需8GB内存即可运行。知识蒸馏技术让小型模型更快生成高质量图像,比OpenAI的模型速度更快。KOALA模型生成时间为1.6秒,OpenAI的DALL-E 3模型需要13.7秒,DALL-E 2模型需要12.3秒。KOALA模型论文标题为《KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis》。

李楠:魅族 21 Pro 手机是“AI 时代的树莓派”,将对 LLM 大模型团队开放系统权限

李楠在魅族新品发布会上介绍了魅族21 Pro手机的AI开放特性,号称这台手机是“AI时代的树莓派”。魅族21 Pro手机将对LLM大模型团队开放系统权限,提供Flyme API文档,允许LLM向用户请求数据,并开放SoC边缘AI API。此外,魅族还发起“Meizu Open LLM Hackathon”竞赛,邀请用户参与竞赛,开发“月活最高的新LLM”应用。

开源项目

pyvideotrans

这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音。支持多种语言,包括中文、英语、韩语等。工具提供多种功能,如识别字幕、提取字幕并翻译、文字合成语音等。用户可以通过设置选项自由配置组合,实现翻译和配音、自动加减速、合并等操作。软件支持CUDA加速,并提供CLI命令行模式。用户还可以通过设置文件进行详细配置。软件功能丰富,操作简单,适合视频翻译和配音需求。

https://github.com/jianchang512/pyvideotrans

OOTDiffusion

OOTDiffusion是OOTDiffusion的官方实现,该项目将发布论文。模型在VITON-HD数据集上训练的检查点已发布,Dress Code数据集的检查点即将发布。请参考Hugging Face链接以及humanparsing和openpose的预处理。安装步骤包括克隆存储库并创建conda环境。推断步骤包括半身模型和全身模型的使用。待办事项包括发布论文、Gradio演示、模型权重和训练代码。愿意的话请给我们一个star!

https://github.com/levihsu/OOTDiffusion

SoraWebui

SoraWebui是一个开源项目,通过使用文本,允许用户在线生成视频,使用OpenAI的Sora模型,从而简化视频创作,提供一键式网站部署。该项目计划包括使用FakeSoraAPI根据文字生成视频,Google登录和一键登录功能,未来将添加Stripe支付和OpenAI的Sora API。用户可以通过Vercel部署该项目,需要注意SoraWebui需要FakeSoraAPI才能正常运行。

https://github.com/SoraWebui/SoraWebui

av_hubert

AV-HuBERT是一种用于音频-视觉语音的自监督表示学习框架,可以在LRS3音频-视觉语音基准测试上实现口型阅读、ASR和音频-视觉语音识别的最新结果。该框架提供了预训练和微调模型,可以通过Colab运行唇读演示。安装方面,需要创建虚拟环境并克隆相关目录,然后安装Fairseq和其他软件包。训练新模型需要进行数据准备、AV-HuBERT模型的预训练以及使用Seq2Seq进行微调等步骤。通过AV-HuBERT模型解码可以进行Seq2Seq解码,并根据不同测试集、噪声环境等情况进行配置。

https://github.com/facebookresearch/av_hubert

stickerbaker

StickerBaker是一个利用人工智能制作贴纸的工具,由@replicate和@flydotio提供支持,完全开源。用户输入提示后,系统会生成一个贴纸。通过webhook传递预测数据至Replicate,生成完毕后上传至Tigris进行图像托管。该工具使用Replicate生成贴纸,Fly.io提供基础设施,Tigris用于图像托管。开发者可以通过安装依赖、设置环境文件、启动Phoenix服务器等步骤进行本地开发,并通过部署到生产环境来更新url和origin。部署时需要设置好Postgres数据库。

https://github.com/cbh123/stickerbaker

加入知识星球"AI新物种"

为了更好地服务大家,我们决定引入【Ai新物种】知识星球。在这个全新的领域里,我们将提供最前沿的资讯和项目,帮助大家探索人工智能的奇妙世界。Ai新物种星球将成为您获取实践经验和知识的最佳平台,让您与未来科技紧密接轨。无论是最新的技术趋势还是创新项目的机会,都将在这里得到及时推送。加入我们,一起探索人工智能的无限可能!

请关注公众号"IT新物种"

加入chatgpt项目交流群,请扫描下方群二维码,二维码长期有效。

加入chatgpt项目交流群,请扫描下方群二维码,二维码长期有效。

[外链图片转存中…(img-ro2iDLJu-1709794875377)]

  • 31
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值