AI大模型周刊第37期

最新推荐文章于 2024-07-26 13:24:37 发布

AI新物种

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.8k

点赞数 31

文章标签：人工智能

本文链接：https://blog.csdn.net/zhaodash97/article/details/136534291

版权

点击上方蓝字关注"IT新物种"公众号，及时获取最新一周开源项目。

一周资讯

MWC 2024：高通推出全新 AI Hub，助力 AI 推理速度最高提升 4 倍

2024年世界移动通信大会MWC拉开序幕，高通发布全新高通AI Hub，提供优化的AI模型库，支持在骁龙和高通平台上部署。优化后的模型提升AI推理速度，减少内存带宽和存储空间占用，实现更高能效和电池续航。高通展示多模态大模型在安卓手机和Windows PC上的应用，增强用户体验。此外，高通还展示了在安卓手机上运行的LoRA模型，可以调整生成内容。这些技术提供了个性化生成式AI的高效方式。

安卓率先跑通多模态大模型，终端本地就能看图生成文本！高通：WiFi都会AI起来

在安卓手机上首次实现的多模态大模型，用户可以通过手机AI助手进行照片和语音输入进行对话。高通在MWC 2024上展示了终端侧AI的新突破，包括在手机和PC上运行的音频推理多模态大模型。AI Hub也发布了，支持超过75个大模型。另外，高通还推出了AI增强的WiFi系统FastConnect 7900。这些技术展示了终端侧AI趋势已经到来。

下一个 OpenAI 来了？Mistral 超大杯模型直逼 GPT-4，93 年创始人 6 人公司被微软认领

Mistral AI 今日发布的 Mistral Large 模型性能已经直逼 GPT-4，同时和微软官宣合作。公司成立不足一年，已经获得了巨额融资，并吸引了全球关注。Mistral Large 在处理多语言任务和逻辑推理方面表现优异，力压业内竞争对手。虽然模型并不开源，但公司仍保持开源理念，同时推出具有强大性能的闭源模型。微软与Mistral AI 的合作将加速其下一代 LLM 的发展和商业拓展，有望在全球市场扩大影响力。

谷歌 DeepMind 推出 Genie 模型：110 亿个参数，基于图片和提示词生成 2D 游戏

DeepMind团队推出了新的AI模型Genie，拥有110亿个参数，能够基于用户输入的图片和提示词生成2D平台游戏。Genie经过20万小时的2D游戏视频训练，可以生成2D游戏，而不是完全的VR游戏。这个模型由时空视频标记器、自回归动力学模型和可扩展的潜在行动模型组成。用户只需提供草图或数字艺术作品，Genie就能帮助生成2D游戏。它能将草图转化为开放世界，并根据玩家操作预测下一个像素帧。Genie是在无监督和无标签视频的情况下进行训练，能够学习不同角色的动作和行动。

英伟达新显卡发布！笔记本AI画图提速14倍，轻薄本也能当AI工作站

最新推出的英伟达RTX 500和RTX 1000 GPU专为提升笔记本电脑的AI能力而设计，性能提升显著。除了英伟达，其他芯片厂商也在AI PC领域展开激烈竞争，不断推出新产品。整个AIGC领域呈现出蓬勃的发展态势，预示着未来的技术创新和竞争。

微软 GitHub Copilot 企业版正式上线，每人每月 39 美元

GitHub宣布开放GitHub Copilot Enterprise服务给所有企业客户。该企业版与标准版GitHub Copilot和GitHub Copilot Business服务有不同，可以根据企业的代码库和知识库进行个性化定制。GitHub Copilot Enterprise支持拉取请求描述、摘要和编码问题的聊天支持，还新增了对微软必应搜索引擎的支持。调查显示，使用GitHub Copilot的埃森哲开发人员中有94%表示在重复性任务上花费的时间更少，90%表示在项目信息检索上花费的时间更少。GitHub还提供个人版和Business订阅版服务。

人人都是程序员，英伟达联合推出 StarCoder2 模型：生成、补全、调试代码一气呵成

英伟达与Hugging Face和ServiceNow联合发布了名为StarCoder2的LLMs系列模型，旨在成为代码生成领域的新标准。该系列包括30亿、70亿和150亿参数模型，通过新的代码数据集Stack v2进行训练，能更好地理解低资源编程语言。StarCoder2可执行源代码生成、工作流生成、文本摘要等任务，提高开发人员工作效率。新的30亿参数模型比初版性能更优，采用BigCode Open RAIL-M许可证，允许免版税访问和使用。感兴趣的用户可从BigCode项目的GitHub页面获取源代码，从Hugging Face下载模型。

Adobe 推出 AI 音乐生成工具，可根据文本生成音乐并进行精细编辑

Adobe在布鲁克林举行的Hot Pod峰会上发布了名为“Project Music GenAI Control”的新AI音乐创作工具原型。这个工具利用生成式人工智能技术，帮助用户创作和编辑音乐，用户只需输入文本描述，工具就能生成对应风格的音乐。用户还可以自定义生成的音乐，并进行重新混音生成循环音频。虽然市面上已经存在类似的音乐生成工具，但这个新工具给用户更多控制权。Adobe表示，该工具目前处于早期实验阶段，可能会整合到现有编辑工具中。

Meta 计划在 7 月推出 Llama 3，继续做开源式 AI

Meta将于7月推出最新版本的人工智能大语言模型Llama 3，旨在提升模型性能以取得竞争优势。此前的Llama 2已应用在社交媒体平台，但存在无法回答部分问题的情况。Llama 3则能够解决这些问题，继续延续开源设定。Meta在有序训练这款大语言模型，并将任命内部人员进行语气与安全培训。开源带来的威胁令专家担忧，但Meta坚持开源是为了提供更优质的服务。Llama已成为开源生成AI中的主力军，更新势必将使其再度焕然一新。

KOALA AI 模型问世：8GB 内存就能运行，2 秒内生成高质量图片

新型人工智能图像生成模型KOALA由韩国科学团队研发，采用知识蒸馏技术大幅降低了硬件需求，生成高质量图片仅需2秒。该模型参数由25.6亿减少到7亿，无需高端图形处理器，只需8GB内存即可运行。知识蒸馏技术让小型模型更快生成高质量图像，比OpenAI的模型速度更快。KOALA模型生成时间为1.6秒，OpenAI的DALL-E 3模型需要13.7秒，DALL-E 2模型需要12.3秒。KOALA模型论文标题为《KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis》。

李楠：魅族 21 Pro 手机是“AI 时代的树莓派”，将对 LLM 大模型团队开放系统权限

李楠在魅族新品发布会上介绍了魅族21 Pro手机的AI开放特性，号称这台手机是“AI时代的树莓派”。魅族21 Pro手机将对LLM大模型团队开放系统权限，提供Flyme API文档，允许LLM向用户请求数据，并开放SoC边缘AI API。此外，魅族还发起“Meizu Open LLM Hackathon”竞赛，邀请用户参与竞赛，开发“月活最高的新LLM”应用。

开源项目

pyvideotrans

这是一个视频翻译配音工具，可将一种语言的视频翻译为指定语言的视频，自动生成和添加该语言的字幕和配音。支持多种语言，包括中文、英语、韩语等。工具提供多种功能，如识别字幕、提取字幕并翻译、文字合成语音等。用户可以通过设置选项自由配置组合，实现翻译和配音、自动加减速、合并等操作。软件支持CUDA加速，并提供CLI命令行模式。用户还可以通过设置文件进行详细配置。软件功能丰富，操作简单，适合视频翻译和配音需求。

https://github.com/jianchang512/pyvideotrans

OOTDiffusion

OOTDiffusion是OOTDiffusion的官方实现，该项目将发布论文。模型在VITON-HD数据集上训练的检查点已发布，Dress Code数据集的检查点即将发布。请参考Hugging Face链接以及humanparsing和openpose的预处理。安装步骤包括克隆存储库并创建conda环境。推断步骤包括半身模型和全身模型的使用。待办事项包括发布论文、Gradio演示、模型权重和训练代码。愿意的话请给我们一个star！

https://github.com/levihsu/OOTDiffusion

SoraWebui

SoraWebui是一个开源项目，通过使用文本，允许用户在线生成视频，使用OpenAI的Sora模型，从而简化视频创作，提供一键式网站部署。该项目计划包括使用FakeSoraAPI根据文字生成视频，Google登录和一键登录功能，未来将添加Stripe支付和OpenAI的Sora API。用户可以通过Vercel部署该项目，需要注意SoraWebui需要FakeSoraAPI才能正常运行。

https://github.com/SoraWebui/SoraWebui

av_hubert

AV-HuBERT是一种用于音频-视觉语音的自监督表示学习框架，可以在LRS3音频-视觉语音基准测试上实现口型阅读、ASR和音频-视觉语音识别的最新结果。该框架提供了预训练和微调模型，可以通过Colab运行唇读演示。安装方面，需要创建虚拟环境并克隆相关目录，然后安装Fairseq和其他软件包。训练新模型需要进行数据准备、AV-HuBERT模型的预训练以及使用Seq2Seq进行微调等步骤。通过AV-HuBERT模型解码可以进行Seq2Seq解码，并根据不同测试集、噪声环境等情况进行配置。

https://github.com/facebookresearch/av_hubert

stickerbaker

StickerBaker是一个利用人工智能制作贴纸的工具，由@replicate和@flydotio提供支持，完全开源。用户输入提示后，系统会生成一个贴纸。通过webhook传递预测数据至Replicate，生成完毕后上传至Tigris进行图像托管。该工具使用Replicate生成贴纸，Fly.io提供基础设施，Tigris用于图像托管。开发者可以通过安装依赖、设置环境文件、启动Phoenix服务器等步骤进行本地开发，并通过部署到生产环境来更新url和origin。部署时需要设置好Postgres数据库。

https://github.com/cbh123/stickerbaker

加入知识星球"AI新物种"

为了更好地服务大家，我们决定引入【Ai新物种】知识星球。在这个全新的领域里，我们将提供最前沿的资讯和项目，帮助大家探索人工智能的奇妙世界。Ai新物种星球将成为您获取实践经验和知识的最佳平台，让您与未来科技紧密接轨。无论是最新的技术趋势还是创新项目的机会，都将在这里得到及时推送。加入我们，一起探索人工智能的无限可能！