自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(132)
  • 收藏
  • 关注

原创 GPT 3.5退休!GPT-4o Mini:正式取代 GPT 3.5

支持文本、图片、视频和音频等多模态!上下文为 128K,在 MMLU 上得分为 82%,在 LMSYS 竞技场中的表现优于 GPT-4,最关键的是 API 的价格比 3.5 便宜了 60%,比 Gemini 1.5 Flash 和 Claude 3 Haiku 便宜一半!GPT3.5 已从官方应用下线,今天开始所用用户都将直接访问新推出的。

2024-07-19 10:02:50 238

原创 Groq: 开源基于 Llama3 专为工具使用而设计的模型

这两个模型的 Function Calling 能力超越了目前所有模型,包括 Claude 3.5、GPT-4o 等闭源模型,在 BFCL 基准测试上排名第一。使用,70B 速度为 300+ token/s,8B 达到恐怖的 1000+ token/s,建议使用感受下~Groq 公司基于 Meta Llama-3。

2024-07-19 10:01:10 340

原创 Domo AI:视频转绘口形同步升级

旗下所有视频模型都支持口型同步,可以看视频对比下区别。

2024-07-19 09:59:24 304

原创 DETECT-2B:多语言音频伪造检测模型

除了识别语音外,该技术还可以用于识别如 Udio 或者 Suno 等工具创建的 AI 合成音乐。可在 200 毫秒内检测 30 多种语言的音频,准确率超过 94%。目前还处于研究状态,需要填写表单。Resemble AI 推出的。

2024-07-19 09:57:45 76

原创 服装商家有福音了,腾讯 IMAGDressing:面向商家的 AI 换装技术

的虚拟着装(VD)技术,与面向消费者的虚拟试穿(VTON)技术不同,专注于生成具有固定服装并能灵活控制面部、姿势、场景。它能够结合 IP-Adapter 和 ControlNet-Pose 使用,并可以通过文本提示来支持更换不同场景。可以直接在在这里使用。

2024-07-19 09:56:06 245

原创 Haiper v1.5:新版视频模型更新

宣布了其 v1.5 版本,现在可以生成 8 秒的视频,视频扩展,以及进行高清修复。

2024-07-18 10:12:26 183

原创 Exa:为 AI 设计的搜索引擎

是一个号称专门为 AI 设计的搜索引擎,使用 transformers 技术,不仅基于关键词,还能通过语义理解公司、新闻、论文、Twitter、博客、PDF、Github 代码、个人网站或自定义分类进行内容搜索。此外,Exa 获得了 1700 万美元的融资,目前已开放 API,如果你在做 AI 搜索引擎,不妨接入试试,当然,如果你是普通用户,也可以直接。,不过它与现有的 Perplexity 之类的搜索引擎不同,不会给你总结,而是提供关键数据和知识,并预测链接。

2024-07-18 10:10:37 186

原创 Vid2Vid LivePortrait:可输入视频肖像动画

同样是基于 LivePortrait 的一个改版,在原有的基础上增加了允许视频作为输入源的功能,可以在 HF 上。

2024-07-18 10:09:21 471

原创 FasterLivePortrait: 实时真实肖像动画

FasterLivePortrait 是基于 LivePortrait的一个实现,在原有的功能上增加了:

2024-07-18 10:07:31 370

原创 Animate3D: 对任何 3D 模型进行动画处理

是一个旨在为任何静态 3D 模型制作动画的技术,它通过创新的多视图视频扩散模型(MV-VDM)和结合重建与采样技术(4D-SDS)的框架,有效地解决了现有方法在制作 3D 动画时遇到的时空一致性问题,并提高了动画的质量和效率,目前数据集和代码都还是期货状态。

2024-07-18 10:05:57 295

原创 DreamCatalyst: 可控 3D 编辑

将 SDS 编辑视为扩散模型的反向过程,优化过程考虑了采样动态,提供了性能和高质量两种模式,效果都比较不错,现在还是。一个基于 SDS 的文本驱动的 3D 编辑技术,解决了 SDS 训练时间长和结果质量低的问题,

2024-07-18 10:04:14 212

原创 Claude Engineer:现已推出 2.0

版本,新增了编码 Agent、代码执行 Agent 以及动态编辑功能,当编辑文件时,Engineer 会指挥编码 Agent 批量更改,代码执行 Agent 则会运行代码并检查问题。是一个将 Claude 3 和 Claude 3.5 的能力与实际的文件系统操作、网页搜索功能、智能代码分析和执行能力无缝结合的工具。

2024-07-17 09:41:14 246

原创 EmoLLM 2.0:心理健康辅导大模型

心理健康辅导链路的心理健康大模型,由 LLM 指令微调而来,提供了包括书生、通一千文、百川、DeepSeek、LLaMA、Mixtral 等多个模型的微调。,它是一系列能够支持。

2024-07-17 09:40:15 150

原创 快手 Live Portrait:实时数字人肖像演示

支持通过摄像头即时生成,如视频所示。: 官方提供的演示,仅支持通过视频生成。

2024-07-17 09:38:34 320

原创 ComfyUI: 现已推出全新改进的 UI

了,新 UI 系统改进了搜索框,能够模糊搜索,并且支持预览节点。ComfyUI 现在支持通过启动参数。来使用 ComfyORG 推出的。

2024-07-17 09:37:00 229

原创 阿里 Qwen2-Audio:大规模音频语言模型

语音聊天 voice chat:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入;音频分析 audio analysis:用户可以在互动过程中提供音频和文本指令对音频进行分析;能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。不过目前这两个模型还没有开源,可以期待一下!

2024-07-17 09:35:25 273

原创 Mistral AI: 推出全新架构模型和数学推理模型

Codestral Mamba 7B: 基于 Mamba2 架构的 256K 上下文的模型,专注于代码生成。该模型在某些基准测试上的表现超过 22B 的非 Mamba 架构的 Codestral MathΣtral 7B:一个专为数学推理和科学发现设计的 7B 模型,在大部分数学方面的基准测试表现上力压通参数量的 DeepSeek、Llama3、Gemma2 和 Qwen2

2024-07-17 09:34:05 208

原创 华为 UltraPixel: 最强高清修复模型现已开源可用

的出图效果细节惊人,非常牛逼,分辨率上开源模型终于可以和 MJ 扳手腕了,不愧是遥遥领先,缺点需要大显存显卡,速度也比较慢,现在有一个 WIP 的非官方提供的。

2024-07-17 09:31:39 365

原创 TCAN:基于姿势生成视频

一种新的输入单图即可根据 Open Pose 视频生成对应视频的技术,目前还是期货开源。

2024-07-16 10:07:03 247

原创 GIMM-VFI:视频插帧技术

是一种新的 VFI 技术,它能够进行通用的连续运动建模,并且在任意时间点之间对两个相邻视频帧进行插值,以生成中间帧,使视频播放更加流畅。

2024-07-16 10:05:52 186

原创 StyleSplat:用于 3D 模型的 ipadapter

例如,可以将梵高的绘画风格应用到一个 3D 模型上,使其看起来像是用梵高的风格绘制的。是一个利用高斯散点技术来实现 3D 对象风格转换的技术。

2024-07-16 10:03:50 109

原创 VADER: 开源文生视频模型

是一种创新的文生视频技术,它通过使用奖励模型而不是监督学习,提高了视频生成的质量、相关性和比训练视频更长的视频。

2024-07-16 10:02:28 222

原创 AuraFlow v0.1:开源已死?最新开源文生图模型

v0.1 是由 Fal 开源的 6.8B 参数的文生图模型,擅长遵循提示(prompt following),并且原生支持 ComfyUI,当然你可以直接在 HF Space 上。

2024-07-16 09:57:57 342

原创 H2O-Danube3:适用于移动端的开源LLM模型

模型,有 4B 和 500M 两个大小,官方的 APP 还没有更新,版本 2 的时候在 iPhone 13 Pro 上速度可达 13token/s(完全离线),期待 3 早日上线。h2oai 推出的新。

2024-07-16 09:52:09 377

原创 SmartCrawl:利用 AI 技术将任何网站数据转为 API

的工具,该工具能够将任何现有网站转为 API,从放出的演示来看,除了基本的数据爬取,SmartCrawl 还能够完成自动认证、自动处理图形验证码,目前需要申请白名单才能体验。firecrawl 推出名为。

2024-07-15 09:51:34 284

原创 YouDream:文生动物 3D 模型

是一个专门用于生成身体结构没毛病的动物 3D 模型的模型,还能使用 2D TetraPose ControlNet 来引导生成的姿势,支持生成任何四足动物包括鸟类、爬行动物、两栖动物和哺乳动物等等。每日一个文生 3D 模型,

2024-07-15 09:49:57 220

原创 ToonCrater: 支持使用线稿引导生成

动漫插帧技术现在支持输入一个线稿视频来引导其生成上色后的视频了!官方的实现,而是一个。

2024-07-15 09:48:24 230

原创 RouteLLM: 开源 LLM 路由框架

的一个 LLM 路由框架,它通过分析不同模型的性能和成本将任务分配给合适的模型,能够在保持高质量的同时显著降低成本。例如一些简单问题就调用 Llama2 来处理,对于有难度的问题才去调用 GPT-4o 来处理,可以有效的降低成本。是 LMSYS 基于其大模型竞技场(Chatbot Arena)数据。

2024-07-15 09:46:30 97

原创 开源实时直播视频转绘Live2Diff

是一个开源的可以实时对视频流进行转绘处理的技术,在 RTX 4090 上达到了每秒 16 帧的处理速度,该模型在画面稳定性上也远超诸如 Rerender、StreamDiffusion 和 FreeNoise,目前还是。

2024-07-15 09:44:56 328

原创 字节 LLaVA-NeXT: 使 LLM 同时理解多个图片

可以让 AI 能够同时理解和推理多个图像,比如多帧视频、多视图 3D 图。详细介绍了性能和原理,可以在这里下载。

2024-07-12 10:12:42 316

原创 Text-to-CAD:文生 CAD 模型

能够根据用户的提示词自动生成 CAD 工程文件,你可以用它生成齿轮、叶轮、不规则形状甚至乐高积木,目前该工具正在公开测试中,可以免费使用。

2024-07-12 10:09:44 264

原创 OpenDiLoCo: 开源分布式 AI 模型训练

一种去中心化的训练框架,是对 DeepMind 的 Distributed Low-Communication (DiLoCo) 方法的开源实现和扩展,可实现全球分布式的 AI 模型训练。它能够聚合和协调全球的计算资源,计算利用率为 90-95%。

2024-07-12 10:08:11 258

原创 AWS App Studio:使用 AI 生成全栈应用

是 AWS 推出一个基于生成式 AI 的低代码开发平台,只需提供提示词 AI 便会拆解需求,然后生成可二次编辑的包含数据、业务逻辑、多 UI 页面的完整应用,目前正在预览阶段,可以免费使用,这里有一个。

2024-07-12 10:05:48 296

原创 Whisper Timestamped:在浏览器中运行的语音转录

是一个开源的支持多语言的语音识别技术,能够精确对应每个单词到对应帧,可以在播放时高亮当前单词,也可以通过点击单词快速定位到对应时间,该技术完全运行在浏览器中,可以在。类似 PR 的转录文本功能,,第一次使用需要先下载模型~

2024-07-12 10:03:29 131

原创 HeyGen Expressive Photo Avatar: 数字人头动画视频

的类似技术,只需提供一个肖像照片和一段音频(歌曲、演讲、朗读)即可自动对应口型和表情。目前处于 beta 阶段,对所有人免费,可以一试。一样,HeyGen 也推出了名为。就像最近的大火的快手。

2024-07-12 10:01:22 119

原创 GoDaddy Airo:AI 建站助手

是一个帮助用户建立品牌的 AI 助手,只需提出一个想法 ,Airo AI 即能帮助你完成域名挑选、Logo、网站设计、社交媒体帖子发布等功能。

2024-07-11 09:49:06 234

原创 RodinHD:单图生成 3D 头像

专门用于生成 3D 肖像,能够比较好的生成头发等细节。又一个单图生 3D 模型的技术,不过。

2024-07-11 09:47:02 221

原创 阿里 EchoMimic: 又一个数字人头技术

不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。

2024-07-11 09:40:07 547

原创 Anthropic Claude:新功能更新

此外现在能够发布和分享 Artifacts,还可以对其他人的 Artifacts 进行 Remix。了新功能,包括自动生成提示词、生成测试用例、对比生成结果等。

2024-07-10 10:02:53 184

原创 Poe: 推出 Previews 功能

支持 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 等擅长编程的模型。就像 Claude 的 Artifacts 功能一样,Poe 现在可以在聊天中生成 Web 应用并交互,

2024-07-10 10:00:33 286

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除