教程
文章平均质量分 60
小白狮ww
这个作者很懒,什么都没留下…
展开
-
高效语言模型 Parler-TTS 上线,一键完成文本转语音
平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,根据需求选择「按量付费」或者「包日/周/月」,点击「审核并执行」。Parler-TTS 是一种轻量级的文本转语音 (TTS) 模型,可以生成具有给定说话者风格的高质量、自然语音,自由度及创新性非常高,并且可以通过 Prompt 控制说话者的性别、音色、语调以及所处的场景(室内、室外、马路上、音乐厅等)。平台在克隆过程中已自动为我们配置好了模型文件,点击「下一步:选择算力」。原创 2024-11-19 08:26:44 · 529 阅读 · 0 评论 -
私人语音助手 Fish Speech:实现声音克隆及文本转语音
进入模型后,我们可以在「Input Text」中输入我们想要转为语音的文字,比如在里面输入「走得最急的,都是最美的风景;平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,点击「审核并执行」。稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。如果选择「Reference Audic」,模型将会提供一个语音模板,用户上传一段音频,模型就会根据音频的音色来生成特定的语音。原创 2024-11-10 19:53:04 · 351 阅读 · 0 评论 -
Reader-LM 来袭:一键将 HTML 转换为 Markdown
平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,点击「审核并执行」。稍等片刻,待系统分配好资源,状态栏显示为「运行中」后,将鼠标悬停在 API 地址处,点击链接进入模型。进入之后,先在「Model」处选择模型,然后在「HTML」中输入一段文本,最后点击「Submit」生成。可以看到上方的一栏是由「Reader LM」生成的,下方一栏是由「Markdownify」生成的。平台在克隆过程中以自动为我们配置好了模型文件,点击「下一步:选择算力」。原创 2024-11-01 17:32:38 · 213 阅读 · 0 评论 -
助力解析化学图像生成文本分析,化学大语言模型 ChemVLM 来啦!
该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。可以看到模型针对图像准确描述了图像的内容是黄色的液氮罐,接着我们可以继续问它一个问题,比如我们输入「液氮的化学分子式是什么」。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A100的算力和 PyTorch 的镜像,点击「审核并执行」。确认模型信息无误后,点击「继续执行」。原创 2024-09-25 15:20:57 · 246 阅读 · 0 评论 -
PhotoMaker V2 来了,快速生成高质量写真!
近期,PhotoMaker 出了 V2 版本,PhotoMaker V2 继承了 PhotoMaker V1 的良好特性,如高质量和多样化的生成能力,以及强大的文本控制,但在角色一致性和可控性上都有了大提升。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 RTX 4090 的算力和 PyTorch 的镜像,点击「审核并执行」。:选择希望生成的图片的特点。这里需要注意的是,需要加上 img 这三个字母,因为这是模型的 trigger word,如果模型没有识别到就无法进行输出。原创 2024-08-26 15:23:01 · 348 阅读 · 0 评论 -
DeiT:量化 Vision Transformers 以实现高效部署
通过代码演示量化 Vision Transformers一些优化策略,使模型更加紧凑,以便于部署。原创 2024-04-12 16:07:17 · 595 阅读 · 0 评论
分享