山东大学软件学院创新项目实训开发日志——第10周

山东大学软件学院创新项目实训开发日志——第10周

项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐

-------项目目标:

  • 本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
  • 基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
  • 内置推荐算法可以自动根据分割结果,推荐与之相关的信息。

本周完成的任务

1、添加了项目新功能:图生图
(1)所依赖模型:Stable-Diffusion
  • Stable-Diffusion在具有“文生图”功能的同时,也提供了“图生图”功能。
  • 并且“图生图”可以加入文本对其修改方向进行控制,具有一定的可控度。
  • 模型部署在服务器上,本地通过将指定指令上传到服务器,服务器将生成结果写回本地,再传给前端展示。
    在这里插入图片描述
(2)功能概述:
  • 用户点击侧边栏的“Generate”选项,即可进入图生图界面,用户可以在这里根据之前上传的图片生成与之相关的图片。
  • 提供了“Strength”拖动条,用户可以选择合适的“strength”参数,用于控制生成的图片相对于原图片的变化幅度。
  • 当用户不给予任何文本提示时,默认对原图片进行内容抽象;当用户给予文本提示时,会在原图片的基础上修改文本提示的内容。
(3)功能示例:

对于下面这张图片,当我们希望改变图中女人的穿着时,输入文本提示,“the woman wears a red shirt”,同时设置“strength”为0.75,生成的图片中女人便穿上了“red shirt”。
原图
生成图

2、优化了图片分析功能

之前的图片分析功能是,当点击侧边栏的“Analyze”时,便自动开始对图片进行分析,期间将陷入很长时间的等待,这对于用户的体验非常不好,因为在此期间并不能看到分析界面究竟是什么样子,因此对其进行了功能分离:

  • 当点击“Analyze”时,不再是直接陷入处理等待,而是进入"Analyze"界面。
  • "Analyze"界面展示用户上传的图片,并提供了操作提示,引导用户进行操作。
  • 用户可以点击“分析”按钮,对图片内容进行分析,分析结果将展示出来。
  • 用户可以根据分析的结果点击“Recommend”按钮,系统将为其推荐相关图片。
  • 添加了功能:用户可以自行输入文本,系统将根据用户输入的文本内容进行推荐,即实现“文生图”的裸自由性。

在这里插入图片描述

3、区别:

新功能“图生图”可以输入文本内容进行生成,而图片分析那里也可以输入文本内容进行生成,这两者有什么区别呢?

  • “图生图”侧重在于根据原始图片的内容进行生成,生成的新图片都是在原图片的基础上改变的。
  • 图片分析那里的图片生成则是纯粹的“文生图”。

下一阶段工作计划

  • 优化当前界面响应逻辑,处理当前存在的小bug。
  • 尽快部署完成视频帧定位功能。
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值