山东大学软件学院创新项目实训开发日志——第12周

山东大学软件学院创新项目实训开发日志——第12周

项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐

-------项目目标:

  • 本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
  • 基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
  • 内置推荐算法可以自动根据分割结果,推荐与之相关的信息。

本周完成的任务

1、AIGC新模型-ESRGAN
  • 我们在服务器上部署运行了AIGC新模型:ESRGAN。
    在这里插入图片描述

  • ESRGAN主要用于提高图像分辨率:用户分割出来的物体分辨率往往较低,这对于用户下载抑或是用于后续的二次生成,都将会是不好的体验。因此我们引入了ESRGAN,以其能够提高图像的分辨率。

  • 下面是分辨率提升的前后对比:
    在这里插入图片描述
    在这里插入图片描述

2、增加了模块间联动:可以对分割后的物体图片进行Generate
3、修复了已知bug:
  • 当点击analyze和generate等其他板块后,再回到分割界面时,已分割出的图片错误地不再显示。通过将分割后的图片的url保存到store中,同时改变页面中绑定变量的初始化方式,解决了该bug。
  • 前端用户名一直显示为“默认用户”,现已对其进行调整,正确显示为登陆时的用户名。
4、优化了用户体验
  • 通过对模型的性能测试,我们团队得知,当种子seed为42时,对于图片的改变和生成效果要优于其他大部分种子,因此完全让用户自己挑选种子生成图片可能会带来糟糕的体验。故我们将42号种子作为默认的种子推荐。
  • 同时,我们将生产时的图片质量默认设置为50,作为时间与质量之间的权衡。

下阶段计划

  • 将超分辨率模型ESRGAN部署到我们的项目中去。
  • 优化当前系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值