山东大学软件学院创新项目实训开发日志——第8周
项目名称:ModuFusion Visionary:实现跨模态文本与视觉的相关推荐
-------项目目标:
- 本项目旨在开发一款跨模态交互式应用,用户可以上传图片或视频,并使用文本、点、框等提示,精确分割出图片或视频中指定的物体,或者无提示地分割出所有物体。
- 基于分割出的物体,用户可以选择生成感兴趣的其他图片或视频。
- 内置推荐算法可以自动根据分割结果,推荐与之相关的信息。
本周完成的任务
1. 实现了本地与服务器之间的通信:
- 我们成功地在服务器端部署了 Flask 应用,使本地主机能够通过 requests 库访问服务器端的特定 IP 地址和接口。这一设置允许本地主机将待处理的文件有效地上传到服务器上。
(以下是代码片段)
app.route('/upload', methods=['POST'])
def handle_upload():
if 'file' not in request.files:
return 'No file part', 400
file = request.files['file']
command = request.form['command']
if file.filename == '':
return 'No selected file', 400
2. 实现了服务器端对本地数据库的远程读写操作:
- 完成了对数据库的远程读写功能,详细过程和代码示例已记录并分享在我的博客中,详见:远程数据库操作记录。
3. 实现了服务器端对本地文件系统的远程操作:
- 我们扩展了服务器的功能,以支持对本地文件系统的操作。具体的操作步骤和示例同样在博客中有记录,详见:远程文件系统操作详解。
4. 完全实现了本地与服务器之间的无缝连接:
- 通过以上成果,我们现在可以无障碍地调用部署在服务器上的大型模型,完全不受本地计算资源的限制。
下阶段计划
- 性能优化:将继续优化现有模型的部署和调用策略,以在本地和服务器之间实现最佳性能平衡。
- 模型探索:为视频处理模块和 AI 生成内容(AIGC)模块寻找更优质的开源模型,以提升系统整体效能和输出质量。