Java - 图像识别；含代码样例_可5分钟内完成_图像识别_java_识别图像

沈询-阿里

已于 2024-10-31 15:38:57 修改

阅读量2.3k

点赞数 12

文章标签： java python 开发语言

于 2024-10-31 10:49:22 首次发布

本文链接：https://blog.csdn.net/whisperzzza/article/details/143385080

版权

图像识别在Java开发中的应用

在Java开发中，图像识别能力被广泛应用于多种场景，比如证件验证、商品识别等。过去，这类需求主要依赖OCR技术来实现，但识别精度和适应性有限。随着大模型技术的发展，现在可以利用这些先进的AI模型来进行图像识别，不仅大大提升了识别的准确性与效率，还扩展了应用范围，使得复杂背景下的物体检测和分类成为可能，极大地丰富了Java应用程序的功能性和用户体验。

本样例是一个java 做图像识别的具体步骤和代码，基于spring ai 和qwen vl大模型。

Spring AI 介绍：为Java开发者打造的高效AI应用框架

在过去，Java 缺乏一个高效且统一的AI应用框架，这使得开发者在集成不同AI组件时面临诸多挑战。Spring团队为此推出了Spring AI，它作为一个专为AI工程设计的应用框架，旨在将Spring生态系统的设计原则（如可移植性和模块化）引入AI领域，并支持使用POJOs作为构建块。Spring AI的核心优势在于提供了一套标准化接口，让开发者能够轻松地切换不同的AI服务提供商（例如OpenAI、Azure等），而无需大量修改代码，仅通过更改配置即可实现。此外，Spring AI与现有的Spring生态及Java面向对象编程范式无缝兼容，极大简化了AI应用程序的开发流程。对于图像识别等功能的支持，Spring AI同样表现优异，开发者可以利用其提供的统一接口快速搭建高性能的图像处理应用。

千问VL大模型介绍

Qwen-VL是一款专为图像和视频识别设计的多模态大模型，其能力在国内处于领先地位。根据国内知名的大模型评测平台思南（https://arena.opencompass.org.cn/）显示，Qwen-VL的表现仅次于国际上知名的GPT与Claude模型；

同时，在国际视觉大模型竞技场（https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard）中，它也稳居中国同类产品的首位。欢迎各界人士参与和支持这些公开测试平台，通过亲自体验来投票支持您心目中的最佳模型。

24年12月截止了，赶紧来拿奖金！总计30万，Spring AI Alibaba 应用框架挑战赛开赛点此了解

Spring AI Alibaba框架介绍

Spring AI Alibaba 是一个专为AI工程设计的应用框架，基于Spring生态系统的设计原则，支持国产大模型如阿里云的通义系列。它通过标准化不同AI提供者的接口实现，使得开发者能够以统一的方式编写代码，并通过简单的配置切换不同的AI服务供应商。核心优势在于提升了开发效率与灵活性，减少对接不同API的工作量。同时，Spring AI Alibaba 支持文本生成、图像生成等多种功能，便于快速集成强大的AI能力到应用中，促进业务创新和发展。

使用Spring AI Alibaba实现图像识别的详细教程

一、前置准备

首先，确保你的开发环境满足以下要求：

JDK版本需在JDK 17及以上。

Spring Boot版本需在3.3.x及以上。

接着，你需要访问阿里云百炼页面并登录您的阿里云账号。选择开通“百炼大模型推理”服务，并等待开通成功的短信通知。成功后，在右上角小人图标处创建一个新的API-KEY，并记录下这个key，它将被用于后续配置中。

此外，你还需要开启通义万象图像生成模型，按照以下步骤操作：

访问百炼控制台

在左侧列表栏选择“模型广场”，找到“图像生成”下的通义万象模型，点击对应的“API调用”按钮。

复制该模型的英文名称（qwen-vl-max-latest），这是你在配置中指定的模型名字。

最后，设置环境变量AI_DASHSCOPE_API_KEY为刚才申请到的有效API-KEY值：

export AI_DASHSCOPE_API_KEY=${REPLACE-WITH-VALID-API-KEY}

二、添加仓库和依赖

由于spring-ai-alibaba-starter尚未提交到Maven正式仓库，请在项目的pom.xml文件中添加如下仓库信息以支持从Spring自有的仓库拉取相关依赖：

<repositories>
    <repository>
        <id>sonatype-snapshots</id>

        <url>https://oss.sonatype.org/content/repositories/snapshots</url>

        <snapshots>
            <enabled>true</enabled>

        </snapshots>

    </repository>

    <repository>
        <id>spring-milestones</id>

        <name>Spring Milestones</name>

        <url>https://repo.spring.io/milestone</url>

        <snapshots>
            <enabled>false</enabled>

        </snapshots>

    </repository>

    <repository>
        <id>spring-snapshots</id>

        <name>Spring Snapshots</name>

        <url>https://repo.spring.io/snapshot</url>

        <releases>
            <enabled>false</enabled>

        </releases>

    </repository>

</repositories>

同时，在<dependencies>部分添加对spring-ai-alibaba-starter及其所需其他库的依赖声明：

<dependency>
  <groupId>com.alibaba.cloud.ai</groupId>

  <artifactId>spring-ai-alibaba-starter</artifactId>

  <version>1.0.0-M3.1</version>

</dependency>

请确保还包括了Spring Boot的父项目依赖：

<parent>
  <groupId>org.springframework.boot</groupId>

  <artifactId>spring-boot-starter-parent</artifactId>

  <version>3.3.4</version>

  <relativePath/> <!-- lookup parent from repository -->
</parent>

三、构建读图代码

为了实现基于Prompt和Flux流返回的图像识别功能，你可以创建一个名为ChatModelController的控制器类，并按照下面的方式进行编码：

首先通过@Value注解来引入图片资源文件。

使用ChatClient实例与AI模型进行交互。

定义默认提示文本及模型名。

实现/imageRecognition端点处理GET请求，接收用户输入的prompt参数，并使用通义万象模型对上传或预定义的图片执行图像识别任务。

完整的控制器示例代码如下所示：

@RestController
@RequestMapping("/ai")
public class ChatModelController {

    private static final Logger logger = LoggerFactory.getLogger(ChatModelController.class);

    @Value("classpath:catexample.png") // 引入图片资源
    private Resource imageResource;

    private final ChatModel chatModel;

    public ChatModelController(ChatModel chatModel) {
        this.chatModel = chatModel;
    }

    private static final String DEFAULT_PROMPT = "这些是什么？";
    private static final String DEFAULT_MODEL = "qwen-vl-max-latest";

    @GetMapping("/imageRecognition")
    public Flux<String> imageRecognition(
            @RequestParam(value = "prompt", required = false, defaultValue = DEFAULT_PROMPT) String prompt,
            HttpServletResponse response)
            throws Exception {
        response.setCharacterEncoding("UTF-8");

        List<Media> mediaList = List.of(new Media(MimeTypeUtils.IMAGE_PNG, imageResource));
        UserMessage message = new UserMessage(prompt, mediaList);
        message.getMetadata().put(DashScopeChatModel.MESSAGE_FORMAT, MessageFormat.IMAGE);

        return chatModel.stream(
                new Prompt(
                        message,
                        DashScopeChatOptions.builder()
                                .withModel(DEFAULT_MODEL)
                                .withMultiModel(true)
                                .build()))
                .map(resp -> resp.getResult().getOutput().getContent());
    }
}

将一张图片放置于项目的src/main/resources目录下，并命名为catexample.png。现在，可以通过访问http://localhost:8080/ai/imageRecognition?prompt=你的描述来测试图像识别功能了。记得替换URL中的localhost:8080为你实际部署的应用服务器地址和端口。

以上就是基于Spring AI Alibaba实现带有Prompt和Flux流式响应的图像识别应用的具体步骤和全部所需配置及代码。希望对你有所帮助！