dify案例分享-基于多模态模型的发票比对

最新推荐文章于 2025-04-20 13:34:41 发布

竹林幽深

最新推荐文章于 2025-04-20 13:34:41 发布

阅读量398

点赞数 2

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s/_uYbCHrkm8-CPCZqZKXAbg

版权

上期文章我们提到使用dify基于多模态模型实现多种发票识别工作流的智能体。我们在实际工作中发现OCR识别的发票准确性要求比较高。基于多模态大模型OCR识别这块可能会遇到对票面信息识别不准的问题，这样会财务报销就会产生很大的问题。基于以上的问题我们来实现一个发票比对工作流。

下面我们首先介绍一下整体功能。

这里面主要功能：用户上传一张发票图片，发票会经过文档提取器。文档提取器提取用户上传的发票传递给2个llm多模态模型，两个多模态模型是实现发票票面信息的提取功能。然后将提取的发票票面信息发送给第三个基于llm文本的大模型，它充当模型裁判功能。主要的功能是将2个模型输出的JSON格式的数据比对，比对的结果输出给客户。从而实现发票识别比对判断功能。

实现的效果如下：

数据有差异的效果：

数据无差异效果：

下面我们重点介绍一下这个工作流是如何实现的。

创建工作流或者chatflow

接着来到Dify中按下图顺序依次点击并点击创建(注：chatflow和工作流配置基本差不多，下面我们就以chatflow讲解)

开始

开始节点点开后我们需要添加一个文件上传输入参数。点击开始节点输入字段，点击右边的“+”

我们选择单个文件，输入变量名称、支持的文件类型我们这里就选择图片。其他都可以默认，输入完成后，点击保存按钮

以上步骤完成开始节点设置。

文档提取器

接下来我们在工作流画布中，选择文档提取器和开始节点连接，去掉llm和开始节点连接

我们在文档提取器，输入变量中选中 sys.files 变量

llm(多模态发票识别)

接下来我们将文档提取器的连接线和llm大语言模型连接。然后按照以下几个步骤设置

1.模型选择，模型我们在模型下拉列表中选择自定义OpenAI-API-compatible Qwen/Qwen2-VL-72B-Instruct模型；模型最大标记4096

2.上下文，这里设置开始节点file 属性值

3.SYSTEM 提示词我们输入如下内容

请提取这张照片的内容，其中内容格式‘发票号码’、'开票日期’、'‘出发时间’、‘始发站’、‘终点站’、‘车次’、‘票价’、‘身份证号’、‘姓名’、‘电子客票号’、‘购买方名称’、‘统一社会信用代码’字段返回信息，返回的结果信息以json格式返回

4.视觉点击右边按钮开启多模态

5 视觉输入变量选择节点filefiles 变量

以上完成llm模型的设置

以上我们需要再设置第二个多模态发票模型来对上传的图片进行发票识别，操作和上面一样，这里就不重复讲解，区别在于我们需要选择另外一个多模态模型。这里我们选择了智普的glm-4v-plus 来实现

主要需要注意的地方是智普模型对用户输入的提示词需要有值作为输入参数，这里我们为了让工作流运行起来，我们填写“1”

配置好的2个多模态模型需要和上面文档提取器连接

基于文本发票比对模型

接下来我们需要将2个多模态模型的输出结果和一个llm文本大语言模型进行连接。这个模型的作用主要是接收2个模型输出json值，对2个json值进行判断逐行比对判断是否一致。

1.模型选择，模型我们在模型下拉列表中选择 deepseek-ai/DeepSeek-V2.5模型；

2.上下文，这里可以不填写

3.SYSTEM 提示词我们输入如下内容

{
  "Role": "JSON 数据比对专家",

  "Profile": {
    "专长": "精确比较和分析 JSON 数据",
    "经验": "多年处理各种结构化数据的丰富经验",
    "技能": ["准确识别差异", "使用颜色高亮标注", "详细的比对报告生成"]
  },

  "Goals": [
    "逐行比较两个 JSON 数据的内容",
    "识别并标记所有存在的差异",
    "使用颜色（红色）高亮显示不同之处",
    "生成清晰、易读的比对结果报告"
  ],

  "Rules": [
    "必须逐个键值对进行比较，不遗漏任何字段",
    "只标注存在差异的部分，相同部分保持原样",
    "使用红色作为差异标注的唯一颜色",
    "对于数值型差异，需要考虑精度问题",
    "对于字符串差异，需要考虑大小写和空白字符",
    "保持 JSON 的结构完整性，不改变原有的格式和顺序"
  ],

  "Workflows": [
    "接收并解析两个待比对的 JSON 数据",
    "确保两个 JSON 数据结构一致，如果不一致，报告结构差异",
    "逐一比对每个键值对：",
    "  - 如果键不同，标记为新增或缺失",
    "  - 如果值不同，使用红色高亮标注",
    "生成详细的比对报告，包括：",
    "  - 总体差异统计",
    "  - 每个差异项的具体描述",
    "  - 高亮显示的 JSON 数据"
  ],

  "OutputFormat": {
    "type": "json",
    "structure": {
      "summary": "总体比对结果摘要",
      "differences": [
        {
          "key": "差异字段名",
          "value1": "第一个 JSON 中的值",
          "value2": "第二个 JSON 中的值",
          "highlightColor": "red"
        }
      ],
      "highlightedJSON": "包含红色高亮的完整 JSON 数据"
    }
  },

  "Examples": [
    {
      "input": {
        "json1": {
          "价税合计（小写）": "263.00",
          "收款人": "段欣冉"
        },
        "json2": {
          "价税合计（小写）": "213.00",
          "收款人": "段牛冉"
        }
      },
      "output": {
        "summary": "发现 2 处差异",
        "differences": [
          {
            "key": "价税合计（小写）",
            "value1": "263.00",
            "value2": "213.00",
            "highlightColor": "red"
          },
          {
            "key": "收款人",
            "value1": "段欣冉",
            "value2": "段牛冉",
            "highlightColor": "red"
          }
        ],
        "highlightedJSON": {
          "价税合计（小写）": "<red>263.00</red>",
          "收款人": "<red>段欣冉</red>"
        }
      }
    }
  ]
}

user 提示词我们需要输入上面2个模型的输出结果。

完整的模型配置如下图

直接回复

这个地方设置比较简单，在回复设置一下llm text文本输出，把比对的结果输出给用户即可。

完整的流程图如下：

dsl 文件

app:
  description: ''
  icon: 🤖
  icon_background: '#FFEAD5'
  mode: advanced-chat
  name: 发票比对专家-火车票
  use_icon_as_answer_icon: false
kind: app
version: 0.1.2
workflow:
  conversation_variables: []
  environment_variables: []
  features:
    file_upload:
      allowed_file_extensions:
      - .JPG
      - .JPEG
      - .PNG
      - .GIF
      - .WEBP
      - .SVG
      allowed_file_types:
      - image
      allowed_file_upload_methods:
      - local_file
      - remote_url
      enabled: false
      image:
        enabled: false
        number_limits: 3
        transfer_methods:
        - local_file
        - remote_url
      number_limits: 3
    opening_statement: ''
    retriever_resource:
      enabled: true
    sensitive_word_avoidance:
      enabled: false
    speech_to_text:
      enabled: false
    suggested_questions: []
    suggested_questions_after_answer:
      enabled: false
    text_to_speech:
      enabled: false
      language: ''
      voice: ''
  graph:
    edges:
    - data:
        isInIteration: false
        sourceType: start
        targetType: document-extractor
      id: 1730994694827-source-1730994818842-target
      source: '1730994694827'
      sourceHandle: source
      target: '1730994818842'
      targetHandle: target
      type: custom
      zIndex: 0
    - data:
        isInIteration: false
        sourceType: document-extractor
        targetType: llm
      id: 1730994818842-source-1730994952059-target
      source: '1730994818842'
      sourceHandle: source
      target: '1730994952059'
      targetHandle: target
      type: custom
      zIndex: 0
    - data:
        isInIteration: false
        sourceType: llm
        targetType: answer
      id: 1730995241679-source-answer-target
      source: '1730995241679'
      sourceHandle: source
      target: answer
      targetHandle: target
      type: custom
      zIndex: 0
    - data:
        isInIteration: false
        sourceType: document-extractor
        targetType: llm
      id: 1730994818842-source-1730994854289-target
      source: '1730994818842'
      sourceHandle: source
      target: '1730994854289'
      targetHandle: target
      type: custom
      zIndex: 0
    - data:
        isInIteration: false
        sourceType: llm
        targetType: llm
      id: 1730994854289-source-1730995241679-target
      source: '1730994854289'
      sourceHandle: source
      target: '1730995241679'
      targetHandle: target
      type: custom
      zIndex: 0
    - data:
        isInIteration: false
        sourceType: llm
        targetType: llm
      id: 1730994952059-source-1730995241679-target
      source: '1730994952059'
      sourceHandle: source
      target: '1730995241679'
      targetHandle: target
      type: custom
      zIndex: 0
    nodes:
    - data:
        desc: ''
        selected: false
        title: 开始
        type: start
        variables:
        - allowed_file_extensions: []
          allowed_file_types:
          - image
          allowed_file_upload_methods:
          - local_file
          - remote_url
          label: file
          max_length: 48
          options: []
          required: true
          type: file
          variable: file
      height: 90
      id: '1730994694827'
      position:
        x: -122.33815460561607
        y: 239.74853493583367
      positionAbsolute:
        x: -122.33815460561607
        y: 239.74853493583367
      selected: false
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    - data:
        answer: '{{#1730995241679.text#}}'
        desc: ''
        selected: false
        title: 直接回复
        type: answer
        variables: []
      height: 103
      id: answer
      position:
        x: 1507.4714864776458
        y: 230.51667545618076
      positionAbsolute:
        x: 1507.4714864776458
        y: 230.51667545618076
      selected: false
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    - data:
        desc: ''
        is_array_file: true
        selected: false
        title: 文档提取器
        type: document-extractor
        variable_selector:
        - sys
        - files
      height: 94
      id: '1730994818842'
      position:
        x: 198.13851897026086
        y: 239.74853493583367
      positionAbsolute:
        x: 198.13851897026086
        y: 239.74853493583367
      selected: false
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    - data:
        context:
          enabled: true
          variable_selector:
          - '1730994694827'
          - file
        desc: ''
        model:
          completion_params:
            temperature: 0.1
          mode: chat
          name: Pro/Qwen/Qwen2-VL-7B-Instruct
          provider: openai_api_compatible
        prompt_template:
        - id: cb8bcd12-345d-4b95-8f48-e3360269ec60
          role: system
          text: 请提取这张照片的内容，其中内容格式‘发票号码’、'开票日期’、'‘出发时间’、‘始发站’、‘终点站’、‘车次’、‘票价’、‘身份证号’、‘姓名’、‘电子客票号’、‘购买方名称’、‘统一社会信用代码’字段返回信息，返回的结果信息以json格式返回
        selected: false
        title: 发票提取模型1
        type: llm
        variables: []
        vision:
          configs:
            detail: high
            variable_selector:
            - '1730994694827'
            - file
          enabled: true
      height: 98
      id: '1730994854289'
      position:
        x: 530.598669101873
        y: 132.04920892271053
      positionAbsolute:
        x: 530.598669101873
        y: 132.04920892271053
      selected: false
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    - data:
        context:
          enabled: true
          variable_selector:
          - '1730994694827'
          - file
        desc: ''
        model:
          completion_params:
            temperature: 0.1
          mode: chat
          name: glm-4v-plus
          provider: zhipuai
        prompt_template:
        - id: ee1b5d7d-3303-44cf-9b5c-d29b22d3f798
          role: system
          text: 请提取这张照片的内容，其中内容格式‘发票号码’、'开票日期’、'‘出发时间’、‘始发站’、‘终点站’、‘车次’、‘票价’、‘身份证号’、‘姓名’、‘电子客票号’、‘购买方名称’、‘统一社会信用代码’字段返回信息，返回的结果信息以json格式返回
        - id: 827c3f3c-0c19-48c3-b40b-fc15bdfb0407
          role: user
          text: '1'
        selected: false
        title: 发票提取模型2
        type: llm
        variables: []
        vision:
          configs:
            detail: high
            variable_selector:
            - '1730994694827'
            - file
          enabled: true
      height: 98
      id: '1730994952059'
      position:
        x: 517.2073813384065
        y: 407.5975395538644
      positionAbsolute:
        x: 517.2073813384065
        y: 407.5975395538644
      selected: false
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    - data:
        context:
          enabled: false
          variable_selector: []
        desc: ''
        model:
          completion_params:
            temperature: 0.1
          mode: chat
          name: Qwen/Qwen2.5-72B-Instruct
          provider: siliconflow
        prompt_template:
        - id: 0a4409ea-6bb9-4c3f-9f9e-91e6eaa478aa
          role: system
          text: "{\n  \"Role\": \"JSON 数据比对专家\",\n\n  \"Profile\": {\n    \"专长\":\
            \ \"精确比较和分析 JSON 数据\",\n    \"经验\": \"多年处理各种结构化数据的丰富经验\",\n    \"技能\"\
            : [\"准确识别差异\", \"使用颜色高亮标注\", \"详细的比对报告生成\"]\n  },\n\n  \"Goals\": [\n\
            \    \"逐行比较两个 JSON 数据的内容\",\n    \"识别并标记所有存在的差异\",\n    \"使用颜色（红色）高亮显示不同之处\"\
            ,\n    \"生成清晰、易读的比对结果报告\",\n    \"准确报告完全相同的数据\"\n  ],\n\n  \"Rules\":\
            \ [\n    \"必须逐个键值对进行比较，不遗漏任何字段\",\n    \"只标注存在差异的部分，相同部分保持原样\",\n    \"\
            使用红色作为差异标注的唯一颜色\",\n    \"对于数值型差异，需要考虑精度问题\",\n    \"对于字符串差异，需要考虑大小写和空白字符\"\
            ,\n    \"保持 JSON 的结构完整性，不改变原有的格式和顺序\",\n    \"如果两个 JSON 完全相同，明确报告无差异\"\
            \n  ],\n\n  \"Workflows\": [\n    \"接收并解析两个待比对的 JSON 数据\",\n    \"确保两个\
            \ JSON 数据结构一致，如果不一致，报告结构差异\",\n    \"逐一比对每个键值对：\",\n    \"  - 如果键不同，标记为新增或缺失\"\
            ,\n    \"  - 如果值不同，使用红色高亮标注\",\n    \"  - 如果完全相同，不进行标注\",\n    \"生成详细的比对报告，包括：\"\
            ,\n    \"  - 总体差异统计（如果有）或无差异声明\",\n    \"  - 每个差异项的具体描述（如果有）\",\n    \"\
            \  - 高亮显示的 JSON 数据（如果有差异）\"\n  ],\n\n  \"OutputFormat\": {\n    \"type\"\
            : \"json\",\n    \"structure\": {\n      \"summary\": \"总体比对结果摘要\",\n\
            \      \"differences\": [\n        {\n          \"key\": \"差异字段名\",\n\
            \          \"value1\": \"第一个 JSON 中的值\",\n          \"value2\": \"第二个\
            \ JSON 中的值\",\n          \"highlightColor\": \"red\"\n        }\n    \
            \  ],\n      \"highlightedJSON\": \"包含红色高亮的完整 JSON 数据（如果有差异）\"\n    }\n\
            \  },\n\n  \"Examples\": [\n    {\n      \"input\": {\n        \"json1\"\
            : {\n          \"价税合计（小写）\": \"263.00\",\n          \"收款人\": \"段欣冉\"\n\
            \        },\n        \"json2\": {\n          \"价税合计（小写）\": \"213.00\"\
            ,\n          \"收款人\": \"段牛冉\"\n        }\n      },\n      \"output\":\
            \ {\n        \"summary\": \"发现 2 处差异\",\n        \"differences\": [\n\
            \          {\n            \"key\": \"价税合计（小写）\",\n            \"value1\"\
            : \"263.00\",\n            \"value2\": \"213.00\",\n            \"highlightColor\"\
            : \"red\"\n          },\n          {\n            \"key\": \"收款人\",\n\
            \            \"value1\": \"段欣冉\",\n            \"value2\": \"段牛冉\",\n\
            \            \"highlightColor\": \"red\"\n          }\n        ],\n  \
            \      \"highlightedJSON\": {\n          \"价税合计（小写）\": \"<red>263.00</red>\"\
            ,\n          \"收款人\": \"<red>段欣冉</red>\"\n        }\n      }\n    },\n\
            \    {\n      \"input\": {\n        \"json1\": {\n          \"发票号码\":\
            \ \"243491194230000002\",\n          \"开票日期\": \"2024-09-29\",\n     \
            \     \"购买方名称\": \"xx股份有限公司\",\n          \"统一社会信用代码\": \"913401001492097421\"\
            \n        },\n        \"json2\": {\n          \"发票号码\": \"243491194230000002\"\
            ,\n          \"开票日期\": \"2024-09-29\",\n          \"购买方名称\": \"xx股份有限公司\"\
            ,\n          \"统一社会信用代码\": \"913401001492097421\"\n        }\n      },\n\
            \      \"output\": {\n        \"summary\": \"两个 JSON 数据完全相同，没有发现任何差异。\"\
            ,\n        \"differences\": [],\n        \"highlightedJSON\": null\n \
            \     }\n    }\n  ]\n}"
        - id: 5725207a-3967-4cb0-9220-fc269ec64a58
          role: user
          text: '{{#1730994854289.text#}}

            {{#1730994952059.text#}}'
        selected: false
        title: 基于文本发票比对模型
        type: llm
        variables: []
        vision:
          enabled: false
      height: 98
      id: '1730995241679'
      position:
        x: 1078.5929830262382
        y: 262.4842834334896
      positionAbsolute:
        x: 1078.5929830262382
        y: 262.4842834334896
      selected: true
      sourcePosition: right
      targetPosition: left
      type: custom
      width: 244
    viewport:
      x: 122.11439198427718
      y: 168.52395441087617
      zoom: 0.5743491774985177