图解 LangChain 多模态应用，刷完教程只为你轻松处理图文数据

本文链接：https://blog.csdn.net/xxue345678/article/details/147227126

LangChain 就像是个多媒体翻译官，能帮你把各种图片、文字完美融合起来处理。

基本功能

模型接入

# 导入必要的模块
from langchain.llms import OpenAI
from langchain_community.chat_models import ChatOpenAI
# 设置API密钥
import os
os.environ["OPENAI_API_KEY"] = "你的OpenAI密钥"
# 创建语言模型实例
llm = OpenAI(temperature=0.7)
chat_model = ChatOpenAI(model_name="gpt-4-vision-preview")
# 简单测试
回复 = llm.invoke("解释下什么是多模态AI")
print(回复)

图像处理

# 导入图像处理相关模块
from langchain_core.messages import HumanMessage
from langchain_community.document_loaders import ImageLoader
# 创建图像消息
图片消息 = HumanMessage(
    content=[
        {"type": "text", "text": "这张图片里有什么?"},
        {
            "type": "image_url",
            "image_url": "https://example.com/image.jpg"
        }
    ]
)
# 获取图片描述
图片描述 = chat_model.invoke([图片消息])
print(图片描述.content)

Generated Image

实用功能

文档图像分析

# 导入文档和图像处理工具
from langchain_community.document_loaders import PyPDFLoader
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
# 加载包含图片的PDF
pdf加载器 = PyPDFLoader("报告.pdf")
页面列表 = pdf加载器.load()
# 创建提示模板
提示模板 = PromptTemplate(
    input_variables=["page_content"],
    template="分析这个PDF页面内容，包括文字和图表：{page_content}"
)
# 创建分析链
分析链 = LLMChain(llm=chat_model, prompt=提示模板)
# 分析每个页面
for 页面 in 页面列表:
    分析结果 = 分析链.run(页面.page_content)
    print(f"页面 {页面.metadata['page']}: {分析结果}")

图片批量处理

# 图片批处理功能
import os
from pathlib import Path
from langchain.chains import SimpleSequentialChain
def 批量处理图片(图片文件夹):
    结果集 = {}
    # 创建图片描述链
    描述提示 = PromptTemplate(
        input_variables=["image_path"],
        template="详细描述这张图片内容: {image_path}"
    )
    描述链 = LLMChain(llm=chat_model, prompt=描述提示)
    # 创建分类链
    分类提示 = PromptTemplate(
        input_variables=["description"],
        template="根据这个描述，将图片分类: {description}"
    )
    分类链 = LLMChain(llm=llm, prompt=分类提示)
    # 组合链
    完整处理链 = SimpleSequentialChain(
        chains=[描述链, 分类链],
        verbose=True
    )
    # 处理文件夹中所有图片
    for 文件路径 in Path(图片文件夹).glob("*.jpg"):
        try:
            结果 = 完整处理链.run(str(文件路径))
            结果集[文件路径.name] = 结果
        except Exception as e:
            print(f"处理 {文件路径} 时出错: {e}")
    return 结果集

多模态QA构建

# 构建多模态问答系统
from langchain.retrievers import MultiVectorRetriever
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.schema.document import Document
def 创建多模态知识库(文本列表, 图片列表):
    # 初始化嵌入模型
    嵌入模型 = OpenAIEmbeddings()
    # 创建向量存储
    向量数据库 = Chroma(embedding_function=嵌入模型)
    # 处理文本文档
    文本文档 = [Document(page_content=文本) for 文本 in 文本列表]
    向量数据库.add_documents(文本文档)
    # 处理图片 - 先获取描述再存储
    for 图片路径 in 图片列表:
        图片消息 = HumanMessage(
            content=[
                {"type": "text", "text": "详细描述这张图片"},
                {"type": "image_url", "image_url": f"file://{图片路径}"}
            ]
        )
        描述 = chat_model.invoke([图片消息])
        图片文档 = Document(
            page_content=描述.content,
            metadata={"source": 图片路径, "type": "image"}
        )
        向量数据库.add_documents([图片文档])
    # 创建检索器
    检索器 = 向量数据库.as_retriever()
    return 检索器

Generated Image

常见任务示例

图片内容搜索

# 构建图片内容搜索系统
from langchain.vectorstores import FAISS
from langchain.retrievers import MultiQueryRetriever
def 创建图片搜索(图片文件夹):
    # 初始化图片库
    图片数据 = []
    嵌入模型 = OpenAIEmbeddings()
    # 处理每张图片获取描述和特征
    for 图片路径 in Path(图片文件夹).glob("*.jpg"):
        图片消息 = HumanMessage(
            content=[
                {"type": "text", "text": "用100字描述这张图片的内容、风格和主题"},
                {"type": "image_url", "image_url": f"file://{图片路径}"}
            ]
        )
        # 获取图片描述
        图片描述 = chat_model.invoke([图片消息])
        # 创建文档
        图片文档 = Document(
            page_content=图片描述.content,
            metadata={"source": str(图片路径), "type": "image"}
        )
        图片数据.append(图片文档)
    # 创建向量存储
    向量库 = FAISS.from_documents(图片数据, 嵌入模型)
    # 创建多查询检索器以提高召回率
    检索器 = MultiQueryRetriever.from_llm(
        retriever=向量库.as_retriever(),
        llm=llm
    )
    return 检索器
# 使用方法
def 搜索图片(检索器, 查询):
    相关文档 = 检索器.get_relevant_documents(查询)
    结果 = []
    for 文档 in 相关文档:
        结果.append({
            "图片路径": 文档.metadata["source"],
            "匹配原因": 文档.page_content,
            "类型": 文档.metadata["type"]
        })
    return 结果

图文报告生成

# 图文报告生成系统
from langchain.chains import SequentialChain
from langchain.output_parsers import PydanticOutputParser
from pydantic import BaseModel, Field
from typing import List
# 定义报告结构
class 报告结构(BaseModel):
    标题: str = Field(description="报告的主标题")
    摘要: str = Field(description="内容摘要，100字以内")
    章节: List[str] = Field(description="报告的章节标题列表")
    结论: str = Field(description="报告的结论和建议")
def 生成图文报告(文本内容, 图片列表, 报告主题):
    # 处理图片获取内容描述
    图片描述列表 = []
    for 图片路径 in 图片列表:
        图片消息 = HumanMessage(
            content=[
                {"type": "text", "text": "分析这张图片的内容并提取关键信息"},
                {"type": "image_url", "image_url": f"file://{图片路径}"}
            ]
        )
        描述 = chat_model.invoke([图片消息])
        图片描述列表.append(描述.content)
    # 创建报告结构提示
    结构提示 = PromptTemplate(
        template="基于以下内容和主题'{topic}'，生成一个报告结构:\n文本内容:{text}\n图片描述:{images}\n{format_instructions}",
        input_variables=["text", "images", "topic"],
        partial_variables={"format_instructions": PydanticOutputParser(pydantic_object=报告结构).get_format_instructions()}
    )
    # 创建报告生成链
    结构解析器 = PydanticOutputParser(pydantic_object=报告结构)
    结构链 = LLMChain(
        llm=llm,
        prompt=结构提示,
        output_key="报告结构"
    )
    # 定义内容生成提示
    内容提示 = PromptTemplate(
        template="根据以下报告结构和资料，生成完整的报告内容:\n结构:{报告结构}\n文本:{text}\n图片描述:{images}",
        input_variables=["报告结构", "text", "images"]
    )
    内容链 = LLMChain(
        llm=llm,
        prompt=内容提示,
        output_key="最终报告"
    )
    # 组合链
    报告链 = SequentialChain(
        chains=[结构链, 内容链],
        input_variables=["text", "images", "topic"],
        output_variables=["最终报告"],
        verbose=True
    )
    # 生成报告
    return 报告链.run(
        text=文本内容,
        images=图片描述列表,
        topic=报告主题
    )

Generated Image