2025/5/18

栀栀栀

已于 2025-05-20 21:39:10 修改

阅读量1.6k

点赞数 6

文章标签：笔记

于 2025-05-18 23:07:05 首次发布

本文链接：https://blog.csdn.net/yesyesyes_yes/article/details/148047075

版权

继续研究一下大佬的RAG项目。开始我的碎碎念。

RAG可以分成两部分：一个是问答，一个是数据处理。

问答是人提问，然后查数据库，把查的东西用大模型组织成人话，回答人的提问。

数据处理是把当下知识库里的东西（不管是什么类型的数据），全弄成计算机话（代码能明白的格式）存到数据库，然后方便人提问的时候（也就是问答）给出可以回答的知识。

如果想让项目跑起来，必须把ES服务启动起来，该项目是用ES存的数据。

项目启动时，会先运行LoadStartup（在Springboot应用启动时），初始化向量存储（具体初始化向量存储用vectorstorage的initCollection()方法，指定名称和维度，向量维度是1024为了适配智谱AI）。总之就是自动初始化一个向量数据库的集合（Collection），用于存储后续的向量数据（如文本嵌入向量）。

我们看到LoadStartup类有一个注解@Component

所以@Service、@Repository等等这些注解，本质上都是@Component。只是根据层次有不同叫法。

这个collection是森马样子？回头再写吧。

首先，就是输入的问题。我们要存的知识不一定是什么类型，可能使txt，可能是word，甚至是pdf。那我们就需要把输入的东西先变成文本。

项目运行起来之前，点击运行下载好的es的bin文件夹下elasticsearch.bat，启动服务。

此时可以再终端看到可交互的shell命令行。这个应该是通过spring shell工具包实现的，项目的pom.xml文件里可以看到已经配置了shell的起步依赖。怎么用这个shell包呢？可以通过自己编写java类，自己做命令。前面说过把RAG分成两部分：问答，数据处理。使用add命令完成数据处理部分的工作，使用chat命令完成问答部分的工作。新建command文件夹来存放这两个类：add命令类，chat命令类。

通过 @ShellMethod 注解将 Java 方法暴露为 Shell 命令。

@ShellMethod(value = "add local txt data")  // 声明这是一个Shell命令，描述为"add local txt data"
public String add(String doc) {            // 定义命令方法，接收一个字符串参数doc（文件路径或文本内容）
    log.info("start add doc.");            // 打印日志：开始处理文档
    
    // 1. 文本分块（Chunking）
    List<ChunkResult> chunkResults = txtChunk.chunk(doc);  // 调用分块工具，将文档拆分为多个文本块
    
    // 2. 向量化（Embedding）
    List<EmbeddingResult> embeddingResults = zhipuAI.embedding(chunkResults);  // 使用智谱AI（或其他模型）将文本块转为向量
    
    // 3. 向量存储
    String collection = vectorStorage.getCollectionName();  // 获取向量数据库的集合名（类似表名）
    vectorStorage.store(collection, embeddingResults);     // 将向量存储到数据库中
    
    log.info("finished");                  // 打印日志：处理完成
    return "finished docId:{}" + doc;      // 返回处理结果（格式有误，应为String.format）
}

数据处理的三步：文本分块、向量化、向量存储。最后返回结果。

这几步全调用方法，现在看是一个黑盒，知道输入输出和功能就行，后面再具体看黑盒里面的代码。

doc参数是文件内容还是文件路径搞不懂？试着输出了doc，发现是文件名。但是，根据文件名就能找着？？

发现有一个默认路径/data，然后再默认路径/data下找doc文件名。找一下哪里设置的默认路径。

/data在chunk这里。

所以这个意思是，add 文件名。add这个方法就收到了参数doc文件名。然后进行文本分块（数据处理的具体代码放在/compoents文件夹），调用了chunk方法，然后根据默认路径+文件名+.txt，就得到一条完整的路径（相对路径）。

读取文件流classpathresource(path)

来回流转的数据，封装在对象中，而这些对象的代码都放在/domain文件夹里。

明天再写。

继续这个chunk。

然后为什么要chunk?小块文本比长文本更高效，节省计算资源。按照256个字符分割字符串。

AtomicInteger 是 Java 中一个线程安全的原子整数类，属于 java.util.concurrent.atomic 包。它的核心作用是提供原子操作（不可中断的单一操作），确保在多线程环境下对整数的操作（如递增、递减、赋值等）不会出现竞态条件（Race Condition）。

很明显，把每个chunk后的小块文本封装成一个chunkresult对象，然后返回这些对象构成的集合。

然后调用智谱AI的embedding方法。可以看到传进去的参数是chunkresult对象的集合，返回的是embeddingresult的集合。具体看embedding方法里的代码：观察集合是否为空，空的话返回空集合；非空返回embedding后的集合（这里就有一个embedding方法了）。我们具体看这个embedding方法，上一个embedding返回的是集合，这个里面embedding方法返回的单个向量化后的结果。方法的重载，参数不同。说不明白，具体看代码就懂了。

    /**
     * 批量
     * @param chunkResults 批量文本
     * @return 向量
     */
    public List<EmbeddingResult> embedding(List<ChunkResult> chunkResults){
        log.info("start embedding,size:{}",CollectionUtil.size(chunkResults));
        if (CollectionUtil.isEmpty(chunkResults)){
            return new ArrayList<>();
        }
        List<EmbeddingResult> embeddingResults=new ArrayList<>();
        for (ChunkResult chunkResult:chunkResults){
            embeddingResults.add(this.embedding(chunkResult));
        }
        return embeddingResults;
    }

    public EmbeddingResult embedding(ChunkResult chunkResult){
        String apiKey= this.getApiKey();
        //log.info("zp-key:{}",apiKey);
        OkHttpClient.Builder builder = new OkHttpClient.Builder()
                .connectTimeout(20000, TimeUnit.MILLISECONDS)
                .readTimeout(20000, TimeUnit.MILLISECONDS)
                .writeTimeout(20000, TimeUnit.MILLISECONDS)
                .addInterceptor(new ZhipuHeaderInterceptor(apiKey));
        OkHttpClient okHttpClient = builder.build();
        EmbeddingResult embedRequest=new EmbeddingResult();
        embedRequest.setPrompt(chunkResult.getContent());
        embedRequest.setRequestId(Objects.toString(chunkResult.getChunkId()));
        // 智谱embedding
        Request request = new Request.Builder()
                .url("https://open.bigmodel.cn/api/paas/v3/model-api/text_embedding/invoke")
                .post(RequestBody.create(MediaType.parse(ContentType.JSON.getValue()), GSON.toJson(embedRequest)))
                .build();
        try {
            Response response= okHttpClient.newCall(request).execute();
            String result=response.body().string();
            ZhipuResult zhipuResult= GSON.fromJson(result, ZhipuResult.class);
            EmbeddingResult ret= zhipuResult.getData();
            ret.setPrompt(embedRequest.getPrompt());
            ret.setRequestId(embedRequest.getRequestId());
            return  ret;
        } catch (IOException e) {
            throw new RuntimeException(e);
        }

    }

前面embedding方法只是封装成集合，就不看了。后面的embedding才是真正的向量化，重头戏。（但是人家的API咱直接用就行，embedding具体回头再看吧）

直接用的智谱的API，我们直接给参就好了。

先获取密钥。//咱们写好的getapikey方法，而它里面是调用了LLmProperties里面的东西。（回头再看吧，反正肯定这个注解指定有点东西//绑定前缀“llm”开头的配置，然后再yaml配置文件里定义属性）👇

使用 OkHttpClient.Builder 构建一个 HTTP 客户端，配置了连接、读取和写入的超时时间（均为 20 秒）。

添加了一个自定义拦截器 ZhipuHeaderInterceptor，用于在请求头中添加 API 密钥等认证信息。

创建一个 EmbeddingResult 对象作为请求体。

设置 prompt 为输入文本块的内容（chunkResult.getContent()）。

设置 requestId 为文本块的 ID（chunkResult.getChunkId()），转换为字符串。
EmbeddingResult embedRequest=new EmbeddingResult();
embedRequest.setPrompt(chunkResult.getContent());
embedRequest.setRequestId(Objects.toString(chunkResult.getChunkId()));