
RAG 显存回收 Gradio 和 LangChain
ChatGLM_LLM的model显然是占用显存最大的变量。chroma的Embedding模型是通过 HuggingFaceEmbeddings模型导入的。根本上是通过SentenceTransformer导入的嵌入模型,罪魁祸首就是_embedding_function的client。如下图所示的rest按钮。虽然仍然有残余的向量数据库和embedding模型的显存没有完全回收不过已经没有大碍了。demo是基于gradio实现的这里llm_state是通过gr.State共享的ChatGLM_LLM。







