- 博客(11)
- 收藏
- 关注
原创 创新实训(五):基于Hystack的RAG优化
本周的工作重点是文档分块和Prompt模板的优化。通过调整分块策略、引入内容去重机制以及精心设计Prompt模板,系统在检索效率和答案生成质量方面取得了显著进步。下一步,我将继续探索更多优化策略,如引入更先进的分块算法和动态Prompt调整机制,进一步提升系统的性能和用户体验。
2025-05-07 12:03:23
835
原创 创新实训(二-2):初识RAG
检索增强生成(RAG, Retrieval-Augmented Generation)是一种创新架构,巧妙地整合了从庞大知识库中检索到的相关信息,以指导大型语言模型生成更为精准的答案。这一方法显著提升了回答的准确性与深度。:LLM 有时会生成与客观事实不符的信息,导致用户接收到不准确的信息。:LLM 基于静态数据集训练,可能导致知识更新滞后,无法及时反映最新信息动态。:LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。:LLM 在处理特定领域的专业知识时,效果可能不理想,影响回答质量。
2025-05-07 11:05:52
524
原创 Cherry for SDU创新实训团队周报(四)
本周,我们团队致力于构建一个基于 LangChain 的 RAG(Retrieval-Augmented Generation)管道,旨在实现高效的知识问答系统。通过整合 LangChain 框架、向量嵌入技术以及先进的语言模型,我们成功搭建了一个从 PDF 文档加载到问答生成的完整流程,为后续的应用拓展奠定了坚实基础。
2025-05-07 10:25:54
297
原创 创新实训(四):基于LangChain初步搭建RAG链
LangChain 是一个为各种大型语言模型应用提供通用接口的框架,旨在简化应用程序的开发流程。通过 LangChain,开发者可以轻松构建 RAG(Retrieval-Augmented Generation)应用。
2025-04-20 23:46:55
410
原创 Cherry for SDU创新实训团队周报(三)
find_overlap 函数动态检测实际重叠量(而非固定50字符),通过逆向扫描找到最大匹配子串。,主要用于高效存储、检索和计算高维向量数据(如文本、图像、音频的嵌入向量)。作为大语言模型(LLM)的外部记忆库,存储领域知识,提升生成内容的准确性(如 RAG 架构)。通过向量距离识别重复内容(如重复图片、相似文本)或异常数据(如欺诈行为)。将用户查询转换为向量,快速检索相似文档或答案(如智能客服、知识库检索)。chunk_overlap=50:块间重叠50字符(保持语义连贯)
2025-04-20 22:03:19
290
原创 创新实训(三):openai库调用接口并实现流式输出
为了实现 DeepSeek API 的流式输出功能,开发者可以利用与 OpenAI 兼容的接口特性来设置特定参数并处理响应数据。当启用流模式时,API 将返回一系列部分完成的结果而不是一次性完整的回复。使用openai库调用api我们发现等待时间较长,并且总是返回整段输出,于是我们通过实现流式输出,让结果回答更加人性化且降低等待时间。
2025-04-13 22:50:35
384
原创 Cherry for SDU创新实训团队周报(二)
本项目旨在基于Cherry Studio平台,集成山东大学内容中台API,打造“一站式智能搜索”解决方案,以提升校内信息检索的效率和准确性,推动高校数字化转型。项目通过调用山东大学资讯中心接口开放平台的数据,实现本地化人工智能模型推理能力的增强,减少模型在处理校内特定信息时的“幻觉”现象,同时确保数据安全。
2025-04-13 22:35:30
717
原创 创新实训(二):数据预处理——初识embedding
在自然语言处理(NLP)的领域中,词嵌入(Word Embedding)技术扮演着至关重要的角色。它通过将词汇映射到高维空间中的向量,使得计算机能够捕捉和理解词汇的语义和语法特性。随着深度学习技术的发展,词嵌入已经成为构建高效NLP系统的基础。词嵌入技术不仅能够减少模型的复杂度,还能提高模型的泛化能力,使得机器学习模型能够更好地处理和理解自然语言数据。
2025-04-01 13:54:06
329
原创 创新实训(一):数据获取
我们使用山东大学资讯中心接口开放平台作为数据来源,并获得了软件学院公众号和所有站点的api授权据统计,总数据量为319.28G。
2025-03-29 22:43:30
988
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人