值得一看的小模型技术全面总结及RAG文档处理及切分小模型工具

最新推荐文章于 2025-03-30 16:42:43 发布

Python编程杰哥

最新推荐文章于 2025-03-30 16:42:43 发布

阅读量917

点赞数 15

文章标签： milvus 人工智能 python 开发语言语言模型

本文链接：https://blog.csdn.net/xx_nm98/article/details/143751501

版权

本文还是来看看RAG，不过是从另一个角度，从小模型(其实这个小不太好说，7B或者以下？)角度；

因此，讲两件事，一个是回顾下小模型，推荐一个写的很好的小模型进展技术总结综述，里面提到的几个关键点都值得索引；再看小模型用于RAG文本切分的一些小模型工具，包括文档处理、文档切分等。

一、特别直接推荐的小模型进展技术总结

关于小模型综述，我们之前其实有说过，例如《What is the Role of Small Models in the LLM Era: A Survey》，而进一步的，老刘说NLP技术社区在11月07日早报中提到了另一个小模型综述，《A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness》(https://arxiv.org/pdf/2411.03350)，周末有空，温习了下，感觉很不错，十分推荐给大家，可以重点看几个点：

1、当前都有哪些小模型

2、小模型的发展时间线

3、Representative quantization methods当前一些量化的方法

4、当前一些模型压缩压缩的方法对比

5、小模型的领域应用

尤其是这个，小模型用于websearch上的结合方式：

6、小模型的部署成本消耗

7、小模型协助大模型的一些代表工作

二、再看小模型用于RAG文档处理及切分‍‍‍‍‍‍‍‍‍‍

关于RAG切分，可以看看小模型用在RAG领域的一些工作，也是昨晚看到的，JinaAI在这方面做了不少工作。

先说文档清洗阶段，将html转换为markdown(reader-lm-0.5b: https://huggingface.co/jinaai/reader-lm-0.5b，reader-lm-1.5b: https://huggingface.co/jinaai/reader-lm-1.5b)

使用方式也很简单：

# pip install transformers   from transformers import AutoModelForCausalLM, AutoTokenizer   checkpoint = "jinaai/reader-lm-0.5b"   device = "cuda" # for GPU usage or "cpu" for CPU usage   tokenizer = AutoTokenizer.from_pretrained(checkpoint)   model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)   # example html content   html_content = "<html><body><h1>Hello, world!</h1></body></html>"   messages = [{"role": "user", "content": html_content}]   input_text=tokenizer.apply_chat_template(messages, tokenize=False)   inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)   outputs = model.generate(inputs, max_new_tokens=1024, temperature=0, do_sample=False, repetition_penalty=1.08)      print(tokenizer.decode(outputs[0]))

再说文档切分阶段，将文档进行切割，这里还会涉及到一个wiki-segment数据集，https://github.com/koomri/text-segmentation) ，从维基百科文章中提取的大规模结构化文本片段集合，包含超过727,000个文本块，每个片段代表维基百科文章的不同部分，例如引言、章节或子章节。

基于这个数据，可以训练出来一些小模型进行切割，例如：

simple-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b)，根据文档的结构元素进行切分；

topic-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-cot-topic-chunking)：借鉴来自Chain-of-Thought)推理，先识别文本中的主题，再根据主题进行切分，确保每个段落主题连贯最适合复杂的多主题文档；

summary-qwen-0.5(https://huggingface.co/jinaai/text-seg-lm-qwen2-0.5b-summary-chunking):能切分文档，并生成每个分块的摘要，适合长文档问答任务需要更多训练数据，这个就很有趣，还需要用到GPT4-O进行增强：

Generate a five to ten words topic and a one sentence summary for this chunk of text.   #   {text}   #   Make sure the topic is concise and the summary covers the main topic as much as possible.      Please respond in the following format:   #   Topic: ...   Summary: ...   #   Directly respond with the required topic and summary, do not include any other details, and do not surround your response with quotes, backticks or other separators.      """.strip()

总结

本文主要从围绕小模型这个话题做了回顾，一个是回顾下小模型，推荐一个写的很好的小模型进展技术总结综述，里面提到的几个关键点都值得索引；再看小模型用于RAG文本切分的一些小模型工具，包括文档处理、文档切分等。

最近，在做文档处理结合落地的一些事情，尤其是表格解析，目前最大的问题是稳定性和速度的问题，而为了解决速度和成本问题，所以大模型(甚至是Transformer级)的方案都要舍弃掉，所以也是在看一些传统的cv方案，比如yolo做检测这些，做一些组合策略，其实效果还不错，所以也在想，当前很多大模型这股潮流其实将大家的思维固化了，觉得除了大模型就没有其他方案【其实这个的确如此，比如实体识别这些经典任务，bert-crf这些很多人竟然都不知道了，不去往那方面想，这其实问题挺大的】，因此，之前已经被验证的经典方案，还是要捡起来，这样，才不会过于被动，技术思维不要固化。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述