Qwen72B开源：推荐一个开源框架支持4GB显存推理70B大模型!!!（无需量化、剪枝）-CSDN博客

AirLLM是一个开源项目，它允许在单张4GB显存的GPU上运行大型语言模型，无需模型压缩，支持100k长度的输入。项目包含XEntropy、Paged8bitAdamw等先进技术，以及QLoRA的优化，使得33B模型更具成本效益和灵活性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://github.com/lyogavin/Anima/tree/main

AirLLM优化inference内存，4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏，剪枝等模型压缩。

Quickstart

pip install airllm

Inference

基本无感，跟transformers推理方法一致

from airllm import AirLLMLlama2

MAX_LENGTH = 128
# could use hugging face model repo id:
model = AirLLMLlama2("garage-bAInd/Platypus2-70B-instruct")

# or use model's local path...
#model = AirLLMLlama2("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")

input_text = [
        'What is the capital of United States?',
        #'I like',
    ]

input_tokens = model.tokenizer(input_text,
    return_tensors="pt", 
    return_attention_mask=False, 
    truncation=True, 
    max_length=MAX_LENGTH, 
    padding=True)
           
generation_output = model.generate(
    input_tokens['input_ids'].cuda(), 
    max_new_tokens=2,
    use_cache=True,
    return_dict_in_generate=True)

output = model.tokenizer.decode(generation_output.sequences[0])

print(output)

其他

这个项目还有很酷的能力

开源AirLLM，单卡4GB显存跑70B大模型，无需量化，无需模型压缩
更新支持100k 上下文的基于Llama2的可商用大模型
更新基于DPO+QLoRA的Human Feedback训练
开源了第一个基于QLoRA的中文33B大语言模型

100k模型

当输入长度支持100k，你甚至可以把整个知识库都放入Prompt交给模型。或者可以把一本书直接放到Prompt里边。再也不用各种费劲的向量化，文本分割。。。。

我们堆了各种最新的猛料：XEntropy，Paged 8bit Adamw, LORA, Flashattention2，并且专门针对长输入对于training和Inference代码都做了修改定制，使得单卡100G就可以训练100k窗口。单卡40G就可以进行推理。

33B qlora

因此我们认为QLoRA 的工作很重要，重要到可能是个Game Changer。通过QLoRA的优化方法，第一次让33B规模的模型可以比较民主化的，比较低成本的finetune训练，并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力，又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。