大模型llm-based 文本标注 example_selector

一、大模型加载–baichuan2-13b

  1. 模型文件、embedding文件路径
model_path = "models/baichuan2-13b-chat"
embedding_model_path = "models/text2vec-large-chinese"
embedding_device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
embeddings = HuggingFaceEmbeddings(model_name=embedding_model_path,
                                    model_kwargs={'device': embedding_device})
                             
  1. 加载大模型–我这用的是baichuan2-13b-chat模型
def init_model():
    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        torch_dtype=torch.float16,
        device_map="auto",
        trust_remote_code=True
    )
    model.generation_config = GenerationConfig.from_pretrained(
        model_path
    )
    tokenizer = AutoTokenizer.from_pretrained(
        model_path,
        use_fast=False,
        trust_remote_code=True
    )
    return model, tokenizer
   
model,tokenizer = init_model() # 加载模型

二、标注示例模板读取

# 1. 读取样例数据
demo_path = "data/demo.csv" #换成你的标注样例数据
df_demo = pd.read_csv(demo_path, encoding='gbk', header=0)

# 2. 标注样例数据按模板格式处理
# 按你的样例数据处理
examples.append(dict)

三、prompt

prefix = """
你是一个数据标注员,要求在标注过程中表述精简、风格统一,只抽取待标注语句中已有的信息,不添加、不错漏;请根据下列标注示例,输出标注结果。
"""
example_prompt = PromptTemplate(input_variables=["待标注数据", "标注结果"],
                                template="待标注数据: {待标注数据}\n标注结果: {标注结果}")
                                
example_selector = SemanticSimilarityExampleSelector.from_examples(
    examples,
    embeddings,
    FAISS,
    k=2
)
similar_prompt = FewShotPromptTemplate(
    example_selector = example_selector,
    example_prompt=example_prompt,
    prefix=prefix,
    suffix="待标注数据:{input}\n标注结果: ",
    input_variables=["input"],
    example_separator="\n",
)

四、标注数据

while True:
	user_input = input()
	user_prompt = similar_prompt.format(input = user_input)
	messages = [{"role":"user","content":user_prompt}]
	response = model.chat(tokenizer, messages)

  • 12
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值