基于PyTorch和Hugging Face Transformers库实现的BERT文本分类模型训练和预测的GUI应用程序

最新推荐文章于 2025-03-10 22:19:16 发布

yehaiwz

最新推荐文章于 2025-03-10 22:19:16 发布

阅读量873

点赞数 23

文章标签： pytorch bert 分类

本文链接：https://blog.csdn.net/weixin_54366286/article/details/140247850

版权

这是一个基于PyTorch和Hugging Face Transformers库实现的BERT文本分类模型训练和预测的GUI应用程序。

代码功能：

1.定义了一个自定义的MyDataset类来处理训练数据。它使用BERT的BertTokenizer对输入文本和目标文本进行编码。
2.定义了一个大型BERT模型MyLargeModel，它使用预训练的BERT模型和一个线性分类器来进行文本分类。
3.train_model函数用于训练模型。它迭代训练数据，计算损失，并使用Adam优化器更新模型参数。训练完成后，模型权重被保存到文件中。
4.preprocess_data函数用于预处理输入文本。
5.代码创建了一个Tkinter GUI窗口，包含一个用于输入文本的文本区域和一个用于开始模型训练的按钮。
6.处理输入按钮的点击事件会触发handle_input函数，该函数获取输入文本的内容并打印出来。

实际代码如下

使用库：

import torch
from torch import nn
from torch.optim import Adam
from torch.utils.data import DataLoader, Dataset
from transformers import BertModel, BertTokenizer
import tkinter as tk
from tkinter import scrolledtext, messagebox

2自定义Dataset类来处理我们的数据
class MyDataset(Dataset):
3.定义模型

class MyLargeModel(nn.Module):
    def __init__(self):
        super(MyLargeModel, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.classifier = nn.Linear(self.bert.config.hidden_size, 2)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        return self.classifier(outputs.last_hidden_state)

def train_model():
    num_epochs = 3
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for batch in train_loader:
            optimizer.zero_grad()
            input_ids = batch['input_ids'].to(model.device)
            attention_mask = batch['attention_mask'].to(model.device)
            labels = batch['labels'].to(model.device)
            outputs = model(input_ids, attention_mask)
            loss = criterion(outputs.view(-1, outputs.size(-1)), labels.view(-1))
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        epoch_loss = running_loss / len(train_loader)
        print(f"Epoch {epoch + 1}, Loss: {epoch_loss}")

    torch.save(model.state_dict(), 'ling_large_model.pth')
    messagebox.showinfo("训练完成", "模型训练完成并保存！")

还有实例化模型等等

下面是使用这个代码的注意事项：

1.确保安装了所有必要的库，如torch, transformers, tkinter等。
2.数据预处理部分（preprocess_data函数）尚未实现，需要根据实际任务添加适当的逻辑。
3.模型预测部分（predict_model函数）也未实现，需要根据模型输出来完成预测逻辑。
4.GUI中的“处理输入”按钮目前只是打印出输入内容，并没有与模型预测或其他功能关联。

下一步修改和完善：

1.实现preprocess_data函数，对输入数据进行清洗、分词、编码等预处理步骤。
2.实现predict_model函数，接收预处理后的文本作为输入，通过模型进行预测，并返回结果。
3.在GUI中添加一个预测按钮，当用户输入文本并点击此按钮时，调用predict_model函数并显示预测结果。
4.考虑增加异常处理和用户输入验证，确保程序的鲁棒性。
5.根据需要调整模型结构、超参数或增加正则化方法以提高模型性能。
6.如果有足够的数据，可以添加更多的数据到train_data中，或者从外部数据源动态加载数据。
7.为了提高用户体验，可以考虑美化GUI界面，使其更加直观易用。

完整代码如下：

import torch
from torch import nn
from torch.optim import Adam
from torch.utils.data import DataLoader, Dataset
from transformers import BertModel, BertTokenizer
import tkinter as tk
from tkinter import scrolledtext, messagebox

# 自定义Dataset类来处理我们的数据
class MyDataset(Dataset):
    def __init__(self, data, tokenizer):
        self.data = data
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        input_text, target_text = self.data[index]
        input_encoding = self.tokenizer.encode_plus(
            input_text,
            add_special_tokens=True,
            return_tensors='pt'
        )
        target_encoding = self.tokenizer.encode_plus(
            target_text,
            add_special_tokens=True,
            return_tensors='pt'
        )
        return {
            'input_ids': input_encoding['input_ids'],
            'attention_mask': input_encoding['attention_mask'],
            'labels': target_encoding['input_ids']
        }

# 定义模型
class MyLargeModel(nn.Module):
    def __init__(self):
        super(MyLargeModel, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.classifier = nn.Linear(self.bert.config.hidden_size, 2)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        return self.classifier(outputs.last_hidden_state)

def train_model():
    num_epochs = 3
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for batch in train_loader:
            optimizer.zero_grad()
            input_ids = batch['input_ids'].to(model.device)
            attention_mask = batch['attention_mask'].to(model.device)
            labels = batch['labels'].to(model.device)
            outputs = model(input_ids, attention_mask)
            loss = criterion(outputs.view(-1, outputs.size(-1)), labels.view(-1))
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        epoch_loss = running_loss / len(train_loader)
        print(f"Epoch {epoch + 1}, Loss: {epoch_loss}")

    torch.save(model.state_dict(), 'ling_large_model.pth')
    messagebox.showinfo("训练完成", "模型训练完成并保存！")

def preprocess_data(text):
    # 这里添加数据预处理逻辑
    return text

def predict_model(input_text):
    # 添加模型预测逻辑
    pass

# 实例化模型
model = MyLargeModel()

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = Adam(model.parameters(), lr=1e-5)

# 准备数据
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
train_data = [
    ("今天天气真热", "适合外出游泳"),
    ("这本书很精彩", "应该值得一读")
]
train_data = MyDataset(train_data, tokenizer)
train_loader = DataLoader(dataset=train_data, batch_size=2, shuffle=True)

# 创建主窗口
root = tk.Tk()
root.title("模型训练输入")

# 输入框
input_text = scrolledtext.ScrolledText(root, width=50, height=10)
input_text.pack(pady=20)

# 训练按钮
train_button = tk.Button(root, text="开始训练", command=train_model)
train_button.pack(pady=10)

# 处理输入文本的函数
def handle_input():
    input_content = input_text.get("1.0", "end-1c")
    print("您输入的内容：", input_content)

# 处理输入按钮
handle_input_button = tk.Button(root, text="处理输入", command=handle_input)
handle_input_button.pack(pady=10)

root.mainloop()