面经问题汇总--Part 5

最新推荐文章于 2025-11-21 14:00:48 发布

原创最新推荐文章于 2025-11-21 14:00:48 发布 · 607 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #自然语言处理 #学习

人工智能专栏收录该内容

52 篇文章

订阅专栏

文章目录

如何评价自己构建的数据集的好坏

数据集的质量可以从以下维度评估：

多样性：覆盖足够多的场景和案例，避免样本单一。
平衡性：标签分布均衡，避免少数类被淹没。
噪声控制：标注错误或数据错误需在可接受范围内。
实用性：能直接支持目标任务（如分类、生成等）。
规模适配：数据量需与任务复杂度匹配，避免过拟合或欠拟合。

怎么评价人类高质量回答的数据集

高质量回答数据集需满足：

真实性：答案需符合事实或逻辑，避免虚构。
丰富性：覆盖多角度解答，不局限于简短回复。
标注粒度：可能包含评分、多候选答案或错误分析。
领域覆盖：针对垂直领域（如医疗、法律）需专业验证。

ChatGLM和GPT模型结构一样吗

两者均为基于Transformer的大语言模型，但存在差异：

架构细节：ChatGLM可能采用GLM（General Language Model）结构，而GPT系列为纯解码器架构。
训练目标：GPT通过自回归预测下一个词，ChatGLM可能结合双向注意力或任务特定优化。
参数规模：具体实现中参数量与层数可能不同。

强化学习中奖励模型打分

打分机制：

奖励模型通常输出标量分数，数值范围依任务而定（如0-1或-10~10）。
分数设计需与目标对齐（如流畅性、事实性加权组合）。

模型训练：

通过人类标注的偏好数据（如成对排序）训练，学习拟合人类评判标准。

强化学习的梯度更新实现

策略梯度：直接优化策略网络，梯度公式为：
$\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot R]$
PPO等算法：引入重要性采样和裁剪机制稳定更新。

Instruct和prompt区别

Instruct：通常为结构化任务描述（如“翻译以下句子”），更接近命令式。
Prompt：可为开放式引导（如“关于气候变化，谈谈你的看法”），灵活性更高。

传统人机对话的多回复生成

候选排序：系统可能生成K个回复，按置信度或多样性排序输出。
策略依赖：基于规则的系统可能固定回复数量，而端到端模型动态生成。

嵌套命名实体识别方法

嵌套命名实体识别（Nested NER）旨在处理文本中重叠或嵌套的实体，如“北京大学附属医院”中嵌套“北京大学”。以下是几种有效的解决方案：

基于序列标注的改进方法

层叠式标注：采用多层级标注框架，先识别外层实体，再对内层实体进行二次标注。例如使用BiLSTM-CRF结合层级标签策略。
指针网络：通过序列到序列的指针生成模型，直接标记实体的起始和结束位置，避免标签冲突。

基于片段分类的方法

片段枚举：枚举所有可能的文本片段，分类判断是否为实体及类型。可结合BERT等预训练模型提升性能。
超图表示：将文本片段表示为超图节点，利用图神经网络建模嵌套关系。

联合学习方法

多任务学习：同时训练平坦NER和嵌套NER任务，共享底层特征表示。例如在BERT输出层设计并联的分类头。
边界感知模型：引入额外的边界检测模块，增强模型对实体边界的敏感度。

端到端深度模型

Span-based模型：如DyGIE++，通过动态跨度表示和关系推理处理嵌套结构。
序列生成模型：将任务转化为序列生成问题，使用T5等模型直接输出实体及其类型。

以下是一个基于Span分类的简化代码框架：

import torch
from transformers import BertModel, BertTokenizer

class SpanNER(torch.nn.Module):
    def __init__(self, pretrained_model, num_labels):
        super().__init__()
        self.bert = BertModel.from_pretrained(pretrained_model)
        self.classifier = torch.nn.Linear(self.bert.config.hidden_size, num_labels)
        
    def forward(self, input_ids, spans):
        outputs = self.bert(input_ids)
        sequence_output = outputs.last_hidden_state
        
        # 获取每个span的表示（平均池化）
        span_embeddings = []
        for (start, end) in spans:
            span_embed = sequence_output[:, start:end].mean(dim=1)
            span_embeddings.append(span_embed)
        
        logits = self.classifier(torch.stack(span_embeddings))
        return logits