NLP面试题_命名实体识别面试题-CSDN博客

本文链接：https://blog.csdn.net/zimiao552147572/article/details/106609743

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）

模型数据与评估指标问题

问题1：在做命名实体审核或识别的时候，都做了那些数据预处理？

!!! Tip "提示" 基本上所有的模型训练之前都要进行数据预处理，而NLP的数据预处理大体上可以包括：文本处理基本方法（如：分词），文本张量的表示方法（如：word2vec），文本数据分析（如：长度分布），文本数据增强方法（如：回译）。根据自己对项目中模型的理解进行回答。

问题2：遇到过一些样本不均衡的问题吗，是如何解决的，效果怎样？

!!! Tip "提示" 类似于样本量少或者样本不均衡的情况，均使用上采样(增加样本数量)或下采样(减少样本数量)解决，一般建议使用上采样，方法就是回译数据增强，一般情况下，回译数据增强能为模型验证准确率带来1%-5%区间范围的提升。

问题3：命名实体识别模型的评估指标是什么？

!!! Tip "提示" NLP领域的模型评估指标并不多，准确率，召回率，精度，F1，都要记住！

问题4：还知道哪些模型评估指标，比如AUC，代表什么含义？

!!! Tip "提示" 这是一道向传统机器学习拓展的问题，你面试的公司，可能正在使用机器学习解决问题中，因此，面试官很容易问出和当前系统方法有关的问题。其中，若他们正在使用AUC为评估指标，那么你需要解释什么是AUC，以及为什么使用AUC。这里给出AUC的含义：对于任意一对正负例样本,模型将正样本预测为正例的可能性大于将负例预测为正例的可能性的概率。

问题5：在实体审核的时候，正负样本是如何定义的，条数大概是多少?

!!! Tip "提示" 这是一道细节题，考察数据的真实性，实体审核的这个样本来自结构化网站抓取，负样本则是对应的乱序文本，对于条数，无论是否记得清晰，因为是使用BERT进行微调的训练方式，且微调网络并不复杂，一般数据量应该在2万-10万条皆可。

模型对比问题

问题1：有进行一些传统机器学习的尝试吗，为什么没有选择LR或者xgboost这样的模型？

!!! Tip "提示" 又是一次与机器学习的对比情况，但凡是这种对比，无论你是否作为对比实验，建议回答为：基于BERT的微调与LR等效果相当，但随着数据量的增大，BERT模型的优势将会更加明显。

问题2：有和一些当前表现更好的模型做对比实验吗，比如XLNET，roBERTa等等？

!!! Tip "提示" 这是与其他大型模型的对比实验，这里注意，因为我们解决的是中文问题，除了BERT的chinese和多语言对中文友好，其他大型模型都没有明确的权威的中文文本实现方案，包括号称已经在CLUE上取得中文优秀得分的ALBERT，都没有成熟到工业使用的程度。

问题3：BERT模型相比LSTM的优势是什么？

!!! Tip "提示" BERT相比LSTM的优势，可以直接用BERT主要结构Transfomer相比LSTM的优势来回答。

问题4：在做NER时，如果只使用BiLSTM是不是也可以产生结果，为什么还要加CRF？

!!! Tip "提示" 这是使用LSTM+CRF基本必问的问题，因为CRF能利用标签序列的信息，更具体的回答展开方式可自查。

模型优化问题

问题1：模型训练过程中做过哪些优化？

!!! Tip "提示" 训练过程的优化一般有两种目的，第一是提高训练速度，第二是提升评估指标。如何提升训练速度呢，当然是分布式训练（模型分布或者数据分布），关于分布式训练的实现大家可以参考NLP案例库中的案例。而在训练过程中提升评估指标（比如准确率）往往是最主要的，一般情况，使用基于贝叶斯的超参数调优方法可以在原有基础上获得改进。