自然语言处理
文章平均质量分 91
YUAnthony
这个作者很懒,什么都没留下…
展开
-
NLP 样本不平衡问题
1. 什么是样本不平衡问题? 所谓的样本不平衡问题指的是数据集中各个类别的样本数量不均衡。以二分类问题为例,通常情况下把样本类别比例超过4:1的数据就可以称为不平衡数据,极端情况下正负样本比例有可能达到1:1000。 2. 如何解决样本不平衡问题 1. 数据重采样 数据重采样方法是指对训练数据进行重新采样,从而让各个类别数量接近,具体分为过采样和欠采样两种思路。最简单的过采样方法是对小类别的样本进行重复随机采样,补充到小类别当中,直到小类别样本数据量增大到符合要求为止(当然另一个更直接的方法是复制小类别样原创 2021-11-08 14:44:54 · 1196 阅读 · 0 评论 -
NLP 新宠 prompt
0. NLP 的四种范式 最近几年,有人将近代 NLP 技术的发展总结为四种范式,他们分别是: P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network) P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network) P3. 预训练,精调范式 (Pre-train, Fine-tune) P4. 预训练,提示,预测范式 (Pre-train, Prompt, Predict原创 2021-11-05 12:29:49 · 1397 阅读 · 0 评论 -
NLP 入门知识点
最近从 B 站上找了个教程 学习NLP 的知识,就以此篇博客作为载体记录课上学的知识点吧。 Long Short Term Memory (LSTM) 模型 LSTM uses a “conveyor belt” to get longer memory than SimpleRNN. Each of the following blocks has a parameter matrix: Forget gate Input gate New values Output values Num原创 2021-10-02 00:58:56 · 164 阅读 · 0 评论