BERT+BILSTM+CRF组合模型
在抽取时间实体时出现了模型“死记硬背”的情况,由于构造数据集主要采用近几年的文本内容,故时间跨度太小且大部分都是2021年和2022年的数据,去年模型对时间的抽取还很很好,基本可以达到百分百的准确率,但在抽取最近的数据时,频繁的出现错误,经过多次对比验证,发现是模型对于“2023年”这个内容总是抽取错误,又由于是序列模型,所以后面的识别结果也会受到影响。
分析原因是模型频繁的学习2021和2022,缺少其他年份信息,导致模型认为只有这两个年份才属于时间。后续需要对时间进行跨度上的调整,重新训练模型