利用albert模型提取文本标签

在上文中提到,从文本中提取标签一个多标签多分类的问题。用传统的机器学习分类器,需要通过OneVsRestClassifier进行分类器的转换。

bert模型一统NLP问题江湖后,很多研究者也尝试用他解决文本标签问题。由于bert模型擅长处理句子对的关系,于是可以尝试把标签提取的问题转化为句子对判断的关系。

参考以下这篇文章,利用bert模型进行aspect based的情感分析:
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence

用上述文章的做法也可以应用到文本标签提取的问题中来,具体做法是:针对每个文本中的已有的标签,构造一个辅助短句:“文本中含该标签”,将文本和辅助短句构成一个句子对,并转化为一个句子对判断的分类问题。

def constructForTrain1(df, featureDic):
    dataList = []
    for index, row in df.iterrows():
        rowList = [index, row[u"文本"]]
        for f in featureDic.keys():
            dataList.append(rowList + [u"用户"+f, 1 if f in row[u"标签"] else 0])
    return dataList

然后,通过构建bert模型的句子对判断关系的方式来精调模型。(实际应用中,我们采用了对中文更加友好的albert模型)。

def main(train_generator, valid_generator, train_epoch, valid_epoch, alpha = 0.25):
    # 加载预训练模型
    x1_in = Input(shape
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值