# attention_mask=batch_text>0 表示不关注padding的部分,因为padding为0
bert_out = self.bert.forward(batch_text, attention_mask=batch_text>0)
# bert[0]是文本的字向量信息,bert[1]是文本的句向量信息
# bert[0]维度:(句子数/batch_size, 字数, 维度数768)
# bert[1]维度:(句子数/batch_size, 字数, 维度数768)
bert_out1, bert_out2 = bert_out[0], bert_out[1]
bert[0]:第一个输出是三维的,是文本的字级别的向量信息。
bert[1]:第二个输出是二维的,是文本的句子级别的向量信息。
举例:截图来自B站
bert的输出是一个包含4个元素的元组,上面只写了前两个,后面的还没用到,用到了再补充。