最终在写代码的过程中,发现程序之中出现报错:
ValueError: Layer attention expects 1 input(s), but it received 2 input tensors. Inputs received: [<tf.Tensor 'model/bert/embeddings/dropout/dropout/Mul_1:0' shape=(None, 128, 768) dtype=float32>, <tf.Tensor 'model/Cast_1:0' shape=(None, 128) dtype=int32>]
经过反复排查之后发现,对应的错误发生于AttentionLayer的build函数之中
AttentionLayer的build函数之中有这样一句代码
self.input_spec = keras.layers.InputSpec(shape=input_shape[0])
这句代码指定了输入的类型,这里的self.input_spec是只要你继承了tf.keras.layers.Layer的网络层,就一定会有的,指定了该网络层的输入就只能是一个tensor类型的数据,所以说此时如果你传入一个数组有两个tensor的情况下,就会发生相应的报错。
所以这里只需要去除掉本语句,程序就可以正常的运行了。
注意在训练模型的过程中(model.fit)过程中,如果使用print输出中间结果的话只会输出中间的形状,想要输出完整的矩阵值必须使用tf.print()