房产聊天问答匹配高分方案学习1

最新推荐文章于 2024-03-30 09:48:11 发布

唐僧爱吃唐僧肉

最新推荐文章于 2024-03-30 09:48:11 发布

阅读量326

点赞数

分类专栏： kaggle比赛感悟文章标签：深度学习机器学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzI5ODQxMTk5MQ==&mid=2247492893&idx=1&sn=f83c49c1e49b3e4b2f3b6559306aac11&chksm=eca497a5dbd31eb3b030ca4c7f412af1ba672036e3aef2668a49243178806c5ecfd82c1e74d3&mpshare=1&scene=23&srcid=0202uNSMRn97kG8Q6kyNggQF&sharer_sharetim

版权

kaggle比赛感悟专栏收录该内容

9 篇文章 2 订阅

订阅专栏

高分方案上

高分方案代码解析

Post training(预训练的后操作)
pair-post-training-wwm-sop.py
- pet post-training后续的操作
- 三种sentence-loss的总结

Post training(预训练的后操作)

首先需要提取出一个新的词表
这里面提取词表采用的是最小熵原理
具体的操作步骤可以参考苏神的博客
最小熵原理
调用的时候很简单

train_data = load_data('train')
test_data = load_data('test')

获得train_data和test_data的字符串数组

[......
 ......
'可以贷公积金吗纯公积金吗可以的可以留个电话吗？我们录入，我不给你打电话的我们联系还是用这个不太大了，已经很便宜了', 
'您好，我正在看尚林家园的房子看房吗有啊我带你看看', 
'今天可以安排看房子吗？我约下房东，稍后回你可以看，你几点有时间过来呢？好的，那咱们在一号门口这碰头？']

接下来直接调用库生成new_words

from nlp_zero import *
f = Word_Finder(min_proba=1e-5)
f.train(G())
f.find(G())
# 长度为2~5 且不在jieba 词典内的词
new_words = [w for w, _ in f.words.items() if len(w) > 2 and len(w) < 5 and len(jieba.lcut(w, HMM=False)) > 1]

with open('new_dict.txt', 'w') as f:
    f.write('\n'.join(new_words))

进行point-post-training-wwm-sop.py和pair-post-training-wwm-sop.py的训练

python point-post-training-wwm-sop.py
python pair-post-training-wwm-sop.py

1.分析point-post-training-wwm-sop.py文件

这里load_data之后

train_data = load_data('train')
test_data = load_data('test')
data = train_data+test_data

构成的list的内容为

d = 
[['采荷一小是分校吧', '杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。', '是的', '这是5楼'],
['毛坯吗？', '因为公积金贷款贷的少', '是呢', '这套一楼带院的，您看看', '房本都是五年外的', '好的??，您先看下'],
['你们的佣金费大约是多少和契税是多少。', '您是首套还是二套呢？', '所有费用下来654万', '包含着税费和我们的服务费和房款', '好的', '链家天鸿美域店NAME，电话是PHONE（同微信号），随时联系?'],
......]

接下来采用jieba切割词语的方法
因为nezha采用的是jieba分割词语的方法，所以这里也采用分割词语的方法

words_data = [[jieba.lcut(line) for line in sen] for sen in data]

获得切分之后的words_data

[
[['采荷', '一小', '是', '分校', '吧'], ['杭州市', '采荷', '第一', '小学', '钱江苑', '校区', '，', '杭州市', '钱江', '新城', '实验学校', '。'], ['是', '的'], ['这是', '5', '楼']], 
[['毛坯吗', '？'], ['因为', '公积金', '贷款', '贷', '的', '少'], ['是', '呢'], ['这套', '一楼', '带院的', '，', '您看看'], ['房本', '都', '是', '五年', '外', '的'], ['好', '的', '?', '?', '，', '您先看下']], 
[['你们', '的', '佣金', '费', '大约', '是多少', '和', '契税', '是多少', '。'], ['您', '是首套', '还是二套', '呢', '？'], ['所有', '费用', '下来', '654', '万'], ['包含', '着', '税费', '和', '我们', '的', '服务费', '和', '房款'], ['好', '的'], ['链家', '天鸿美域', '店', 'NAME', '，', '电话', '是', 'PHONE', '（', '同微信', '号', '）', '，', '随时联系', '?']]
......
]

接下来不管中间的各种函数，直接进入正文模型以及损失函数的构建

bert,train_model,loss = build_transformer_model_with_mlm()

进入到build_transformer_model_with_mlm函数之中查看模型的构建

bert = build_transformer_model(
	config_path,
	with_mlm='linear',
	with_nsp=True,
	model='nezha',
	return_keras_model=False
)

首先我们仔细分析NEZHA模型

# add External knowledge
if self.external_embedding_size:
    external_embedding = self.apply(x,
                                    Embedding,
                                    name='Embedding-External',
                                    input_dim=self.vocab_size,
                                    output_dim=self.external_embedding_size,
                                    weights=[self.external_embedding_weights]
                                    )
    if self.external_embedding_size != self.embedding_size:
        external_embedding = self.apply(external_embedding,
                                        Dense,
                                        name='External-Embedding-Mapping',
                                        units=self.embedding_size,
                                        kernel_initializer=self.initializer)
    x = self.apply([token_with_segment, external_embedding], Add, name='Embedding-Token-Segment-External')
else:
    x = token_with_segment

这里面引入了外部的embedding参数的内容
查看作者的原版的论文引入外部embedding的说明
引入外部embedding网络层的图片这里调用模型的输出分为两部分

bert = build_transformer_model(
        config_path,
        with_mlm='linear',
        with_nsp=True,
        model='nezha',
        return_keras_model=False
        #return_keras_model=True
    )
proba = bert.model.output

输出的proba的内容为

proba = 
[<tf.Tensor 'NSP-Proba/Softmax:0' shape=(?, 2) dtype=float32>, 
<tf.Tensor 'MLM-Activation/MLM-Activation/Identity:0' shape=(?, ?, 21128) dtype=float32>]

然后这里面封装的是几种损失函数

def mlm_loss(inputs):
    """计算loss的函数，需要封装为一个层
    """
    y_true, y_pred, mask = inputs
    _, y_pred = y_pred
    loss = K.sparse_categorical_crossentropy(
        y_true, y_pred, from_logits=True
    )
    loss = K.sum(loss * mask) / (K.sum(mask) + K.epsilon())
    return loss

def nsp_loss(inputs):
    """计算nsp loss的函数，需要封装为一个层
    """
    y_true, y_pred = inputs
    y_pred, _ = y_pred
    loss = K.sparse_categorical_crossentropy(
        y_true, y_pred
    )
    loss = K.mean(loss)
    return loss

def mlm_acc(inputs):
    """计算准确率的函数，需要封装为一个层
    """
    y_true, y_pred, mask = inputs
    _, y_pred = y_pred
    y_true = K.cast(y_true, K.floatx())
    acc = keras.metrics.sparse_categorical_accuracy(y_true, y_pred)
    acc = K.sum(acc * mask) / (K.sum(mask) + K.epsilon())
    return acc

def nsp_acc(inputs):
    """计算准确率的函数，需要封装为一个层
    """
    y_true, y_pred = inputs
    y_pred, _ = y_pred
    y_true = K.cast(y_true, K.floatx())
    acc = keras.metrics.sparse_categorical_accuracy(y_true, y_pred)
    acc = K.mean(acc)
    return acc

接下来主要看sentence loss是如何调用的

batch_token_ids = 
[[101, 6435, 7309, 3300, 2791, 1377, 809, 4692, 4692, 1408, 102, 2644, 4924, 5023, 102, 2644, 1962, 102, 7987, 1814, 103, 103, 3300, 697, 1947, 1377, 809, 4692, 102]]
batch_segment_ids = 
[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
batch_target_ids = 
[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1724, 2108, 0, 0, 0, 0, 0, 0, 0]]
batch_is_masked = 
[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0]]
batch_nsp = 
[[0]]

这里的遮盖掩码是103，这个103会放入batch_token_ids的内容之中，batch_segment_ids正常的区分问题和答案，batch_target_ids除了带标记的为需要预测的之外，其他的为0，batch_is_masked标记遮盖了的内容为1，其他部分的内容为0，batch_nsp标记是否为下一个句子。
这里重点看一下nsp(下一个句子损失)的训练

label = 1
p = np.random.random()
if p < 0.5:
	label = 0
	item = shuffle_reply(item)

注意这里的shuffle_reply只打乱回答部分，不打乱第一句的问句
接下来由于是按照切词构成的list数组，所以随机掩码的时候random_masking即可

source_tokens,target_tokens,segment_ids = random_masking(item)

next_sentence_prediction struct

if self.with_pool:
    # pooler 提取cls向量
    x = self.apply(x, layer=Lambda, name='Pooler', function=lambda x: x[:, 0])
    pool_activation = 'tanh' if self.with_pool is True else self.with_pool
    x = self.apply(x,
                   layer=Dense,
                   name='Pooler-Dense',
                   units=self.hidden_size,
                   activation=pool_activation,
                   kernel_initializer=self.initializer)
    if self.with_nsp:
        # Next sentence prediction
        x = self.apply(x,
                       layer=Dense,
                       name='NSP-Proba',
                       units=2,
                       activation='softmax',
                       kernel_initializer=self.initializer)

    outputs.append(x)

mlm struct

if self.with_mlm:
    # Mask language model, Dense --> Norm --> Embedding --> Biasadd --> softmax
    x = outputs[0]
    x = self.apply(x,
                   layer=Dense,
                   name='MLM-Dense',
                   units=self.embedding_size,
                   activation=self.hidden_act,
                   kernel_initializer=self.initializer)
    x = self.apply(inputs=self.simplify([x, z]),
                   layer=LayerNormalization,
                   conditional=(z is not None),
                   condition_hidden_units=self.layer_norm_conds[1],
                   condition_hidden_activation=self.layer_norm_conds[2],
                   condition_hidden_initializer=self.initializer,
                   name='MLM-Norm',
                   )
    # 重用embedding-token layer
    x = self.apply(x, Embedding, 'Embedding-Token', arguments={'mode': 'dense'})
    x = self.apply(x, BiasAdd, 'MLM-Bias')
    mlm_activation = 'softmax' if self.with_mlm is True else self.with_mlm
    x = self.apply(x, Activation, 'MLM-Activation', activation=mlm_activation)
    outputs.append(x)

pair-post-training-wwm-sop.py

读取代码的部分

train_data = load_data('train')
test_data = load_data('test')

获得的train_data和test_data的结果

[['采荷一小是分校吧', '杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。', '是的', '这是5楼'],
 ['毛坯吗？', '因为公积金贷款贷的少', '是呢', '这套一楼带院的，您看看', '房本都是五年外的', '好的??，您先看下']
 ......
]

这里的item和label的关键在于句子的顺序换不换，我们通过循环来进行具体的查看

for is_end,item in self.get_sample(shuffle):
	label = 1
	p = np.random.random()
	if p < 0.5:
		label = 0
		item = item[::-1]

这里如果p < 0.5的时候，原文内容

item = 
[['哪里呢'], ['您', '这边', '考虑', '的', '是', '总价', '在', '70', '.', '80万', '左右', '么']]

经过变换之后的内容

[['您', '这边', '考虑', '的', '是', '总价', '在', '70', '.', '80万', '左右', '么'], ['哪里呢']]

每一个问句匹配一个答句，当p<0.5的时候句子交换顺序，当p>0.5的时候句子不交换顺序
注意next_sentence_loss中的标签内容一定要注意到
正常情况下句子的标签内容为1，如果调换顺序之后句子的标签内容为0
后续的操作大同小异，这里就不赘述了

pet post-training后续的操作

三种sentence-loss的总结

1.第一种sentence-loss:将同一对话作为同一篇文档顺序排列

比如如下对话：
采荷一小是分校吧。是的。
还有可能更换顺序：
是的。采荷一小是分校吧。

2.第二种sentence-loss:将问题作为单独文档，同一问题的所有回答作为单独文档。

比如如下的整个对话：
采荷一小是分校吧。
是的 杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。  这是五楼
还有可能更换顺序：
采荷一小是分校吧。
杭州市采荷第一小学钱江苑校区，杭州市钱江新城实验学校。  是的	  这是五楼

3.将问题和回答同时拆分为左右两个部分做nsp任务
这一部分跟作者交流了一下，属于作者的创意部分，也是使用pair的方法

采荷一小
是分校吧。

是
的

杭州市采荷第一小学钱江苑校区，
杭州市钱江新城实验学校。

得到的pair部分(举例子)

是分校吧。采荷一小[sep]的是[sep]

唐僧爱吃唐僧肉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
房产聊天问答匹配高分方案学习1

高分方案上高分方案代码解析Post training(预训练的后操作)进行point-post-training-wwm-sop.py和pair-post-training-wwm-sop.py的训练1.分析point-post-training-wwm-sop.py文件next_sentence_prediction structmlm structPost training(预训练的后操作)首先需要提取出一个新的词表这里面提取词表采用的是最小熵原理具体的操作步骤可以参考苏神的博客最小熵原理
复制链接

扫一扫