基于双向LSTM的seq2seq字标注

最新推荐文章于 2024-05-09 23:45:48 发布

老三是只猫

最新推荐文章于 2024-05-09 23:45:48 发布

阅读量2.2k

点赞数

分类专栏： python NLP

python 同时被 2 个专栏收录

142 篇文章 7 订阅

订阅专栏

NLP

25 篇文章 0 订阅

订阅专栏

事不宜迟，动手最重要。词向量维度用了128，句子长度截断为32（抛弃了多于32字的样本，这部分样本很少，事实上，用逗号、句号等天然分隔符分开后，句子很少有多于32字的。）。这次我用了5tag，在原来的4tag的基础上，加上了一个x标签，用来表示不够32字的部分，比如句子是20字的，那么第21～32个标签均为x。

在数据方面，我用了Bakeoff 2005的语料中微软亚洲研究院（Microsoft Research）提供的部分。代码如下，如果有什么不清晰的地方，欢迎留言。

-- coding:utf-8 --

import re
import numpy as np
import pandas as pd

s = open(‘msr_train.txt’).read().decode(‘gbk’)
s = s.split(‘\r\n’)

def clean(s): #整理一下数据，有些不规范的地方
if u’“/s’ not in s:
return s.replace(u’ ”/s’, ”)
elif u’”/s’ not in s:
return s.replace(u’“/s ‘, ”)
elif u’‘/s’ not in s:
return s.replace(u’ ’/s’, ”)
elif u’’/s’ not in s:
return s.replace(u’‘/s ‘, ”)
else:
return s

s = u”.join(map(clean, s))
s = re.split(u’[，。！？、]/[bems]’, s)

data = [] #生成训练样本
label = []
def get_xy(s):
s = re.findall(‘(.)/(.)’, s)
if s:
s = np.array(s)
return list(s[:,0]), list(s[:,1])

for i in s:
x = get_xy(i)
if x:
data.append(x[0])
label.append(x[1])

d = pd.DataFrame(index=range(len(data)))
d[‘data’] = data
d[‘label’] = label
d = d[d[‘data’].apply(len) <= maxlen]
d.index = range(len(d))
tag = pd.Series({’s’:0, ‘b’:1, ‘m’:2, ‘e’:3, ‘x’:4})

chars = [] #统计所有字，跟每个字编号
for i in data:
chars.extend(i)

chars = pd.Series(chars).value_counts()
chars[:] = range(1, len(chars)+1)

生成适合模型输入的格式

from keras.utils import np_utils
d[‘x’] = d[‘data’].apply(lambda x: np.array(list(chars[x])+[0]*(maxlen-len(x))))
d[‘y’] = d[‘label’].apply(lambda x: np.array(map(lambda y:np_utils.to_categorical(y,5), tag[x].reshape((-1,1)))+[np.array([[0,0,0,0,1]])]*(maxlen-len(x))))

设计模型

word_size = 128
maxlen = 32
from keras.layers import Dense, Embedding, LSTM, TimeDistributed, Input, Bidirectional
from keras.models import Model

sequence = Input(shape=(maxlen,), dtype=’int32’)
embedded = Embedding(len(chars)+1, word_size, input_length=maxlen, mask_zero=True)(sequence)
blstm = Bidirectional(LSTM(64, return_sequences=True), merge_mode=’sum’)(embedded)
output = TimeDistributed(Dense(5, activation=’softmax’))(blstm)
model = Model(input=sequence, output=output)
model.compile(loss=’categorical_crossentropy’, optimizer=’adam’, metrics=[‘accuracy’])

batch_size = 1024
history = model.fit(np.array(list(d[‘x’])), np.array(list(d[‘y’])).reshape((-1,maxlen,5)), batch_size=batch_size, nb_epoch=50)

转移概率，单纯用了等概率

zy = {‘be’:0.5,
‘bm’:0.5,
‘eb’:0.5,
‘es’:0.5,
‘me’:0.5,
‘mm’:0.5,
‘sb’:0.5,
‘ss’:0.5
}

zy = {i:np.log(zy[i]) for i in zy.keys()}

def viterbi(nodes):
paths = {‘b’:nodes[0][‘b’], ‘s’:nodes[0][’s’]}
for l in range(1,len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1]+i in zy.keys():
nows[j+i]= paths_[j]+nodes[l][i]+zy[j[-1]+i]
k = np.argmax(nows.values())
paths[nows.keys()[k]] = nows.values()[k]
return paths.keys()[np.argmax(paths.values())]

def simple_cut(s):
if s:
r = model.predict(np.array([list(chars[list(s)].fillna(0).astype(int))+[0]*(maxlen-len(s))]), verbose=False)[0][:len(s)]
r = np.log(r)
nodes = [dict(zip([’s’,’b’,’m’,’e’], i[:4])) for i in r]
t = viterbi(nodes)
words = []
for i in range(len(s)):
if t[i] in [’s’, ‘b’]:
words.append(s[i])
else:
words[-1] += s[i]
return words
else:
return []

not_cuts = re.compile(u’([\da-zA-Z ]+)|[。，、？！.\?,!]’)
def cut_word(s):
result = []
j = 0
for i in not_cuts.finditer(s):
result.extend(simple_cut(s[j:i.start()]))
result.append(s[i.start():i.end()])
j = i.end()
result.extend(simple_cut(s[j:]))
return result
我们可以用model.summary()看一下模型的结构。

model.summary()

Layer (type) Output Shape Param # Connected to

input_2 (InputLayer) (None, 32) 0

embedding_2 (Embedding) (None, 32, 128) 660864 input_2[0][0]

bidirectional_1 (Bidirectional) (None, 32, 64) 98816 embedding_2[0][0]

timedistributed_2 (TimeDistribute) (None, 32, 5) 325 bidirectional_1[0][0]

Total params: 760005

最终的模型结果如何？我不打算去对比那些评测结果了，现在的模型在测试上达到90%以上的准确率不是什么难事。我关心的是对新词的识别和对歧义的处理。下面是一些测试结果（随便选的）：

RNN 的意思是，为了预测最后的结果，我先用第一个词预测，当然，只用第一个预测的预测结果肯定不精确，我把这个结果作为特征，跟第二词一起，来预测结果；接着，我用这个新的预测结果结合第三词，来作新的预测；然后重复这个过程。

结婚的和尚未结婚的

苏剑林是科学空间的博主。

广东省云浮市新兴县

魏则西是一名大学生

这真是不堪入目的环境

列夫·托尔斯泰是俄罗斯一位著名的作家

保加利亚首都索非亚是全国政治、经济、文化中心，位于保加利亚中西部

罗斯福是第二次世界大战期间同盟国阵营的重要领导人之一。 1941 年珍珠港事件发生后，罗斯福力主对日本宣战，并引进了价格管制和配给。罗斯福以租借法案使美国转变为 “ 民主国家的兵工厂 ” ，使美国成为同盟国主要的军火供应商和融资者，也使得美国国内产业大幅扩张，实现充分就业。二战后期同盟国逐渐扭转形势后，罗斯福对塑造战后世界秩序发挥了关键作用，其影响力在雅尔塔会议及联合国的成立中尤其明显。后来，在美国协助下，盟军击败德国、意大利和日本。

可以发现，测试结果是很乐观的。不论是人名（中国人名或外国人名）还是地名，识别效果都很好。关于这个模型，目前就说到这里，以后会继续深入的。

最后
事实上本文是提供了一个框架，能够直接通过双向LSTM对序列进行标注，给出完整的标注序列。这种标注的思路，可以用于很多任务，如词性标注、实体识别，因此，基于双向LSTM的seq2seq标注思路，有很广的应用，值得研究。甚至最近热门的深度学习的机器翻译，都是用这种序列到序列的模型实现的。

老三是只猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于双向LSTM的seq2seq字标注

事不宜迟，动手最重要。词向量维度用了128，句子长度截断为32（抛弃了多于32字的样本，这部分样本很少，事实上，用逗号、句号等天然分隔符分开后，句子很少有多于32字的。）。这次我用了5tag，在原来的4tag的基础上，加上了一个x标签，用来表示不够32字的部分，比如句子是20字的，那么第21～32个标签均为x。在数据方面，我用了Bakeoff 2005的语料中微软亚洲研究院（Microsoft Re
复制链接

扫一扫