【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008

最新推荐文章于 2024-03-01 11:54:54 发布

xceman1997

最新推荐文章于 2024-03-01 11:54:54 发布

阅读量4.9k

点赞数

分类专栏： DL

本文链接：https://blog.csdn.net/xceman1997/article/details/12682379

版权

DL 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

题目：A Unified Architecture for Natural Language Processing：Deep Neural Networks with Multitask Learning

作者：Ronan Collobert

单位：NEC

发表于：ICML2008

主要内容：

用DNN的方法，将language model, pos-tag, NER, chunk, SRL（Semantic Role Labeling ）统一到一个框架中，最终利用language model, pos-tag, NER, chunk等任务中自动学习的feature来提升SRL的性能，实验结果与state-of-the-art相当。

具体内容：

系统总体架构：

词向量表示组成语言模型。输入是一个分词之后的语句，词语替换成词向量表示形式（这部分由非监督学习训练而成，借鉴Bengio的工作），在词语基础上，是Pos-tag、NER、Chunk、SRL等工作，这些工作通过训练语料，用有监督的学习方式得到。这其中存在一个问题：输入语句是变长的，而NN的输入是定长的，如何解决这个矛盾？

方法1：用固定的窗口，来采集上下文特征。如预测位置i的词语对应的pos、NER标记等等，采用[i-d, i+d]区间的词语，作为特征来预测。这种方法与ME、SVM的使用方法是一样的。不过不能够利用更远距离的信息。

方法2：这篇文章采用TDNN（Time-Delay Neural Networks，Waibel et al., 1989）的模型，基本思路是对于变长序列做了一个卷积变换，输出一个固定长度的序列，这个序列长度由kernel决定。

语言模型训练过程中的准则函数是：