论文阅读（二）AliCoCo

最新推荐文章于 2022-11-20 18:39:15 发布

Z字君

最新推荐文章于 2022-11-20 18:39:15 发布

阅读量2.2k

点赞数 1

分类专栏：科研论文（过去式）文章标签：数据挖掘

本文链接：https://blog.csdn.net/zzc_zhuyu/article/details/105298956

版权

科研论文（过去式）专栏收录该内容

2 篇文章 1 订阅

订阅专栏

AliCoCo: Alibaba E-commerce Cognitive Concept Net

文章目录

AliCoCo: Alibaba E-commerce Cognitive Concept Net

1 介绍

语义鸿沟的问题：用户脑子里面想的和平台给出的商品的组织方式不一样。

平台：基于CPV（Category-Property-Value），分类组成了层次结构，属性值是叶子，也就是最后考虑的东西。比如说，“红色卫衣”，肯定是先找“衣服”，再找“卫衣”，最后找“红色的”，不可能先从红色这个属性开始找吧。

这种方式很自然，很好理解。但是有问题：

搜索。只适用于用户明确知道要买什么的情况。当用户只是想解决某个场景的问题的时候，就不适用了。比如说，“户外烧烤”这个例子，它是一个场景，不是明确的物品，搜索引擎肯定不知道到底显示什么给我。这个时候，我就会百度“户外烧烤”需要什么，然后得到“烧烤架”呀、“烤肉”呀、“煤炭”呀，等等，然后再上淘宝一个一个搜。这让就显得不智能，对吧，你应该把这一系列的东西都给展示出来，我再一个一个挑，这样多好。
推荐。现在的电商平台的推荐都是基于历史的，显然，这样的一个缺点是不是用户需求驱动的。比如说，我买了一本《计算机网络》的书，然后，全都是给我推荐《计算机网络》的商品。我都已经买好了，已经不需要了，怎么还给我推荐！！

目标：在用户需求和现有的分类之间建立一个中介，来弥补语义鸿沟问题。

AliCoCo

2 总览

组成：e-commerce concepts, primitive concepts, taxonomy and items.

e-commerce concepts：表示用户需求，具体的购物场景，用户要解决的问题。
primitive concepts：为了更好理解e-commerce concepts构建的一层
taxonomy：将所有primitive concepts按照“isA”的关系分类
item：具体的物品

比如说，“户外烧烤”这是一个e-commerce concepts，是一个具体的购物场景，
”户外“和”烧烤“是primitive concepts，
"户外"在taxonomy中属于”地点“，"烧烤"在taxonomy中属于”事件“，
然后，什么烧烤架、烤肉等是items.

3 TAXONOMY

若干领域的专家预定好的层次的，来索引原子概念

4 PRIMITIVE CONCEPTS

具有分类法的原子概念有望准确、全面地描述电子商务中的每一项商品和用户需求。它们是了解客户高层次购物需求的基础。原子概念也是被组织成层次结构。

4.1 词汇挖掘

上文中通过专家们的努力，现在已经有了分类方法，那么现在要干的就是创造原子概念。原子概念可以认为是词汇，比如“style”、"color"等

在实践中，我们主要采用基于规则的匹配算法，并结合人工的努力来对每个数据源的分类进行人工校对。
从电子商务领域产生的大规模文本语料库（如搜索查询、产品名称、用户点评、购物指南等）中挖掘新概念，挖掘特定类的新概念。这个过程，可以表示为序列标记任务，其中输入是单词序列，输出是预定义的标签序列。

BiLSTM-CRF model：一个BiLSTM层和一个CRF层。

BiLSTM层（双向LSTM层）：使隐藏状态能够捕获单词的历史和未来上下文信息。（单向的LSTM只能保存历史信息，双向的既考虑历史有考虑未来）
CRF(条件随机域)考虑当前标签和相邻标签之间的相关性

我的理解：输入一个有关商品的评论，分词，通过这个网络，这个网络是RNN的一种，然后就每个分词而言，得到一个向量，向量的每个维度表示是否属于上一节分类，比如0表示是这个门类，1表示不是这个门类。

通过这个网络获得的所有的这些概念都会手动检查保证正确性（这得多么大的工作量）

4.2 上位词发现

在一级原子概念的基础上进行更细程度的划分，就是判断任意两个原子概念的超词关系。比如，酸、甜都是属于味道这个门类，但是他们之间没有超词关系，而香甜、甘甜和甜之间有超词关系。

无监督模型 + 监督的投影学习模型

1 基于模式

基于模式的上位词发现方法，定义了上位词的特定的文本模式，如“Y，比如X”来挖掘语料库中的下位词-上位词对。比如说，“这件衣服样式很时髦、高端、潮流”这句话中，上位词“样式”、下位词“时髦”等同时出现了。

但是，这种方法的召回率较低，因为它假定下位词-上位词对同时出现在其中一种模式中，但是当与语料库中的模式相匹配时，这通常是不正确的。（就是说，在实际中，这种方法得到的上位词-下位词对很少，大部分的上位词-下位词对没有得到，这是因为上位词-下位词小概率同时出现在指定的模式中，大部分时间都没有同时出现）。还是上面那个例子，更口语化的描述是“这件衣服很时髦”，上位词、下位词没有同时出现。

需要使用额外的一些特殊的汉语语法特征直接发现上位词。

2 投影学习

投影的总体想法学习是：学习一个函数，输入是一个下位词p和一个可能的上位词h，他们的词嵌入表示，输出p、h之间有关系的可能性。
对于一个给定的下义词p，为了发现上位词，我们这个决定函数适用于所有候选上位词，并选择最有可能的。

给定一对候选p和h，首先通过电子商务语料库获得它们的词嵌入表
用投影张量T来衡量他们之间存在超词关系的可能性
- T是一个网络，有K层隐含层
- 每一层这样计算：s^k = p^T T^k h
- 将所有的s^k加起来得到向量s
- 最后通过sigmoid激活函数，得到最终结果可能性y = σ(Ws+b)

T是怎么得到的呢？训练过程呢？

3 主动学习

原文：so that we can economically learn an accurate model by reducing the annotation cost。这里的注释成本不懂是什么意思。

它基于的前提：如果允许模型自己准备训练数据，则可以获得更好的性能。使用UCS来选择样本点降低计算成本。

输入：未标记数据集D，测试数据集T（T时怎么来的？？？），人为标签H，K是已经人为标记的样本数
输出：计分函数f，分数S

先从数据集D中随机选择K个样本组成D₀，专家进行标记。得到了初始的含有标记的数据集L₀，这些样本就可以从D中移除了
用L₀来训练投影学习模型f，然后在f测试集T上面评估性能
使用f预测D的得分S₀
迭代过程，主动学习抽样策略：不确定性和高可信抽样 uncertainty and high conﬁ- dence sampling (UCS)
- 方面一：不确定抽样。如果样本的预测得分接近0.5，说明当前模型很难判断该样本的标签。如果专家对该样本进行标记，则该模型可以通过学习该样本来增强其能力。用|Si- 0.5|/0.5来计算这个概率。
- 方面二：高置信度。当遇到相同、类似关系时，模型很可能将一些预测困难的负样本预测为高置信度的正样本。（？？？）。选择了得分较高的样本，利用α来控制不同的抽样权重，得到新的人类标记数据集，用以训练更好模型。
fs没有提高时，停止迭代

5 E-COMMERCE CONCEPTS

5.1 标准

什么是好的"e-commerce concepts"

电子商务的意义。容易让人想到某些商品，这意味着它应该自然地代表特定的购物需求。
一致性。应该是一个连贯的短语，（个人理解就是说起来很通顺，没有倒装之类的语法）。
合理性。（符合实际情况）
清晰。（描述不冗余）
正确性。没有语法错误。

5.2 产生

两阶段。一使用两种方法生成候选的"e-commerce concepts"，二提出而分类模型识别满足要求的

1 产生候选的e-commerce concepts

从文本中挖掘
使用现有的”原子概念“产生。规则：自动挖掘、手工模式

2 分类

自动判断是否合适，最难满足的标准是合理性

基于知识增强的深度分类模型：首先将候选概念的每个单词链接到一个外部知识库，然后从中引入丰富的语义信息。

输入：候选概念c
输出：得分s

5.3 理解

将电子商务概念与原子概念建立连接，更好的理解电子商务概念，称为“e-commerce concept tagging”

比如，“户外烧烤”将“户外”连接到原子层的“地点”，“烧烤”连接到原子层的“事件”。但是“户外”可能是一部电影的名字，从而连接到原子层的”知识产权“。也就是实体识别问题，难度：
1.短文本，2.没有上下文语义。

基于模糊CRF的文本增强型深度NER模型，如图所示。

在这里插入图片描述

输入是一个经过汉语分词的词序列{w1, w2，…wm}
输出的是一个长度相同的序列{y1, y2,…, ym}，用In/Out/Begin (I/O/B)模式表示每个单词的类标签。？？？
该模型由两个部分组成:文本增强概念编码器和模糊CRF层。

1 文本增强概念编码器

为了利用表示层中的信息特性，使用了单词级、字符级和位置级特性。

随机初始化一个查找表，以获得每个字的嵌入表示。设C为汉字的词汇量，一个词语wi可以表示为一个汉字向量序列:{ci1, ci2，……， cit}，其中cij为第j个汉字的向量，t是词语的长度（这个词语有多少个汉字）。
采用CNN来提取每个词语wi的字符级特征ci。使用一个窗口大小为k的卷积层来包含每个汉字的相邻字的信息。然后应用最大池操作输出最终汉字表示。
为了捕获单词级特征，使用来自GloVe的先训练的单词嵌入来将词语映射到实值向量xi中来初始化词语特征，并在训练期间进行调整。此外，我们还计算了词性标注特征pi。连接三个嵌入项得到单词表示wi:wi = [xi; ci; pi].
将词语表示序列提供给BiLSTM层，以获得隐藏嵌入{h1, h2，…,hm}。为了增加文本信息，构建了一个文本嵌入矩阵TM，将每个词语映射回文本语料库中，提取周围的上下文并通过Doc2vec进行编码。所以，在TM中查找每个单词wi来获得一个文本增强的嵌入tmi。将hi和tmi连接起来，然后使用一个self-attention层，通过考虑周围单词的增广文本嵌入来调整每个单词的表示，目的是为这项任务获得更好的特征表示:
h’i = SelfAtt([hi ; tmi ]).

2 模糊CRF层

使用模糊CRF是为了更好地处理歧义问题，因为每个单词的有效类标签不唯一，且概念太短。比如：电子商务概念“乡村半身裙”中的“乡村”这一词与可以与原子概念“空间:乡村”连接，也可以与“风格:乡村”连接。因此，最终概率调整为

在这里插入图片描述

其中Y_X表示序列X的所有可能的标签序列，Y_possible包含所有可能的标签序列。

在这里插入图片描述

6 ITEMS

连接items和e-commerce concepts。

由于“语义漂移”的现象（比如，场景“户外烧烤”，可以与item木炭连接，但是木炭与原子概念“地点：户外”无关，就是延伸吗？？），二者之间的联系不能直接从对应的原子概念与相关商品之间的联系中推断出来。

由于现阶段只使用items的文本特征(???还有其他的特征吗???)，我们将这一任务定义为文本间的语义匹配。将电子商务概念与相关items联系起来的主要挑战是概念长度过短以至于可以使用的信息有限，同时一些不太重要的词有可能误导匹配过程。为了解决这一问题，我们提出了一种知识感知的深度语义匹配模型：

在这里插入图片描述

输入是一个概念词序列和一个候选商品标题的的词序列。
将两个序列的预先训练好的词嵌入与它们的POS标记嵌入和NER标记嵌入(类似于5.3)连接起来:{w1, w2，…wm}和{t1, t2，…tl}，得到的输入的嵌入表示。
采用窗口大小为k的CNN对概念和商品分别进行编码
概念中的不同单词在与项目匹配时应该共享不同的权重，反之亦然。因此，在模型中应用注意机制（又一个不知道什么意思的概念？？），同时利用注意矩阵对双向交互进行建模。
为了引入更多的信息来帮助语义匹配，我们在第5.2.2节中获得了相同的嵌入量。
此外，我们还得到了与当前电子商务概念相联系的类标签id嵌入第j个概念的clsj。
。。。