CS224W-6-message passing and node classification 第2部分

weixin_45519842

于 2020-03-07 01:34:44 发布

阅读量115

点赞数

本文链接：https://blog.csdn.net/weixin_45519842/article/details/108470414

版权

接着讲了第二种算法，iterative classification。

第一种方案 relational classifiers 仅仅根据标签进行迭代，完全浪费了节点的属性信息，显然如果节点之间的属性非常相似，那么节点的标签也很可能是一样的，所以iterative classification 的思路就是同时利用节点的属性（特征矩阵）和标签；

其过程是：

1、为每一个节点创建一个向量形式（这里的意思应该是根据每个节点的属性得到一个特征向量）

2、使用分类器对得到的特征矩阵结合标签进行训练；

3、对于一个标签可能拥有许多的邻居，因此我们可以对其邻居的节点进行各类统计指标的计算加入特征中作为衍生特征，例如count计数、mode 求众数、proportion求占比、均值、是否存在的bool特征等；

这里详细介绍了iterative classifiers的整个过程：

首先是bootstrap phase，先使用特征矩阵来训练一个传统的机器学习模型比如svm、knn，然后预测标签，还是伪标签的思路；

然后是iteration phase，进入迭代步骤，对于每一个节点i都重复：

1、更新特征向量ai；

2、重新训练并且预测得到新的标签yi

一直到预测的概率整体不再变化或者变动不大或是达到了最大迭代次数；

同样，收敛也是无法保证的。

（这里补充了一点使用的知识，就是这类迭代的算法怎么去确定其停止条件，一个就是输出的值的收敛，理想状态是输出基本不发生改变，如果始终不收敛就看输出的差值的波动情况，如果是周期性在某个范围内波动而其差值不随迭代次数继续增大则可以选择输出差值较低的结果作为最终的收敛状态；另一个思路就比较简单了，设定最大迭代次数）

具体的例子可见下：

这是一个信息量非常大也非常符合实际场景也非常好理解的案例，比如这里，如果不考虑网络信息单纯从特征上来看，中间的文章和最右边的文章的特征矩阵完全一样，所以如果使用传统的机器学习算法明显这二者的标签肯定都是判定成同一种的，但是实际上二者的标签是不一样的，这个时候我们就要引入额外的特征来帮助模型去判断二者的不同，此时，网络信息就作为一种非常宝贵的特征参与进来。

如果不考虑不同文档之间的关联，这实际上就是一个普通的文本分类问题，w1、w2、w3.。。表示的是文本（网页）中出现的单词，实际上就是一个词袋模型，这里为了简单，仅仅取了3个单词作为共同的词矩阵，然后用KNN，在不考虑网络信息的情况下训练了一个baseline。这里可以看到，在仅仅考虑节点属性（词矩阵）的情况下，4篇文章有一篇分类错了，把B错分成了A。

这里，我们根据网页之间的网络连接关系，从人类逻辑上就可以大致猜测出中间这篇文章的标签应该大概率是B，因为他和另外两篇标签也是B的文章关联非常密切。

所以，现在我们就把网络中的这种关联关系考虑进来，这里考虑进来的方式也很简单，因为上图是一个有向图，所以这里对于每个节点都生成4个新的特征，假设某个节点Z。则IA指指向节点Z的标签为A的节点的数量，IB同理；OA指的是节点Z指向的标签为A的节点的数量，OB同理；可以看到，实际上就是一个常规的特征衍生的操作，只不过衍生的特征来自于图结构上的关联关系，即网络相似性。

这课件写的真的太详细，非常好理解；

思路很简单，首先，我们在一个有标签的训练集上先训练一个仅使用节点属性（词矩阵、特征矩阵，下面统一用节点属性的称谓）的模型1，然后模型1输出预测标签，根据预测的标签我们得到了上面训练集的样本节点标签，然后这些节点标签的信息都以特征衍生的方式并入原始的节点属性中，最后我们利用新的节点属性（原始的节点属性和基于网络相似性生成的新特征）重新训练一个模型2。