论文地址:http://shebuti.com/wp-content/uploads/2016/06/15-kdd-collectiveopinionspam.pdf
Terminology:
Bipartite network 二分网络: 二分网由两种类型的节点构成,边只在不同类型的节点间存在。自然和社会中一系列的合作网络,都可以描述为合作主体和合作事务构成的二分网。二分网具有普遍性,已经成为复杂网络研究的重要对象。在已有关于二分网的研究工作中,通常的做法是把二分网投影到单顶点网络,然后进行网络分析。(百度百科)
Relational data: user-review-product graph
Metadata: behavioral and text data (information that provides information about other data)
Unsupervised, Semi-supervised, Supervised区别:
https://blogs.nvidia.com/blog/2018/08/02/supervised-unsupervised-learning/
Supervised: having a full set of labeled data while training an algorithm 用于训练的数据集的每个数据都包含了算法应该输出的结果.比如有关于花的品种的数据集,那么这些被labeled了的数据就会告诉模型它们预测得对不对。When shown a new image, the model compares it to the training examples to predict the correct label. 一般地,如果我们有可以作为参考的数据集,那么我们可以用supervised learning。“Supervised learning is, thus, best suited to problems where there is a set of available reference points or a ground truth with which to train the algorithm. But those aren’t always available.”
Unsupervised:如果我们没有足够的可以参考的数据集,而且我们需要利用算法来得到答案的时候,我们就要用unsupervised learning。No explicit instruction, 训练数据集也是一堆没有标准答案的数据。然后神经网络*就会自动在数据集中通过分析特征找到数据中的结构。