社交网络分析调研上

//2019年08月15日

文章来源:https://mp.weixin.qq.com/s/39_r3idlE3plqJwlhrvpAQ

 

一、相关概述

1、定义:“由许多节点构成的一种社会结构,节点通常是指个人或者组织,而社交网络代表着各种社会关系。”

*在之前是社会学和人类学的研究分支,现在所指的社交网络分析专指在线社交网络分析,该科学的发展是随着在线社交服务的出现而诞生的。

*在线社交服务种类:即时消息类(QQ\wechat\whatsApp\Skype)、在线社交类应用(QQ空间、人人、Facebook)、微博类、共享空间类应用(论坛、博客、视频分享、评价分享等)

*在线社交网络的特点:迅捷、蔓延、平等、自组织

2、研究背景

*社交网络因为四大特性,产生了正面影响,很多事件会在社交网络上迅速发酵

*与此同时,也产生了很多负面影响,一些谣言和假新闻会借助社交网络迅速传播,造成不可控的影响

*社交网络分析是基于信息学、数学、社会学、管理学和心理学等科学的交叉学科

3、研究方向和内容

*结构与演化

*群体和互动

*信息与传播

二、社交网络的结构特性和演化机理

1、社交网络的结构分析(建模)

(1)统计特征:模型中的很多概念来源于图论,因为其本质就是一个由节点和边组成的“图”

相关概念:

  • 度:网络平均度反映了网络的稀疏程度;度的分布可以刻画不同节点的重要性;
  • 网络密度:定义为网络中实际存在的边数与可容纳边上限的比值,刻画节点间相互连边(社交关系)的密集程度
  • 聚类系数:描述网络中与同一节点相连的结点间也互为邻节点的程度,刻画社交网络中一个人朋友们之间也互相是朋友的概率,反映了社交网络中的聚集性
  • 介数:图中某点承载整个图所有最短路径的数量,通常用来评价节点的重要程度

(2)网络特性

  • 小世界现象:“地理位置相距较远的人”可能具有较短的社会关系间隔
  • 无标度特性:节点度分布不存在有限衡量分布范围的性质称为无标度,无标度网络表现出来的度分布特征为幂律分布,这是此类网络的无标度特性。

*小世界现象,最初的提出是哈佛教授提出的”六度分割理论”,然后19998年正式提出这个概念,并建立了小世界模型。

(3)网络模型

  • WS模型:即小世界模型,通过该模型生成的小世界网络,是从规则网络向随机网络过渡的中间形态
  • BA模型:考虑现实网络中节点的幂律分布特性,生成无标度网络
  • 其它:森林火灾模型、Kronecker模型、生产模型

2、虚拟社区发现技术

(1)定义:虚拟社区基于子图局部性(社区结构是若干节点子集的集合,每个子集内部点连接紧密,不同子集节点之间的连边相对稀疏),瑞格尔德对其最早的定义“一群主要藉由计算机网络彼此沟通的人们,他们彼此有某种程度的认识、分享某种程度的知识和信息、在很大程度上如同对待朋友般彼此关怀,从而所形成的团体”。

*个人理解:应该是社交网络中联系紧密的一个子图

(2)研究意义

*有助于理解网络拓扑结构特点,揭示复杂系统内在功能特性,理解社区内关系

*为信息检索、信息推荐、信息传播控制和公共事件管控提供有力支撑。

理解:就相当于现在所做的工作,将所有的信息建模,然后找到相应的一堆关系子图,其实就是寻找到社交网络有价值的群体子图???然后再根据此子图进行研究。

(3)社区发现评价指标

  • 模块度:通过比较现有网络与基准网络在相同社区划分下的连接密度差来衡量网络社区的优劣
  • NMI:利用信息熵来衡量预测社区结构一直社区结构的差异,差值越大,划分越好;
  • Rand Idex:表示在两个划分中都属于同一社区或者都属于不同社区的结点对的数量的比值 
  • Jaccard Index:用来衡量样本之间的差异性

(4)发现算法

*社区静态发现

  • 模块度最优化算法
  • 多目标优化算法
  • 基于概率模型的算法
  • 信息编码算法

*社区动态发现

  • 派系过滤算法
  • 基于相似度的聚合算法
  • 标签传播算法
  • 局部扩展优化算法

3、虚拟社区的演化分析

*在线社交网络中存在的大量显性或者隐性的虚拟社区结构,但是这些社区的结构不是永恒不变的,随着事件的变化,社区结构也在不断演变,所以要分析动态的虚拟社区结构演化

(1)虚拟社区的涌现:其从无到右的过程,最重要的特征是网络聚集现象。

  • 周期闭包:网络节点倾向于和自己在网络中邻居的邻居建立连接关系而形成的结构,这是虚拟社区形成的主要因素。(焦点闭包:两个节点间有共同的兴趣或者参与共同的活动)
  • 偏好连接:很多真实网络中,新增加的边并不是随机连接的,而是倾向于和具有较大度数的连接

(2)虚拟社区的演化

*影响因素很多,重点是如何挖掘虚拟社区演化中的关键因素!

*用户个体的累积效应,结构的多样性和结构平衡性对虚拟社区的演化都存在影响

(3)演化虚拟社区的发现(有很多研究资料)

相关算法

  • 基于相邻时刻相似度直接比较的演化虚拟社区发现
  • 基于演化聚类分析的演化虚拟社区发现
  • 基于拉普拉斯动力学方法的演化虚拟社区发现
  • 基于派系过滤算法的虚拟社区发现
  • 基于节点行为趋势分析的演化虚拟社区发现

问题理解:这个演化虚拟社区发现和之前静/动的演化社区发现有什么区别,这里的研究工作还是在虚拟社区发现上是嘛?

三、社交网络群体行为和互动规律

1、用户行为

*定义:使用户对自身需求,社会影响和社交网络技术进行综合评估的基础上做出的使用社交网络服务的益园,以及由此引起的各种使用活动的总和。

*用户行为的研究:

  • 将在线社交网络作为一种特定的信息技术,研究用户对在线社交网络技术的采纳行为、拒绝行为和用户忠诚;
  • 将在线社交网络视为提供各种服务和应用的平台,研究用户使用各种服务和应用所表现出来的特征和规律

(1)用户采纳和忠诚度:用户在对自身需求、社会影响和在线社交技术进行综合评估的基础上做出的使用在线社交网络服务的意愿或行为,在线社交网络再出现初期能否被尽可能多的用户采纳和试用对于其后续的扩散至关重要。

目前,会对用户忠诚做相关的研究

*相关算法

  • 基于技术接受模型的在线社交网络用户采纳模型
  • 基于计划行为理论的在线社交网络用户采纳模型
  • 基于期望确认理论的在线社交网络用户忠诚模型
  • 基于心流体验理论的在线社交网络用户忠诚模型

(2)用户个体使用行为

  • 一般使用行为
  • 内容创建行为
  • 内容消费行为

(3)用户群体互动行为

  • 群体互动关系选择
  • 群体互动的内容选择
  • 群体互动的时间规律

2、社交网络情感分析

*网络已经是人们获取信息,发表意见的主要途径,根据文本内容,可以分成两种:客官描述信息和主观性信息。

*情感分析在这里等同于“意见挖掘“,是针对主观性信息进行分析、处理和归纳过程。

(1)文本情感分析

(2)社交网络情感分析技术

3、个体影响力分析

*发现社交网络中有影响力的个体

(1)基于网络结构的个体影响力计算:度中心度(与该节点直接相连的节点的数量)、接近中心度(某节点与网络中所有其他节点的最短距离之和)、介数(衡量某节点在社交网络中中介作用大小,网络中某两个节点所有最短路径的数量除以这些路径中经过A节点路径的数量便是A节点的介数)

(2)基于行为的个体影响力计算

(3)基于话题的个体影响力计算

4、群体聚集及影响机制分析

*群体极化:在群体决策的情境中,个体意见或决定往往会受到群体间的彼此讨论的影响,而产生一个群体性的结果。群体极化往往表现 为群体内的个体不经过个人思考而同意大多数人的观点。

*产生条件:

  • 必须有激发事件出现
  • 群体内的个人能看到前人的选择
  • 群体信息缺乏
  • 群体有一定的同质性

四、社交网络信息传播与演化机理

1、在线社交网络信息检索

*信息检索:从大规模非结构化数据中获取信息的过程

(1)社交网络内容搜索

  • 时间先验方法
  • 多特征组合的方法

(2)社交网络内容分类

(3)社交网络推荐

  • 协同过滤推荐
  • 基于模型的推荐:邻居模型,矩阵分解模型,融入社交网络信息

2、社交网络信息传播规律

*信息传播是人们通过符号、信号、传递、接收与反馈信息的活动,是人们彼此交换意见、思想、情感已达到互相了解和影响的过程。

(1)基于网络结构的传播模型

  • 线性阈值模型
  • 独立级联模型

(2)基于群体状态的传播模型

  • 线性影响力模型

(3)基于信息特征的传播模型

 

3、话题发现与演化

(1)基于主题模型的话题发现

(2)基于向量空间模型的话题发现

(3)基于词项关系图的话题发现

(4)基于主题模型的话题演化

(5)基于相邻时间片关联的话题演化

、4、影响力最大化

*在社交网络中选定信息初始传播用户,使得信息的传播范围能达到最大,即影响力最大。

*目的:找到一定数量的用户作为影响力传播的初始节点,对影响力最大化的问题的建模是基于社交网络信息传播模型的。

  • 贪心算法
  • 启发式算法

 

理解总结:社交网络总共的方向是三个,社交网络的构建和分析、社交网络的群体和用户分析、社交网络的信息传播。在社交网络中,社交网络的构建和分析是基础,其中包括网络的分析(分析现实网络的规律和特性,从而更好的进行建模,研究构建算法)、虚拟社区的发现和分析(在构建的网络中发现有价值的网络信息)、虚拟社区的演化(就是在网络的发展过程中,这个社区是不断变化和发展的,要在动态中去发现新的社区);在这些基础上,去研究个体的行为和群体的行为,然后得到有价值的信息,与此同时利用构造的网络,利用算法,进行信息的传播。

 

问题理解:

1、动态社区发现与社区演化的区别:

静态和动态是计算方法的不同,所谓静态计算发现方法,是通过优化网络的局部目标函数,搜索网络社区划分的空间,静态的找出最佳的虚拟社区结构;动态计算方法是基于网络局部拓扑信息,由网络中的结点动态逐步推演,最终形成虚拟社区结构。

对于社区的演化,是指网络是不断改变的,自己的理解,在动态的社交网络中怎么去发现虚拟社区。

2、如何知道找到的虚拟社区是对的?

算法评价标准:上面所提到的准确度指标。

3、目前的研究难点

(1)网络的规模急剧膨胀

(2)人际关系的复杂性决定了社会网络的动态变化性

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值