社交网络:数据科学家眼中的金矿

本文探讨了社交网络如Facebook、Twitter和LinkedIn的数据价值,分析了社交圈子识别、影响力计算、信息传播建模和虚假用户识别等课题。数据科学家通过算法研究社交网络中的行为和趋势,预测股市、流行病等,同时面对隐私保护的挑战。
摘要由CSDN通过智能技术生成

随着Facebook的上市,社交网络再次成为人们关注的焦点。与传统的论坛、博客相比,社交网络是虚拟世界与现实世界的桥梁,在互联网上将现实生活中人与人之间的关系建立起来。从社交网络的分类来看,Facebook、Twitter、LinkedIn分别代表三种不同的社交网络。Facebook是基于朋友之间强关系的社交网络,有助于朋友之间关系的维系和改善;Twitter是基于单向关注的弱关系的社交网络,这样的网络有利于塑造意见领袖和消息的传播;LinkedIn是面向商务人士的职业社交网络,帮助用户利用社交关系进行商务交流以及求职招聘。

三种社交网络每天都会产生大量的用户数据(UGC,User Generated Content),并且具有空前的规模性和群体性,吸引着无数研究者从无序的数据中发掘有价值的信息。这就像概率统计中经常举的投硬币算其正反面概率的例子,从几次的投掷结果中很难看到规律,但通过几万次的大量投掷实验,便很容易看出正反面的出现次数几乎相等的规律。社交网络上产生了大量的规模化、群体化的数据,吸引了包括计算机科学、心理学、社会学、新闻传播学等领域专家和学者对其进行研究和探索,希望能够借助更强的社交网络的分析和处理能力发现更多人类尚未探索出的规律。

对于社交网络的分析和研究范围很广,也存在着许多有意思的研究课题。例如,在社交网络中社区圈子的识别(Community Detection)、 社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及传染病的预测等。社交网络的分析和研究是一个交叉领域的学科,所以在研究过程中,我们通常会利用社会学、心理学甚至是医学上的基本结论和原理作为指导,通过人工智能领域中使用的机器学习、图论等算法对社交网络中的行为和未来的趋势进行模拟和预测。

社交圈子的识别

与一般的以内容为导向的论坛等社区不同,社交网络最核心的就是人与人的关系,以及所形成的社交圈子(社区),然而每个人根据自己的关系不同及兴趣不同可以属于多个社交圈子。在社交网络中我们发布的所有信息流,都是通过我们的关系圈,逐层向外传播的;我们收到的消息也直接来自我们所关心的人,更外围的消息也必须逐层传播才能接触到终端用户。因此,如何发现社交圈子是社会关系网络分析中一个很重要的基础性的研究。社交圈子示例如图1所示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值