【读书笔记】社会化标签系统语义相关度的拓扑图法计算

1、论文简介
解决问题
标签组织混乱
标签语义模糊

理论依据
标签共现网络的拓扑图

结果
建立了一种形式化的标签语义相关度计算模型
2、一些背景
社会化标签系统的好处
鼓励用户自发地创建、 选择和运用标签 可以充分地发挥用户的集体智慧 并具有自主演进能力
社会化标签系统存在的问题
用户操作的随意性又导致社会化标签系统中标签组织混乱和语义模糊, 严重阻碍了互联网资源的共享、 交换和利用效率. 
解决思路
提取标签隐含语义、 重建社会化标签系统所蕴含的结构化知识体系
标签共现网络
标签共现网络是社会化标签系统中标签根据共现关系( 同一用户标注同一资源同时使用的标签具有共现关系) 所形成的网络形态, 其拓扑结构实质上反映了标签语义的交叉影响

3、模型及其优势
3、1社会化标签系统概念模型
按照用户向互联网资源标注标签的行为, 社会化标签系统可抽象为概念模型F( U, T, R; Y), 其前3个元素分别表示标签、 用户和资源的有限集合, 第4个元素为标签标注行为的三元关系, 满足 Y  包含于  U×T×R. 对于任意标签t∈T,集合
表示所有与t相关的标注行为, 其元素为用户、 资源二元组. 对于任意的两个标签t 1, t 2 ∈T, 若 Wt 1 ∩Wt 2 ≠ 空集, 则t 1 和t 2 共现. 
理解:这里共现理解就是:标签属于同一个用户或同一个资源或同一个用户并且同一个资源
这样, 标签共现网络可以形式化地描述为无向图G( T, E), 其节点集即标签集T,边集 E    包含于   T×T 包括所有具有共现关系的标签二元组.
理解:这里的无向图仅仅是标签相关和不相关的无向图

相关度理论依据
语义关联强度, 与其拓扑距离的大小顺序一致
标签的语义相关度取值主要依赖于标签共现网络的相邻标签共现次数与网络拓扑结构两方面
理解:直接相关,与间接传递相关

3、2一些典型的标签相关度计算方法和局限性

假设σ:T×T →R, 为标签语义相关度计算函数, 对于任意标签t 1, t 2 ∈T
(1)直接使用二者的共现次数表示语义相关度
不是一个表示程度的量化指标, 且取值超出[ 0, 1] 范围
(2)根据集合的重叠比例,  计算 语义相关度
问题:公式的分母是什么意思,为什么要求平方根?
对于非共现标签强制规定其语义相关度为0
(3)考虑标签语义相关度计算中其他标签的潜在影响,为每个标签( 如t∈T)定义特征向量( 如xt)为该标签与所有标签的共现次数所形成的序列, 并提出了标签语义的余弦相关度计算公式为
 仅考虑了共现图中长度不大于2的路径对标签语义所产生的潜在影响, 无法进一步反映标签语义的交叉影响, 且缺乏明确的形式化描述
问题:长度不大于2作何解释?

3、3标签共现网络拓扑图的扩展
加权(相关度)
 从图论的角度将标签共现网络G 扩展为加权无向图G′( T, E; σ), 其中σ为共现标签的语义相关度计算函数, 用于生成G′各边的权值.
引入两个二元算子 
为折扣算子, 用于计算G′中路径的等效权值;
 对于任意标签a和b∈T, 某长度为n的路径p包含的标签有t 0 = a, t 1, t 2,…, t n+ 1 =b∈T( n≥1), 则该路径的等效权值为
理解:这个思想相当于固定资产折现(每个节点就是年份)
为聚合算子, 用于计算G′中具有相同起始、 终止节点的路径集的综合权值;
假设标签a和b间的所有路径有
p1, p2,…, pm ( m ≥1), 则综合权值为
理解:权值多路叠加
 交换性、结合性与G′的拓扑结构相关.
 折扣性、 聚合性、 保序性、 吸收性、 不变性刻画了标签语义相关度计算的累积特征
 其中权值0对应于不共现的标签对, 仅在数学描述上有意义
理解:结合上面两条理解就很简单了
扩展到矩阵运算
 对任意的n( n≥1)阶矩阵A、 B 满足


问题:这些就不好理解了
依次理解为:
就是简单的相关度,用之前采用的那几个公式都可以


3、4聚类对比分析模型优劣
同型相关系数指聚类处理结果保持原始数据关系的能力 取值越接近1 表明聚类效果越好
得到的结论:
(1)相比于基于统计的标签语义相关度计算( 对应于G( 1)), 基于拓扑图的计算结果具有更好的聚类表现
(2)曲线在k= 4达到顶峰, 在k= 7之后趋向平稳. 其原因在于:标签共现网络中路径越长, 对标签语义相关性的影响越小
4、应用
根据标签的语义相关度向用户提供标签联想功能, 引导并约束用户的标签使用行为。
标注标签
 标签联想可以降低标签拼写错误、 标签标注不当等问题的发生概率, 提高了标签的标注能力.
搜索网络资源
 标签联想又有助于优选搜索关键字, 优化搜索结果.

结果
文中为Firefox浏览器开发了一款Flickr照片联想搜索插件, 可以嵌入到Firefox浏览器中, 供用户在搜索Flickr照片时使用
思考:居然还可以开发插件,这个比较实用

5存在问题
算子选择
模型选用的Zadeh算子具有理想的数学特性, 但仍不能有效地反映标签共现网络拓扑图中路径越长、 其语义影响能力越弱的特性, 有待选择更为合适的算子
算法时间复杂度
模型对应算法的时间复杂度不大于O( n 4)( 最多n次循环的矩阵 运算), 但要使模型走向实用化, 降低计算的复杂度仍非常重要. 后期拟从限制计算步长、 设置最小阈值等方面展开这项工作, 并结合具体数据评价算法的改进效果.

总的思考:
(1)后期弄清楚那两个算子之后标签相关度改进可以使用这个方法
(2)为了评估计算结果,看来聚类很有必要加进来
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值