TGI关联指数 + Python

关联指数

关联指数: 衡量系统中各因素相关程度的方法
示例数据

提及量ABC合计
a600200100900
b2008003001300
c2008003001300
合计100018007003500

数据解释
对角线数据:同时提及A和a的数据量
非对角线数据:同时提及A和 b/c 的数据量

问题:计算A和b的关联指数

1. 看绝对数量

统计A和b同时提及的次数:200
缺点: 没有相关标准衡量关联的强弱,极受数据量的影响

2. 条件概率

P(A|b) = 提及b的里面有多少同时提及了A
P = 200/1300
结果范围:0~1
缺点:
围绕分母展开,具有方向性,提及b的情况下提及A的概率,没有考虑到提及A纹的情况下提及b的概率;
缺少全局观,不能横向对比;比如:暗沉和细纹的关联度与抗初老与细纹的关联度,谁更强

3. TGI

TGI分析

TGI: 即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算公式为:TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。

TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100

分子:200/1300 :提及b的人群里提及A的概率

分母:1000/3500:所有人群中提及A的概率

抗初老和细纹的关联强度= 分子/分母=(100 * 1900 / 500 * 600) * 100 = 同时提及A和B的打上需求标签的总数据量/提及A提及B

以100为分界线,大于100说明强关联,小于100弱关联

缺点:

1.TGI 解决了全局观和可比性的问题;但TGI有缺点,规模很小的情况下,TGI会很大,波动强,所以先扔掉规模小的数据再去计算

2.TGI计算的前提的是全局观,所以需要的数据是全面的,比如上述的需求计算,在提数过程中要把所有提及上面的需求的数据提出来后再去计算

解决TGI异常的问题

  • 公式拆解来看:tgi = 100card(A∩B)card(T)/(card(A)*card(B))
    tgi过大,是由于分母过小,可能是A导致,也可能是B导致;所以解决的办法找出过小的A 或 B 不参与计算

  • 如何定义过小值:行或列的占比,不足千分之一时,TGI不计算
    A/T <0.001
    B/T <0.001

Python 代码

def get_tgi(df):
    df.columns = ['attr1','attr2','cnt']
    df = df.pivot_table(values = 'cnt',index = 'attr1',columns = 'attr2')
    total = df.loc['total','total']

    for x in df.columns[1:]:
        for i in df.index[1:]:
            df.loc[i,x] = 100*df.loc[i,x]*total/df.loc[i,'total']/df.loc['total',x]

    df.fillna(0,inplace = True)
 
    return df
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值