TGI关联指数 + Python

最新推荐文章于 2024-03-21 20:06:48 发布

羊羊猪

最新推荐文章于 2024-03-21 20:06:48 发布

阅读量598

点赞数

分类专栏： python随手技巧文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/weixin_46599926/article/details/125171063

版权

python随手技巧专栏收录该内容

27 篇文章 4 订阅

订阅专栏

关联指数

关联指数： 衡量系统中各因素相关程度的方法
示例数据

提及量	A	B	C	合计
a	600	200	100	900
b	200	800	300	1300
c	200	800	300	1300
合计	1000	1800	700	3500

数据解释
对角线数据：同时提及A和a的数据量
非对角线数据：同时提及A和 b/c 的数据量

问题：计算A和b的关联指数

1. 看绝对数量

统计A和b同时提及的次数：200
缺点： 没有相关标准衡量关联的强弱，极受数据量的影响

2. 条件概率

P(A|b) = 提及b的里面有多少同时提及了A
P = 200/1300
结果范围：0~1
缺点：
围绕分母展开，具有方向性，提及b的情况下提及A的概率，没有考虑到提及A纹的情况下提及b的概率；
缺少全局观，不能横向对比；比如：暗沉和细纹的关联度与抗初老与细纹的关联度，谁更强

3. TGI

TGI分析

TGI： 即Target Group Index（目标群体指数），可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算公式为：TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。

TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100

分子：200/1300 ：提及b的人群里提及A的概率

分母：1000/3500：所有人群中提及A的概率

抗初老和细纹的关联强度= 分子/分母=(100 * 1900 / 500 * 600) * 100 = 同时提及A和B的打上需求标签的总数据量/提及A提及B

以100为分界线，大于100说明强关联，小于100弱关联

缺点：

1.TGI 解决了全局观和可比性的问题；但TGI有缺点，规模很小的情况下，TGI会很大，波动强，所以先扔掉规模小的数据再去计算

2.TGI计算的前提的是全局观，所以需要的数据是全面的，比如上述的需求计算，在提数过程中要把所有提及上面的需求的数据提出来后再去计算

解决TGI异常的问题

公式拆解来看：tgi = 100card(A∩B)card(T)/(card(A)*card(B))
tgi过大，是由于分母过小，可能是A导致，也可能是B导致；所以解决的办法找出过小的A 或 B 不参与计算
如何定义过小值：行或列的占比，不足千分之一时，TGI不计算
A/T <0.001
B/T <0.001

Python 代码

def get_tgi(df):
    df.columns = ['attr1','attr2','cnt']
    df = df.pivot_table(values = 'cnt',index = 'attr1',columns = 'attr2')
    total = df.loc['total','total']

    for x in df.columns[1:]:
        for i in df.index[1:]:
            df.loc[i,x] = 100*df.loc[i,x]*total/df.loc[i,'total']/df.loc['total',x]

    df.fillna(0,inplace = True)
 
    return df