关联指数
关联指数: 衡量系统中各因素相关程度的方法
示例数据
提及量 | A | B | C | 合计 |
---|---|---|---|---|
a | 600 | 200 | 100 | 900 |
b | 200 | 800 | 300 | 1300 |
c | 200 | 800 | 300 | 1300 |
合计 | 1000 | 1800 | 700 | 3500 |
数据解释
对角线数据:同时提及A和a的数据量
非对角线数据:同时提及A和 b/c 的数据量
问题:计算A和b的关联指数
1. 看绝对数量
统计A和b同时提及的次数:200
缺点: 没有相关标准衡量关联的强弱,极受数据量的影响
2. 条件概率
P(A|b) = 提及b的里面有多少同时提及了A
P = 200/1300
结果范围:0~1
缺点:
围绕分母展开,具有方向性,提及b的情况下提及A的概率,没有考虑到提及A纹的情况下提及b的概率;
缺少全局观,不能横向对比;比如:暗沉和细纹的关联度与抗初老与细纹的关联度,谁更强
3. TGI
TGI: 即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算公式为:TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。
TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100
分子:200/1300 :提及b的人群里提及A的概率
分母:1000/3500:所有人群中提及A的概率
抗初老和细纹的关联强度= 分子/分母=(100 * 1900 / 500 * 600) * 100 = 同时提及A和B的打上需求标签的总数据量/提及A提及B
以100为分界线,大于100说明强关联,小于100弱关联
缺点:
1.TGI 解决了全局观和可比性的问题;但TGI有缺点,规模很小的情况下,TGI会很大,波动强,所以先扔掉规模小的数据再去计算
2.TGI计算的前提的是全局观,所以需要的数据是全面的,比如上述的需求计算,在提数过程中要把所有提及上面的需求的数据提出来后再去计算
解决TGI异常的问题
-
公式拆解来看:tgi = 100card(A∩B)card(T)/(card(A)*card(B))
tgi过大,是由于分母过小,可能是A导致,也可能是B导致;所以解决的办法找出过小的A 或 B 不参与计算 -
如何定义过小值:行或列的占比,不足千分之一时,TGI不计算
A/T <0.001
B/T <0.001
Python 代码
def get_tgi(df):
df.columns = ['attr1','attr2','cnt']
df = df.pivot_table(values = 'cnt',index = 'attr1',columns = 'attr2')
total = df.loc['total','total']
for x in df.columns[1:]:
for i in df.index[1:]:
df.loc[i,x] = 100*df.loc[i,x]*total/df.loc[i,'total']/df.loc['total',x]
df.fillna(0,inplace = True)
return df