8月第四周 | shell date、TGI衡量用户偏好

说好周更,总不能第一周就放鸽子,整理好了思路,开始下笔。

每周的这种杂记会比较零散、混乱而不成体系,我只是想记录下 我这周做了什么、遇到了什么不懂的、我怎么解决的 或者 我学了什么新知识、有什么新体悟。去呈现一些 数据分析师的日常,让大家对这个职业也有所了解(我也还在学习和探索中……我所在行业也不能代表所有)。

这周的几个关键词:
  • shell脚本的date用法
  • TGI指数衡量用户偏好

1. 新知识:shell脚本的date用法

1.1 背景

来到数据量比较大的公司,才接触到hive,写的 hql需要用shell脚本调用,这也是我第一次接触到shell。
通常数据分析师只需要看懂很基本的shell脚本语言就好了(别人写好的),之后也不会需要自己写,每次跑数都是修改hql部分就好了。但偶尔根据实际情况,也需要去稍微修改。比如,别人写好的shell脚本里日期设置为当天,但我遇到一张表,他的数据是t-1的,那我就需要自己再增加一个变量yesterday。这时候,我就要学习怎么用shell脚本的date用法。
不过date也算比较基本的知识点了吧,而且我反反复复遇到过好几次,是有必要掌握和补上的盲点。

1.2 shell之date的用法

以下示范都是在mac终端的shell脚本下,

1)输出当前日期/时间

# 输出当前时间,但是这个格式不一定是你要的
date
# 格式化日期:按照%Y%m%d的格式输出当前日期
date +"%Y%m%d"
# 输出当前时间:按照"%Y%m%d %H:%M:%S"的格式输出时间
date +"%Y%m%d %H:%M:%S"

在这里插入图片描述

2)输出昨天日期

mac下的date命令计算时间的方法和linux会不太一样, 命令参数为[-v[+|-]val[ymwdHMS]] ,date 后加 -v加减一个值,最后填写格式化参数格式化输出。

# 昨天
date -v-1d +"%Y%m%d"
# 前天
date -v-2d +"%Y%m%d"
# 明天
date -v+1d +"%Y%m%d"
# 后天
date -v+2d +"%Y%m%d"
# 2秒后
date -v+2S +"%Y%m%d"
# 2分钟后
date -v+2M +"%Y%m%d"
# 2小时后
date -v+2H +"%Y%m%d"

在这里插入图片描述
3)日期命令的组合

# 上周五
date -v-fri
# 去年的下个月的第一个周日
date -v-1y -v+1m -v1d -v+sun

在这里插入图片描述
4)指定日期

# 指定日期20200901的后一天
day="20200901"
date -j -v+1d -f %Y%m%d ${day} +%Y%m%d

在这里插入图片描述

# 循环输出指定日期
begin="2017-10-01"
for (( i = 0; i < 21; i++ )); do
    current=`date -j -v+${i}d -f %Y-%m-%d ${begin} +%Y-%m-%d`
    echo $current
done

在这里插入图片描述

1.3 参考资料

mac shell 与linux shell的转化,因为我没有linux shell的环境,这个功课留给大家啦~


2. 人群偏好常用指标:TGI指数

2.1 背景

用户研究中,好常用TGI来衡量人群偏好,或者可以说,衡量偏好人群偏好的指标就是TGI。我也是工作后才知道这个的。

2.2 什么是TGI

TGI指数
= 目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例 * 标准数100

TGI计算公式中,有三个关键点需要进一步拆解:

  • 某一特征
  • 总体,
  • 目标群体

随便举个栗子,假设我们要研究A公司脱发TGI指数

  • 某一特征,就是我们想要分析的某种行为或者状态,这里是脱发(或者说受脱发困扰)

  • 总体,是我们研究的所有对象,即A公司所有人

  • 目标群体,是总体中我们感兴趣的一个分组,假设我们关注的分组是数据部,那目标群体就是数据部


(1)于是乎,公式中分子“目标群体中具有某一特征的群体所占比例”可以理解为“数据部脱发人数占数据部的比例”,假设数据部有15个人,有9个人受脱发困扰,那数据部脱发人数占比就是9/15,等于60%。

(2)而分母“总体中具有相同特征的群体所占比例”,等同于“全公司受脱发困扰人数占公司总人数的比例”,假设公司一共500人,有120人受脱发困扰,那这个比例是24%。

(3)所以,数据部脱发TGI指数,可以用60% / 24% * 100 = 250,其他部门脱发TGI指数计算逻辑是一样的,用本部门脱发人数占比
/ 公司脱发人数占比 * 100即可。


TGI指数大于100,代表着某类用户更具有相应的倾向或者偏好,数值越大则倾向和偏好越强;小于100,则说明该类用户相关倾向较弱(和平均相比);而等于100则表示在平均水平。

2.3 用户研究中TGI的实际案例

1) 00后用户兴趣偏好分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2)各城市等级的年轻人换机倾向

可以看到有一幅城市等级分布的柱状图,下边灰色背景字体是对应城市等级的年轻人换机偏好(倾向)。我想说的是,TGI所衡量的用户偏好 和 我们柱状图的百分比是不一样的两种,换机群体中 新一线城市的占比 比无线城市的高,不代表换机倾向是新一线的更高。
在这里插入图片描述

2.4 参考资料

that’s all for this week~
shell date 和 TGI衡量用户偏好~

如果我的总结对你有帮助,请点赞👍支持,谢谢 !!我会分享更多 数据分析师 的日常~
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值