1.业务思维
1.不用任何公开参考资料,估算今年新生儿出生数量。
- 采用两层模型(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率
一般可参考费米估计问题 -
从时间序列上分析:如果有前几年新生儿出生数据,建立时间序列模型进行预测(同时应该考虑一些重要影响因素,如开放二胎政策等)
- 寻找相关先兆指标:如婴儿类产品的新增活跃用户数量X,潜在新生儿家庭用户n。X/n既为新生儿家庭用户的转化率,通过平台记录的过往年转化率推出今年的大致转化率,即可推出今年新增的新生儿家庭用户数,再据此推出今年估计的新生儿数量。
2.如果次日用户留存率下降了 5%该怎么分析?
- 采用两层模型分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日流程率。通过这种方式定位到底是哪一群体的用户次日留存率降低了。
- 对目标群体次日留存下降问题,拆解内部、外部因素,具体问题具体分析。
a.内部因素分为:获客(渠道质量低,活动获取非目标用户)、需求满足(功能改动引发某类用户不满)、提活手段(活动没有达到预期目标,产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
b.外部因素采用PEST分析:政治(政策影响)、经济(短期内主要是竞争环境,如竞争对手的活动)、社会(舆论风向,用户生活方式变化,消费心理变化等偏好变化)、技术(创新解决方案的出现,分销渠道的变化等)。
3. 卖玉米如何提高收益?价格提高多少才能获取最大收益?
- 收益=单价*销售量,那么我们的策略是提高单价或是提高销售量
·提高单价的方法:
(1)品牌打造获得长期溢价,但缺陷是需要大量前期营销投入
(2)加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉等;重定位产品,如礼品化;
(3)价格歧视,根据价格敏感度对不同用户采用不同定价。
·销售量=流量*转化率,上述提高单价的方法可能对流量产生影响,也可能对转化率产生影响。
-
收益=单价*流量*转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。
4.类比到头条的收益,头条放多少广告可以获得最大收益(思路)
- 收益= 出价*流量*点击率*有效转化率,放广告的数量会提高流量,但会降低匹配度,因此降低点击率。最大收益是找到这个乘积的最大值,是一个有约束条件的最优化问题。 同时参考价格歧视方案,可以对不同的用户投放不同数量的广告。
5.APP激活量的来源渠道很多,怎样对来源渠道变化大的进行预警
- 如果渠道使用时间较长,可以认为渠道的app激活量是满足一个分布的,比较可能为正态分布。求得分布的均值和标准差,对于今日数值与均值大于3/2/1个标准差的渠道进行预警。
- 对于短期的新渠道,直接与均值进行比较。
6.用户刚进来app的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少?
- 采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
技术接受模型提出了两个主要的决定因素:
①感知的有用性(perceived usefulness),反映一个人认为使用一个具体的系统对他工作业绩提高的程度;
②感知的易用性(perceived ease of use),反映一个人认为容易使用一个具体的系统的程度。
(1)感知有用性:
a. 文案告知用户选择属性能给用户带来的好处
(2)感知易用性:
a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择。
b. 交互性做好。
(3)使用者态度:用户填写信息的态度
a. 这里需要允许用户跳过,后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
(4)行为意图:用户使用app的目的性,难以控制
(5)外部变量:如操作时间、操作环境等,这也难以控制
7.如何识别作弊用户
- 分类问题
(1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
(2)环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
(3)用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
(4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等
8.怎么做恶意刷单检测?
- 分类问题
(1)商家特征:商家历史销量、信用、产品类别、发货快递公司等
(2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
(3)环境特征(主要是避免机器刷单):地区、ip、手机型号等
(4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
(5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征
(6)图片相似度检测:同理,刷单可能重复利用图片进行评论
9.一个网站销售额变低,你从哪几个方面去考量?
- 首先要定位到现象真正发生的位置,划分维度:
a.用户(画像,来源地区,新老,渠道等)
b.产品或栏目
c.访问时段
- 定位到发生位置后,进行问题拆解,关注目标群体中哪个指标下降导致网站销售额下降:
a. 销售额=入站流量x下单率x客单价
b.入站流量 = Σ各来源流量x转化率
c.下单率 = 页面访问量x转化率
d.客单价 = 商品数量x商品价格
- 确定问题源头后,对问题原因进行分析,如采用内外部框架
a.内部:网页改版,产品更新,广告投放
b.外部:用户偏好变化,媒体新闻,经济环境,竞品行为等
10.用户流失的分析,新用户流失和老用户流失的不同?
(1)用户流失分析:
- 两层模型:细分用户、产品、渠道,看到底是哪里用户流失了。注意由于是用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。
- 指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高
- 内外部分析:
a.内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等。
b.外部:市场、竞争对手、社会环境、节假日等
(2)新老用户流失的区别
- 新用户流失::原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。
新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。 -
老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、过度拉升arpu导致低端用户驱逐(刚性流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。
老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。
11.如果现在有个情景,我们有一款游戏收入下降了,你怎么分析。
- 两层模型:对用户进行细分,新老,渠道,画像,看到底是哪一部分的收入下降了
- 指标拆解:收入=玩家数量*活跃占比*付费率*付费次数*客单价,进一步细分 玩家数量=新玩家数量*留存+老玩家数量*留存,然后对各个指标进行与以往数据进行对比,发现是哪个环节导致收入下降
- 原因分析:
a.内部:产品变化,促活活动,拉新活动,定价策略,运营策略,服务器故障等
b.外部:用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等
- 如何提高:基于乘法模型,可以采用上限分析,从前往后依次将指标提升到投入足够精力(假设优先分配人力、经费与渠道)后的上限,然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段,就是我们提高收入的关键任务
12.现在有一个游戏测试的环节,游戏测试结束后需要根据数据提交一份PPT,这个PPT你会如何安排?包括什么内容?
- 可以套用AARRR模型:
获取用户(Acquisition)
提高活跃度(Activation)
提高留存率(Retention)
获取收入(Revenue)
自传播(Refer)
- 获取:我们的用户是谁?用户规模有多大?--用户分层
- 激活:游戏是否吸引玩家?哪个渠道的用户有质量(如次日留存高,首日停留时间长等)
- 留存:用户能否持续留存?哪些用户可以留存?
- 转化:用户的游戏行为如何?能否进行转化?能否持续转化?
- 自传播:用户是否会向他人推荐游戏?哪种方式能有效鼓励用户推荐游戏?传播k因子是否大于1?
13.比如你对楼市不熟悉,现在要你去做一个像58同城之类的,卖房的中介,电商,你会如何进行分析。
(1)商业模式分析:中介做的是双边市场生意,通过解决市场信息不对称下的信息流动问题,降低买方和卖方的交易成本,从而创造盈利空间
(2)需求分析:
a.买方需求分析:低价买好房,对时间的需求有快的和慢的
b.卖方需求分析:房子卖高价,对时间的需求有快的和慢的
(3)进入条件分析(套SWOT分析法(态势分析法)也行):
a. 自身条件
b. 竞争对手
c. 市场增长规模
(4)进入策略分析:
a. 自身目标
b. 目标拆解
c. 分析目标达成的可能性,预估将来一段时间,好/正常/坏条件下的目标达成情况
d. 得出结论:是否进入该市场
14.某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几方面进行分析?
(1)确定大促目标:拉新?促活?清库存?
(2)根据目标确定核心指标
(3)效果评估:
a.自身比较:活动前与活动中比较
b.与预定目标比较
c.与同期其他活动比较
d.与往期同类活动比
(4)持续监控:
a.检查活动后情况,避免透支消费情况发生
b.如果是拉新等活动,根据后续数据检验这批新客的质量
15.用户分析是电商数据分析中重要的模块,在对用户特征深度理解和用户需求充分挖掘基础上,进行全生命周期的运营管理(拉新—>活跃—>留存—>价值提升—>忠诚),请尝试回答以下3个问题:
① 用户第一单购买的行为往往反映了用户对平台的信任度和消费能力。现在数据库中有一张用户交易表order,其中有userid(用户ID)、amount(消费金额)、paytime(支付时间),请写出对应的SQL语句,查出每个用户第一单的消费金额。
② 当你发现本月的支付用户数环比上月大幅下跌(超30%),你会如何去探查背后的原因?请描述你的思路和其中涉及的关键指标
③ 为了更好的理解用户,我们通常会基于用户的特征对用户进行分类,便于更加精细化的理解用户,设计产品和运营玩法,请你设计对应的聚类方法,包括重点的用户特征的选择及聚类算法并说明其基本原理和步骤
1.
select userid,amount,min(paytime)
from order
group by userid;
2.面对本月支付用户数环比上月下跌30%的情况,首先要判断这是不是我们的问题。是不是上个月是双十一,所以销售额异常的高?或者是不是本月突然爆发了世界范围的经济危机?如果是这种情况,那么电商平台会不可避免地受到影响。
定位用户:从新老、渠道、画像等维度定位出现问题的用户群体
指标拆解:支付用户数 = 浏览用户数×支付率,定位是浏览人数下降了还是支付率下降了
原因分析:
内部:获客(渠道质量低,活动获取非目标用户)、需求满足(功能改动引发某类用户不满)、提活手段(活动没有达到预期目标,产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
外部:政治(政策影响)、经济(短期内主要是竞争环境,如竞争对手的活动)、社会(舆论风向,用户生活方式变化,消费心理变化等偏好变化)、技术(创新解决方案的出现,分销渠道的变化等)。
①支付用户数 = 浏览用户数×支付率
② 面对本月支付用户数环比上月下跌30%的情况,首先要判断这是不是我们的问题。是不是上个月是双十一,所以销售额异常的高?或者是不是本月突然爆发了世界范围的经济危机?如果是这种情况,那么电商平台会不可避免地受到影响。
③如果支付用户数下跌是个问题,那么是浏览用户少了还是支付率下降了?如果是浏览用户少了,那么核心是找出哪些人群的浏览用户数下跌了。是新用户还是老用户?如果是新用户的问题,是不是渠道引流做的不够好?那么是哪个渠道出了问题呢?可以通过查看渠道的新增用户数查找问题;如果在渠道没发现问题,那是不是产品策略最近调整了? 可以查找产品迭代前后的浏览用户数进行对比分析。如果是支付率下降了,那么是哪个用户群体的支付率下降了?是有强烈下单需求但未下单的人群,还是购买频次≥10但超过一个月未访的忠实客户流失了?这个可以根据用户分层中的不同用户层逐一分析。通过不同维度、不同人群的拆分,把大的问题慢慢细化,落实到具体的指标上,找出问题所在。
3.指标选择略
对于连续数据且数据量较大的数据,用Kmeans聚类法。基本原理:先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各种子聚类中心之间的距离,把每个对象分配给他最近的聚类中心。一旦全部对象被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直至满足某个终止条件。
用Python实现Kmeans的步骤:1.导入pandas,numpy,matplotlib等包,用read_csv/table等导入数据
2.数据预处理,用astype方法做类型转换;用duplicated方法加any方法识别冗余数据、并用drop duplicated清除冗余数据;用Python的isnull方法识别缺失值,并选用删除法/插补法/替补法等处理。
3.用dist()函数定义距离并计算,一般使用欧式距离
4.先用scatter()作数据散点图,根据散点图设定K值,用np.random,randint随机获得中心点
5.迭代,用while循环,一般需要设置最大迭代次数
6.用matplotlib.subplots()作图
16.网易严选是网易旗下原创生活类自营电商品牌,深度贯彻“好的生活,没那么贵”的品牌理念。商品覆盖居家、餐厨、配件、服装、洗护、母婴、原生态饮食等几大类目,兼具品质和性价比,得到用户的广泛好评。若你是网易严选负责商品的数据分析师,当面对以下业务问题时,你会如何解决?
① 用户增长团队期望选择一批合适的商品用于吸引新客,期望你帮助从数据的角度筛选出一批合适的商品,你会如何帮助他们进行筛选?请描述你的思路。
② 商品研发负责人期望能有一套指标帮助衡量开发的商品表现,请你帮助设计对应的评估方案,包括设计思路、涉及的数据指标等。
1.
(1)首先定位发展方向,是发展现有产品还是进行新产品的拓宽。可以通过用户调研,调查目前用户选择网易严选平台的原因,是因为专注于一个方向,还是因为性价比高,如果核心用户选择专注于一个方向,则更应该选择发展现有产品,否则可以考虑拓宽产品类型。
(2)确定方向后,确定具体产品,需要考虑用户的消费能力,选择品牌等。通过调研用户选择其他平台而不选择网易严选的原因,调查产品类别是否存在不足。确定产品类别后,还需考虑用户的消费能力,可根据消费者过往消费记录或调研将用户大致分为高水平消费者、中等水平消费者、低水平消费者三类,从而选择相应价位的产品
(3) 确定大致价格后,还需要调研产品的具体功能还是什么点对于消费者性价比高。例如,如果100元MUJI的香薰机还是80元其他品牌、功能相似的香薰机。
2.
(1)初期,可进行定性调查,考虑小范围用户体验的调研,KPI可以考虑用户一个月内使用次数等。chan从用户日常的使用过程中,衡量商品开发效果。例如,对于新买的家具,用户是否需要晾晒一段时间或者栽种盆栽来去除气味;针对同一款产品的不同颜色,用户是否具有偏好等。
(2)推广期,可进行定量调查,并和同类产品进行比较。
KPI: 该产品和同类产品一个月的浏览次数、点击次数、购买次数、各类评价的数量,以及衍生指标。购买率 = 购买次数/总浏览次数,点击率=点击次数/浏览次数,好评率=好评数量/评价数量,差评率=差评数量/总评价数量等。
该产品浏览次数较低,可能是因为推广度不够;浏览次数高,点击次数、点击率较低则说明该产品开发没有解决用户最急迫的需求,不能吸引用户;好评率低,则说明该产品存在问题等。
16.经一番研究后,我们开发出了一个新的商品详情页中'相关商品'模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。
使用A/B测试模型,分析两个版本在一段时间期限内,详情页面到支付页面的转化率变化,并计算转化率变化后引起的的GMV变化。
可选择的决策:①确定发布新版本;②调整分流比例继续测试;③优化迭代方案重新开发。
要统计的指标:期限内新、旧版本商品详情页到支付页转化率 ,支付金额。
要衡量的指标:转化率变化 t 在是可接受的置信区间内是否显著,同时参考收益提升率。
指标计算方法:转化率=从某详情页到支付页用户数/浏览该商品详情页用户数(取日平均和标准差)
支付金额=从某详情页到支付页到支付成功路径用户的本次支付金额(取日平均)
采用决策①的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。并且收益提升率达到预期水平。
采用决策②的情况:本次页面改进在显著性水平内,无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。
采用决策③的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。但是收益提升率没有达到预期水平。