啥是数据敏感度?(二)数据异常识别能力

推广信息:本篇文章来源于我的知乎“天地仁农业服务”发布的内容,更多精彩内容欢迎查看我的知乎主页 天地仁农业服务

啥是数据异常?

  • 数据是描述客观事实的信息。
  • 异的本义奇特、奇异、奇怪,引申义为不同的、其他的。异作为形容词,有奇特的、奇怪的、背叛的、邪道的之意。
  • 常的本义是穿在下身的衣服,也泛指衣服,引申为恒久的、经常的。常作为形容词,有恒久的、一般的、普通的、正常的。
  • 数据异常是指不符合正常规律的数据。

数据异常的分类

  • 重复: 是指反复多次出现的数据。
  • 缺失: 是指缺少或遗失的数据。
  • 异常: 是指不合常理的数据。又分为错误异常(不合逻辑的)和非错误异常(不该出现的)。

啥是识别能力?

  • 识别有区分、分辨、辨别之意。
  • 识有二音,shí、zhì。本义是知道、认得,能辨别,shí引申为所知道的道理、辨别是非的能力;zhì引申为记住、标志、记号。识作动词,有辨识、标识之意。
  • 别有二音,bié、biè。本义是将骨头从肉中分离,别出,bié引申为分辨、区分;差别、类别;特别、别出心裁;biè引申为不顺、不相投合。别作动词,有分离、分辨之意。
  • 识别是指辨别差异并将其分离出来。

啥是数据异常识别?

  • 数据异常识别是指辨别不符合正常规律的数据并将其分离出来。

  • 数据异常识别能力有三个层次:

    • 识别数据异常,明确属于哪种属于异常类型。
    • 处理数据异常,借助数据处理工具和方法。
    • 预防数据异常,调整数据收集和生成方式。
  • 如果数据是病人,数据分析师便是医生。

    • 识别异常的是全科医生;
    • 处理异常的是外科医生;
    • 预防异常的是保健医生;

举个例子,说明一下数据识别能力:

  • 数据背景: 某餐饮企业在浙江、河南两个省份的五个城市杭州、金华、嘉兴、郑州和开封,共开了10家门店。我们收集到该企业2020年到2022年的销售数据、客户信息以及菜品信息。
  • 项目需求: 识别出案例数据中异常情况。

在这里插入图片描述

  • 目的:识别出所给数据中异常。

  • 数据异常:是指不符合正常规律的数据。

  • 数据异常分类:重复数据、缺失数据和异常数据,其中异常数据分为错误异常和非错误异常。

  • 数据字典:

在这里插入图片描述

  • 数据异常识别:
    • 显然所给数据是销售流水数据,每个订单包含两个菜品。
    • 重复数据:订单信息、门店信息和顾客信息对每个订单来说都属于重复数据。在统计销量相关的需求时,应通过订单编号去重计数。
    • 缺失数据:age和gender各出现一组数据缺失。现在大家的个人信息保护意识越来越强,吃个饭还要填写年龄、性别信息,肯定会造成数据缺失。
    • 异常数据:
      • 顾客person_1的年龄属于错误异常,2020年在郑州点餐时50岁,2021年在杭州点餐时54岁,完全不符合逻辑。处理方案要查询其他时期的点餐数据作为参考;
      • 菜品food_8的单价异常属于错误异常,这种情况属于服务人员手抖多点了一次9。处理方案可以直接替换为19。
      • 菜品food_3的单价和成本异常属于非错误异常,store_5可能把food_3炒热后售卖,符合逻辑,但是不该出现。处理方案可联系负责人新增菜品。
    • 无统计意义数据:unit 字段为我们提供了信息,说明单价和成本是按元计量,但是不具有统计意义。
    • 真实情况下的业务数据有两种情况:
      • 使用业务系统生成的数据,大多维度数据的业务口径统一,自动关联,不需要人工填写,所以相对干净整齐。
      • 人工手动填写的数据,人们喜欢使用简写、缩写或略写等,同样的事物,描述千奇百怪,为数据处理平添麻烦。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据运营 作用&意义 知错能改,善莫大焉 —错在哪里,数据分析告诉你 运筹帷幄,决胜千里 —怎么做好“运筹”,数据分析告诉你 以往鉴来,未卜先知 —怎么发现历史的规律以预测未来,数据分析告诉你 工作思维 对业务的透彻理解是数据分析的前提 数据分析是精细化运营,要建立起体系化思维(金字塔思维) 自上而下 目标—维度拆解—数据分析模型—发现问题—优化策略 自下而上 异常数据 影响因素 影响因素与问题数据之间的相关关系 原因 优化策略 数据化运营7大经典思路 以目标为导向,学会数据拆分 细分到极致 追踪思路 运营的问题,是追踪出来的,不是一次就看出来的 所有的数据都是靠积累和沉淀才能发现问题,单一的数字没有任何 意义,只能称为 “数值” 结合/拆分思路 追踪数据,多个维度结合分析。 从多个维度拆分数据 对比思路 大的营销事件作为节点单独标记,数据剔除出来单独进行分析 节点思路 如运营活动等 行为标记思路 将大动作的优化,大的项目上线及时标注在数据报表中 培养数据敏感度 培养数据思维,从每天的各种数据报表开始 数据来源 数据埋点 初级 追踪每次用户的行为,统计关键流程的使用程度 中级 在产品中植入多段代码追踪用户连续行为,建立用户模型来具体化用户在使用产品中的操作行为 高级 研发团队合作,通过数据埋点还原出用户画像及用户行为 常用数据分析工具 友盟、Talkingdata 友盟的页面访问分析,对帮助分析用户流失有重要指导意义 网站Alexa排名查询、爱站网、中国网站排名、网络媒体排名 禅大师、ASO100 各种指数 百度指数、搜狗指数、腾讯浏览指数、360指数、某视频网站指数 数据库、运营后台等 工作内容 数据监控 检测异常指标,发现用户对您产品的”怒点“ 如:多次获取手机验证码,次数剧增 这里需要考虑有一个监控指标 新功能数据分析 通过留存曲线检验新功能的效果 通过留存看新功能用户的接受程度 通过用户反馈或调研,了解新功能接受度 数据指标 标记: 红色 整体概况 1、[大盘数据]用户及收入表格+折线图 注册用户(今天、昨日、近3天、近7日、近30天、全部) 新增用户、付费用户、充值总额 2、同时在线趋势折线图 在线人数一向是游戏火热程度的最好衡量 需要有同期对比功能,有参照物才能更好的比较 3、付费渗透 日付费率变化折线图 日付费率通常不稳定,一般情况下看周付费率或月付费率 付费率=充值人数/活跃人数*100% ARPU值变化折线图 ARPU值=总收入/活跃人数 ARPU值影响因素 活跃人数DAU发生较大变化 运营活动影响 金字塔 大R 是否有大R用户异常波动(大R用户流失或大R用户进入) 中、小R 大量中R、小R用户出现或消失 ARPPU值变化折线图 ARPPU值=总收入/付费人数 可以用来监控大R用户异常变化情况 如果该值异常波动,请进一步看鲸鱼用户数据 4、用户留存 新用户留存 次日、3日、7日、14日、30日留存 次日留存是对玩家“第一游戏体验”的最佳印证 与游戏的类型、题材、玩法、美术风格、游戏前期内容吸引度、新手引导有效性有直接的相关性 如果导入的新增玩家群体对游戏题材、玩法、美术风格不予认可,留存将会很差,且可优化的空间较小 优化新手引导和前期的游戏内容则可以有效帮助提升次日留存 7日、30日留存则与游戏难度、持续的活动运营、游戏内奖励机制有密不可分的关系 活跃用户留存 一般不分析活跃用户留存,而是通过DAU观察活跃用户流失数据 留存是评定游戏综合质量的最佳指标 5、平均使用时长和平均使用次数 可以使用柱状图来展现 两项宏观行为指标可反映出用户对app的依赖程度 如果留存较好,但时长和次数均不高,则可能是因过于强调每日登录奖励,但持续的app内容用户家缺乏吸引力所致 用户分析 用户规模 下载数量 新增用户 定义:每日注册并登录游戏的用户数量 ——解决问题 渠道贡献新用户份额分布,监控重点渠道 宏观走势,是否需要进行市场投放 判断是否存在渠道作弊行为、渠道包被下架等问题 日一次会话用户数 即新登用户中只有一次会话,且会话时长低于门阀值 ——解决问题 推广渠道是否有刷量作弊行为 渠道推广质量是否合格 用户导入是否存在障碍点,如网络状况和加载时间等 用户获取成本 解决问题 获取有效新登用户成本 如何选择正确的渠道优化投放 需要根据渠道来细分不同渠道的获取用户成本 了解用户成本 活跃用户 DAU(日活跃用户) 定义 每日登录过游戏的用户 解决问题 了解游戏的核心用户规模 了解游戏产品生命周期变化趋势、渠道活跃用户生命周期 了解游戏产品老用户流失和活跃情况 注意事项 日活跃=新增用户+回流用户+老用户 如果日活跃依靠新增为维持,留存肯定有问题 健康比例3:7,当然不同产品会有一定差异 WAU(周活跃用户) 定义 截止当日,最近一周含当日的7天内,登录过游戏的用户,一般按照自然周计算 解决问题 游戏的周期用户规模 游戏产品的周期性/每周变化趋势衡量 注意事项 利于在不同活跃用户规模的维度上发现和掌握游戏用户规模的变动 数据去重 MAU(月活跃用户) 定义 截止到当天,最近30天(含30天)登录过游戏的用户 解决问题 游戏总体用户规模并评估用户规模稳定性 推广效果评估 了解产品的粘性 注意事项 MAU层级的用户规模更加具有稳定性、相对变化很小 某个时期或版本更新对其可能也产生较大影响 数据去重 一定程度上可以观察游戏的生命周期 DAU/MAU(日活跃用户和月活跃用户的比例值) 一般极低值为0.2 保证产品能够达临界规模的病毒式传播和用户粘度 忠实用户 连续3周登录的用户 目前分析价值不大 用户活跃 启动次数(时、日、周、月) 每日启动1次计算为1次启动 需要有一个间隔时间,30秒内多次启动只能计算为1次 解决问题 衡量用户粘度,数值越大越好 识别优质渠道,渠道是否存在刷量 什么渠道/用户启动次数多 日均使用时长 定义 活跃用户每日平均在线时长 解决问题 游戏的参与度怎么样 产品质量把控指标,游戏粘度如何 渠道质量如何 与单次使用时长结合分析留存和流失问题 用户活跃度 DAU/MAU,理论上不低于0.2,0.2*30=6天 解决问题 游戏的人气是增长、衰退还是稳定? 看趋势 一个月中,用户的活跃天数是多少 用户的游戏参与度如何 用户活跃率 活跃率=活跃用户/总用户 了解你的用户的整体活跃度,但随着时间周期的加长,用户活跃率总是在逐渐下降的 用户层次(轻度、中、重) 轻度用户:每周登录1~2次的用户 中度用户:每周登录3~5次的用户 重度用户:每周登录6~7次的用户 解决问题 了解用户忠实度,能否走得动”口碑传播“ 在线统计 实时在线曲线(每5分钟统计一次当时的用户同时在线人数) 上周同期对比 平均同时在线人数、最高同时在线人数和时间 每小时注册用户数 用户在什么节点来的多,需要重点监控该时间段app运行 用户画像 概述 是什么,有什么用,怎么做 构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识 作用 精准营销 分析产品潜在用户,针对特定群体利用短信、邮件等方式进行营销 用户统计 如购买某类书籍人数 TOP10 数据挖掘 定义 把散乱数据转换成有价值信息的过程 效果评估 完善产品运营,提升服务质量 其实这也就相当于市场调研、用户调研,定位服务群体,提高服务 个性化服务 对服务或产品进行私人定制,精准到某一类甚至每一位客户提供个性化服务 基本构成 用户静态属性 基本指标 年龄、性别、地域、学历、角色、收入、婚姻状态、职业 每个指标均需要从多个角度来分析,以区域为例 各区域充值总金额、充值人数、充值次数、付费率、arpu值分布 交叉分析 以区域和性别为例 不同性别+不同地域环境下,付费率数据…… 渠道分布 品牌、机型、操作系统、分辨率、联网、版本、设备均价、运营商 单设备注册账号数分析 可以分析小号分布情况 用户动态属性 动态属性指具有可变性 基本指标 用户的兴趣爱好、兴趣标签 在互联网上的活动行为特征 用户行为分析环节深入分析 用户消费属性 消费属性指用户的消费意向、消费意识、消费心理、消费嗜好等,对用户的消费有个全面的数据记录,对用户的消费能力、消费意向、消费等级进行很好的管理 用户心理属性 心理属性指用户在环境、社会或者交际、感情过程中的心理反应,或者心理活动 目前,用户心理相对会有难度,不用过多考虑 怎么做 数据收集 数据太多可以采用抽样的方法 数据建模 根据所获取到的数据建立模型,注入数据调整模型参数 数据分析及预测 数据可视化、输出报表、趋势预测 留存分析 留存(次~7日、14日、30日) 解决问题 用户对游戏的适应性 用户对于游戏的粘性 评估渠道用户的质量、投放渠道效果评估 新增用户什么时候流失在加剧? 注意事项 次日留存一定程度上代表了用户对游戏的满意度 主要反映了游戏初期新手对游戏引导和玩法的适应性 关注用户流失率的同时,需要关注用户流失节点 实际运用 常见的7日连续登录礼包 第七天送大卡就是为了次日和7日留存的漂亮 次留很低,可能原因 新手阶段不友好、开场不吸引人、游戏上手难度大 程序bug太多,闪退,卡死,无法登陆等 功能引导太繁琐 次留不低,但是第3-4天大量流失,可能引起的原因 游戏内容重复,单调、游戏挫败感太强;新手无对应保护等 如果只是某个渠道存在这个问题,可能存在渠道作弊 [略]僵尸用户(回归、留存) 流失用户(日周月、自然流失、回归流失) 周流失用户 上周登录过游戏,本周未登录过游戏的用户占上周周活跃用户比例 解决问题 活跃用户的生命周期是多少 哪个渠道的流失率比较高 版本更新对于用户的流失影响是多大 什么时期用户的流失率比较高 当游戏进入稳定期尤其值得关注该指标 (活跃用户的生命周期是多少, 哪个渠道的流失率比较高, 版本更新对于用户的流失影响是多大, 什么时期用户的流失率比较高) 稳定期一般来讲收入和活跃都相对比较稳定,是产品稳定的风向标 付费用户流失监控 用户运营需要高度重视的数据 找到付费用户流失模型(多少天未登录有多少概率流失) 流失原因分析指标 流失用户行为分析 流失前等级分布 是否存在卡点 流失用户生命周期 流失用户付费金额、流失用户付费次数、人数 流失原因分析——流失用户时间节点 流失前运营手段 运营活动、服务器问题、版本更新(bug、新版本用户不接受) app生态 用户成长体系是否健康 用户调研 用户留存分析流程 第一步:分组 按照不同的(时间/渠道/行为等)维度进行用户分组 时间分组 通常用于看整体数据,看整体留存是否出现异常情况 渠道分组 对比不同渠道留存数据 通过不同渠道数据对比,找到异常渠道数据或排出渠道因素 行为分组 按照功能点使用/未使用分组 第步:对比 根据用户行为进行分组 例子 看贴功能内浏览了3篇贴子的新用户和仅浏览1篇贴子的新用户进行分析 来自A渠道的新用户进行(有使用看贴/未使用看贴)行为分组比较 渠道对比 是不是某些渠道的量出现问题 用户行为 功能使用及参与度 页面访问路径 衍生指标 人均浏览页面数和时长、启动次数、收藏、点赞、关注、评论等 最好形成漏斗模型,规划合理访问路径 关键路径上面各个页面的浏览量 页面转化&用户进入后一步步的转化情况 是否可以简化流程,减少用户操作步骤 (最好形成漏斗模型,规划合理访问路径) 用户习惯分析 平均使用时长 单次使用时长、日使用时长、周使用时长 可以进一步做渠道细分 平均启动次数 日、周、月启动次数 启动天数 周、月游戏天数 使用间隔 平均多长时间启动/使用一次app 用户对app的依赖程度 各个时间段启动app人数分布 用户行为 短期点击行为、搜索行为、收藏行为 等级分析 各个等级平均耗时 用户成长速度 需要严格控制高端用户成长速度 各个等级用户流失 各个等级次日、3日、7日、14日、30日未登录用户数分布 到底在哪个等级阶段用户流失严重? 各个等级用户分布数量 各个等级游戏次数 各个等级充值数据 累计充值总金额、充值人数、充值次数 哪个阶段是付费高峰期? 各个等级首次充值 各个等级首次充值人数、充值次数、各个等级首次充值金额选择 哪个等级段容易拉动首次充值行为? [辅助]各个等级消耗游戏币数据 新用户等级分析 首日等级 所选期间的新增玩家,在其新增当日中最终玩到的等级分布情况 首周等级 所选期间的新增玩家,在其新增7日后玩到的等级分布情况 14日等级 所选期间的新增玩家,在其新增14日后玩到的等级分布情况 近7日等级变化 堆叠图显示每日各个等级人数变化情况 分析新用户成长 (首日等级, 首周等级, 14日等级) 关卡/任务系统 新手引导转化率 任务参与人数及完成情况 支付转化率 漏斗模型的合理使用 用户传播 分享、互动、邀请等 付费分析 整体数据 付费总额 时间段内付费用户消费总额 收入下降,原因? 付费率下降? 付费用户流失比活跃用户流失严重 流失的是大R用户还是中小R用户?流失了多少个 付费用户停止付费但未流失 大R还是中小R停止付费? 哪些消费点的消费在下降或停止? arpu下降? 付费人数增加了? 付费人数无变化、付费金额下降了 哪些消费点的消费在下降?付费点已经饱和? 付费用户 时间段内进行过付费行为的用户数 其次还有一个付费次数、不去重 新增付费用户(日、周、月) 活跃付费用户数 定义 统计时间段内,成功付费的用户数,一般以月为单位统计 活跃付费用户数=月活跃用户数*月付费率 解决问题 了解产品的付费用户规模 付费用户整体的稳定性 了解付费用户构成 鲸鱼用户、海豚用户、小鱼用户各自数量和比例 注意事项 数据是去重的 ARPU 名词定义 平均每活跃用户收入 统计时间段内,总收入/活跃用户数,一般情况下以月为单位 衡量每个用户带来的平均收益 解决问题 评估不同渠道用户的质量 游戏收益贡献、人均收入 用于产品初期不同规模下的收入预估 (评估不同渠道用户的质量, 游戏收益贡献、人均收入) 注意事项 arpu值很高 ——大R付费能力很强,需要重点关注大R用户 付费率高,arpu值低 ——小R用户较多,要多关注小R用户 ARPPU 名词定义 平均每付费用户收入 统计时间段内,付费用户平均所创造的收入,一般以月为单位统计,因为月的数据相对比较稳定 解决问题 了解游戏付费用户平均的付费情况 付费用户整体的付费趋势 加强对鲸鱼用户的分析和监控 注意事项 容易受到鲸鱼和小鱼用户的影响 付费率(一般看月付费率) 名词定义 时间段内,付费用户数/活跃用户数 首充大礼包就是为了拉付费率 月付费率 名词定义 统计时间段类,付费用户/活跃用户比例,一般以月为单位计算 解决问题 游戏产品的付费引导是否合理、付费转化是否达到预期 用户付费倾向和意愿 需要结合首次付费功能、道具、等级整体分析 注意事项 付费率的高低并不代表付费用户的增加和减少 游戏类型不同,付费率有较大的差异 生命周期 定义 一个用户从首次进入游戏到最后一次参与游戏之间的时间间隔 一般计算平均值 14日LTV(新用户后续付费能力指标) 名词定义 用户在生命周期内所创造的收入 14日LTV 14日LTV=今日注册新用户在后续14天内付费额/注册的新用户数 这里计算的是一个平均值 解决问题 用户在游戏中会待多久 用户对于游戏的贡献价值是多少 付费用户流失数量 本周付费用户下周未登录人数 付费习惯 付费周期 首次付费周期 用户注册到第一次充值的平均时间间隔 付费周期 上一次付费和下一次付费的时间间隔 付费渠道 采用那种支付方式充值?支付宝、微信、公众号等 付费面额 主要为首次充值面额 首次大额度要纳入高端用户维系中去 用户问题、多少天未登录都要及时监控和跟进维系 不同时间段首次付费 用户数量 付费总金额 充值后首次消费行为分析 充值之后第一件事情是购买什么东西? 研究触发用户充值行为的原因,便于优化首充,提升付费率 需要把各个消费点理解透彻 新增付费用户 首次付费用户等级分布 首次付费时间间隔 首次充值面额 结合首次付费用户的游戏天数、累计游戏时长综合分析 (首次付费用户等级分布, 首次付费时间间隔, 首次充值面额) 不同性别/年龄阶段付费分析 首次付费分析 首次付费等级 首次付费周期 首次付费消费结构 首次付费选择订单面额分布 首次付费各个时间节点用户数量及付费总金额 看首次付费正在哪个时间段分布比较多 一周为单位,哪些时间点是付费高峰期? 首次付费用户及后续付费行为 首次付费行为产生原因 充值之后第一件事情是购买什么东西? 发现其中的规律,运营中可以更好利用首次付费 首次付费地域分布 首次付费渠道分布 付费场景 一定程度上可以理解为付费点,在哪些地方会产生付费 消费场景 消费人数和消费次数 鲸鱼用户 每日top100付费用户及累计付费金额数据 账号、id、电话、充值总额、消耗总额、最后登录时间、当前等级 加强对金字塔用户的运营管理 营销效果 新增用户 每小时新增用户 衡量推广效果的最基础指标 新增用户/活跃用户的比例也是衡量产品健康度的标准之一 比例过高,需要关注留存 新增用户渠道分布 活跃用户 渠道分布 启动次数 单次平均使用时长 留存率 检验产品用户吸引力的重要指标 若版本稳定的情况下,留存出现明显波动,很可能是渠道的问题 渠道充值数据 其他 用户行为是否正常、机型、设备分布 其他分析 货币产出和消耗数据 各等级货币消耗 消耗总量 消耗人数 消耗次数 不同道具消耗数据 用户调研 用户来源 用户来自哪里 用户属性 用户是谁 用户在做什么 用户行为 流失原因 用户建议 数据分析模型/方法论 [思维模型]AARRR分析模型 获取(Acquisition) 用户如何发现(并来到)你的产品? 激活(Activation) 用户的第一次使用体验如何? 留存(Retention) 用户是否还会回到产品(重复使用)? 收入(Retention) 产品怎样(通过用户)赚钱? 传播(Retention) 用户是否愿意告诉其他用户? 依据该模型,分出更细分的维度,罗列出影响每一个维度的变量 理解到这里即可,该模型更多的是一个思维模型,也可以叫方法论 (获取(Acquisition), 激活(Activation), 留存(Retention), 收入(Retention), 传播(Retention), 依据该模型,分出更细分的维度,罗列出影响每一个维度的变量) [思维模型]5W2H 何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何就(How)、何价(How much) 提供一种问题/业务分析思路 活动运营常用方法论,尤其是编写活动执行案的时候 如何更加全面的思考问题 [思维模型]PEST分析法 用于对宏观环境的分析,包括政治(political)、经济(economic)、社会(social)和技术(technological)四方面 适合做大环境、行业分析,一般情况下用途较少 [思维模型]4P营销理论 分析公司的整体营运情况,包括产品(product)、价格(price)、渠道(place)、促销(promotion)四大要素 以用于公司整体运营情况分析 [思维模型]用户行为理论 主要用于用户行为研究 用户行为理论步骤 认知 网站访问 主要指标有:PV、UV、人均访问页面量、访问来源 熟悉 网站浏览 主要指标有:页面停留时长、跳出率、页面偏好 网站搜索 主要指标有:搜索访问次数等 试用 用户注册 用户注册量、注册转化率 使用 用户登录 登录用户数、DAU等 用户订购 订单量、订购频数、内容、转化率 忠诚 用户粘性 回访者比例、访问深度 用户流失 流失数和流失率 [思维模型]鱼骨图 发现问题“根本原因”的分析方法 多维度分析 细分问题 趋势分析/折线图 数据监控 [思维模型]极简数据分析方法论 3个步骤 确定目标、列出公式、确认元素/字段 3个模型 [提升元素量级]漏斗模型 适用范围:需要多个步骤达成的元素 通过提升转化率,提升单个元素量级 [精细化]多维坐标 精细化运营 通过多维坐标将用户分组,对不同组用户采取对应的运营措施 用户运营也有个经典坐标,叫RFM坐标 [监测数据]分组表格 适用范围:随时间变化的用户属性元素 留存率分组表格 用户行为分析模型 行为事件分析 用户留存分析 魔法数字法 留存与关键用户行为关系组合图 GrowingIO留存曲线 漏斗模型 AIDMA理论是漏斗模型的理论基础 漏斗模型用途 漏斗模型适用于应用中某些关键路径的转化率的分析 以确定整个流程的设计是否合理,各步骤的优劣,是否存在优化的空间等 了解用户使用你应用的真正目的,为他们提供合理的访问路径或操作流程 解决方案思想 扩大漏斗口径 提升转化率 反向漏斗模型 倒推用法——根据目标倒推所需资源配置 趋势、对比、分组 趋势 从时间轴的维度,看某个流程或某个步骤前后优化效果及监控 比较 比较类似产品或服务使用流程转化,发现应用中存在的问题 细分 细分来源或不同的客户类型在转化率上的表现 发现一些高质量的来源或客户,通常用于分析网站的广告或推广的效果及ROI 用户行为路径分析 用户路径的分析结果通常以桑基图形式展现 见友盟——功能使用——页面访问路径 主要用途 分析关键路径上的页面跳转以及转化率,找到流失用户的页面 分析到达关键页面的页面来源,分析关键路径到达的页面 RFM模型/分析法(客户关系管理模型-用户分类方法) R:表示客户最近一次购买的时间 时间差 用户类型(活跃用户、休眠用户、流失用户) 理论上,最近一次消费时间越近的用户应该是比较好的用户 刻画用户的关注程度 F:表示客户在最近一段时间内购买的次数/频数 购买次数count 用户忠诚度 M:表示客户在最近一段时间内购买的平均金额 请注意是平均值 刻画用户的购买力 用户精细化运营常用模型 (R:表示客户最近一次购买的时间, F:表示客户在最近一段时间内购买的次数/频数, M:表示客户在最近一段时间内购买的平均金额) 用户细查 单个用户某行为或过程分析——进而上升到用户群体 如有没有多次获取验证码的情况 热力图 A/B测试(对比测试) 定义 通过对app的两个不同版本进行比较,来确定一个性能更好的方案 核心思想 提供多种方案,最终根据数据效果选择最优方案 注意事项 目标用户群一定是随机分配的 运用 不同创意/不同类型banner数据效果测试 在了解和分析各个渠道质量的时候,也可以运用A/B测试方法论 流失预警模型 分类模型 逻辑树分析法 把问题的所有子问题分层罗列 可用于业务问题专题分析 预测模型、分类模型 神经网络 朴素贝叶斯 支持向量机 K-临近邻算法 随机森林 预测模型 逻辑回归 聚合算法 K-Means 关联算法 Apriori算法 可用于游戏道具组合销售策略 异常检测 辅助算法等 主成分分析 特征选择法 降纬算法 数据分析报告 http://www.woshipm.com/operate/588326.html 运营日报 Excel 运营周报 一页简报——对关键指标汇总+总结,往往是领导要看的数据 多页子页——对关键指标的详细解读和说明、可视化 Excel 运营月报 PPT 数据分析报告 http://www.woshipm.com/data-analysis/677567.html 市场分析 市场需求 市场现状 找到突破口、找到目标用户在哪里 明确目标用户群体 年龄 收入 性别 爱好 目标用户体量 期待抢占多少用户比例 产品定位 基于目标用户需求制定计划 市场分析报告 竞品分析 了解 竞品的目标群体和推广策略 了解竞品运营需求,需要进行整理 了解竞品周边项目和战略布局 5w2h、swot分析 产品分析 产品市场定位 产品体验报告 左右资源 运营资源、技术资源、渠道资源 swot分析 数据运营精髓 通过数据指导运营决策 利用数据驱动业务增长 进一步深入 新增用户 新增设备、新增用户 活跃用户 新用户、老用户;各自数量及占比变化 付费用户 新付费用户、老付费用户;增长衰减变化 收入折线图
(一)数据产生/采集环节的安全技术措施 从数据安全角度考虑,在数据产生/采集环节需要实现的技术能力主要是元数据安全 管理、数据类型和安全等级打标,相应功能需要内嵌入后台运维管理系统,或与其无缝 对接,从而实现安全责任制、数据分级分类管理等管理制度在实际业务流程中的落地实 施 1、元数据安全管理 以结构化数据为例,元数据安全管理需要实现的功能,包括数据表级的所属部门、开 发人、安全责任人的设置和查询,表字段的资产等级、安全等级查询,表与上下游表的 血缘关系查询,表访问操作权限申请入口。完整的元数据安全管理功能应可以显示一个 数据表基本情况,包括每个字段的类型、具体描述、数据类型、安全等级等,同时显示这 个数据表的开发人、负责人、安全接口人、所属部门等信息,并且可以通过这个界面申请 对该表访问操作权限。 2、数据类型、安全等级打标 建议使用自动化的数据类型、安全等级打标工具帮助组织内部实现数据分级分类管理 ,特别是在组织内部拥有大量数据的情况下,能够保证管理效率。打标工具根据数据分级 分类管理制度中定义的数据类型、安全等级进行标识化,通过预设判定规则实现数据表 字段级别的自动化识别和打标。下图是一个打标工具的功能示例,显示了一个数据表每个 字段的数据类型和安全等级,在这个示例中,"C"表示该字段的数据类型,"C"后面的数 字表示该字段的安全等级。 数据类型、安全等级标识示例 (数据传输存储环节的安全技术措施 数据传输和存储环节主要通过密码技术保障数据机密性、完整性。在数据传输环节, 可以通过HTTPS、VPN 等技术建立不同安全域间的加密传输链路,也可以直接对数据进行加密,以密文形式传输 ,保障数据传输过程安全.在数据存储环节,可以采取数据加密、硬盘加密等多种技术方 式保障数据存储安全。 (三)数据使用环节的安全技术措施 数据使用环节安全防护的目标是保障数据在授权范围内被访问、处理,防止数据遭窃 取、泄漏、损毁。为实现这一目标,除了防火墙、入侵检测、防病毒、防DDoS、漏洞检测 等网络安全防护技术措施外,数据使用环节还需实现的安全技术能力包括: 1、账号权限管理 建立统一账号权限管理系统,对各类业务系统、数据库等账号实现统一管理,是保障 数据在授权范围内被使用的有效方式,也是落实账号权限管理及审批制度必需的技术支撑 手段.账号权限管理系统具体实现功能与组织自身需求有关,除基本的创建或删除账号、 权限管理和审批功能外,建议实现的功能还包括:一是权限控制的颗粒度尽可能小,最 好做到对数据表列级的访问和操作权限控制。是对权限的授予设置有效期,到期自动 回收权限。三是记录账号管理操作日志、权限审批日志,并实现自动化审计;日志和审计 功能也可以由独立的系统完成。 2、数据安全域 数据安全域的概念是运用虚拟化技术搭建一个能够访问、操作数据的安全环境,组织 内部的用户在不需要将原始数据提取或下载到本地的情况下,即可以完成必要的查看和 数据分析.原始数据不离开数据安全域,能够有效防范内部人员盗取数据的风险。图7 是数据安全域的拓扑结构示例,数据安全域由一个虚拟机集群组成,与数据库服务器通 过网关连接,组织内部用户安装相应的终端软件,可以通过中转机实现对原始数据的访 问和操作. 3、数据脱敏 从保护敏感数据机密性的角度出发,在进行数据展示时,需要对敏感数据进行模糊化 处理。特别是对手机号码、身份证件号码等个人敏感信息,模糊化展示也是保护个人信 息安全所必须采取的措施.业务系统或后台管理系统在展示数据时需要具备数据脱敏功能 ,或嵌入专门的数据脱敏工具.数据脱敏工具可以实现对数值和文本类型的数据脱敏,支 持多种脱敏方式,包括不可逆加密、区间随机、掩码替换等。 4、日志管理和审计 日志管理和审计方面的技术能力要求主要是对账号管理操作日志、权限审批日志、数 据访问操作日志等进行记录和审计,以辅助相关管理制度的落地执行.技术实现上,可以 根据组织内容实际情况,建设统一的日志管理和审计系统,或由相关系统各自实现功能, 如账号管理和权限审批系统,实现账号管理操作日志、权限审批日志记录和审计功能。 5、异常行为实时监控与终端数据防泄漏 相对于日志记录和安全审计等"事后"追查性质的安全技术措施,异常行为实时监控是 实现"事前"、"事中"环节监测预警和实时处置的必要技术措施。异常行为监控系统应当 能够对数据的非授权访问、数据文件的敏感操作等危险行为进行实时监测。同时,终端 数据防泄漏工具能够在本地监控办公终端设备操作行为,是组织内部异常行为监控体系 的主要组成部分,可以有效防范内部人员窃取、泄漏数据的风险,同时有助于安全事件 发生后的溯源取证.终端数据防泄漏工具通过监测终端设备的网络流量、运行的软件、U SB 接口等,实时发现发送、上传、拷贝、转移数据文件等行为
大数据安全保障措施-全文共3页,当前为第1页。大数据安全保障措施-全文共3页,当前为第1页。(一)数据产生/采集环节的安全技术措施 大数据安全保障措施-全文共3页,当前为第1页。 大数据安全保障措施-全文共3页,当前为第1页。 从数据安全角度考虑,在数据产生/采集环节需要实现的技术能力主要是元数据安全管理、数据类型和安全等级打标,相应功能需要内嵌入后台运维管理系统,或与其无缝对接,从而实现安全责任制、数据分级分类管理等管理制度在实际业务流程中的落地实施 1、元数据安全管理 以结构化数据为例,元数据安全管理需要实现的功能,包括数据表级的所属部门、开发人、安全责任人的设置和查询,表字段的资产等级、安全等级查询,表与上下游表的血缘关系查询,表访问操作权限申请入口。完整的元数据安全管理功能应可以显示一个数据表基本情况,包括每个字段的类型、具体描述、数据类型、安全等级等,同时显示这个数据表的开发人、负责人、安全接口人、所属部门等信息,并且可以通过这个界面申请对该表访问操作权限。 2、数据类型、安全等级打标 建议使用自动化的数据类型、安全等级打标工具帮助组织内部实现数据分级分类管理,特别是在组织内部拥有大量数据的情况下,能够保证管理效率。打标工具根据数据分级分类管理制度中定义的数据类型、安全等级进行标识化,通过预设判定规则实现数据表字段级别的自动化识别和打标。下图是一个打标工具的功能示例,显示了一个数据表每个字段的数据类型和安全等级,在这个示例中,"C"表示该字段的数据类型,"C"后面的数字表示该字段的安全等级。 数据类型、安全等级标识示例 (数据传输存储环节的安全技术措施 数据传输和存储环节主要通过密码技术保障数据机密性、完整性。在数据传输环节,可以通过HTTPS、VPN 等技术建立不同安全域间的加密传输链路,也可以直接对数据进行加密,以密文形式传输,保障数据传输过程安全。在数据存储环节,可以采取数据加密、硬盘加密等多种技术方式保障数据存储安全。 (三)数据使用环节的安全技术措施 数据使用环节安全防护的目标是保障数据在授权范围内被访问、处理,防止数据遭窃取、泄漏、损毁。为实现这一目标,除了防火墙、入侵检测、防病大数据安全保障措施-全文共3页,当前为第2页。大数据安全保障措施-全文共3页,当前为第2页。毒、防DDoS、漏洞检测等网络安全防护技术措施外,数据使用环节还需实现的安全技术能力包括: 大数据安全保障措施-全文共3页,当前为第2页。 大数据安全保障措施-全文共3页,当前为第2页。 1、账号权限管理 建立统一账号权限管理系统,对各类业务系统、数据库等账号实现统一管理,是保障数据在授权范围内被使用的有效方式,也是落实账号权限管理及审批制度必需的技术支撑手段。账号权限管理系统具体实现功能与组织自身需求有关,除基本的创建或删除账号、权限管理和审批功能外,建议实现的功能还包括:一是权限控制的颗粒度尽可能小,最好做到对数据表列级的访问和操作权限控制。是对权限的授予设置有效期,到期自动回收权限。三是记录账号管理操作日志、权限审批日志,并实现自动化审计;日志和审计功能也可以由独立的系统完成。 2、数据安全域 数据安全域的概念是运用虚拟化技术搭建一个能够访问、操作数据的安全环境,组织内部的用户在不需要将原始数据提取或下载到本地的情况下,即可以完成必要的查看和数据分析。原始数据不离开数据安全域,能够有效防范内部人员盗取数据的风险。图7 是数据安全域的拓扑结构示例,数据安全域由一个虚拟机集群组成,与数据库服务器通过网关连接,组织内部用户安装相应的终端软件,可以通过中转机实现对原始数据的访问和操作。 3、数据脱敏 从保护敏感数据机密性的角度出发,在进行数据展示时,需要对敏感数据进行模糊化处理。特别是对手机号码、身份证件号码等个人敏感信息,模糊化展示也是保护个人信息安全所必须采取的措施。业务系统或后台管理系统在展示数据时需要具备数据脱敏功能,或嵌入专门的数据脱敏工具。数据脱敏工具可以实现对数值和文本类型的数据脱敏,支持多种脱敏方式,包括不可逆加密、区间随机、掩码替换等。 4、日志管理和审计 日志管理和审计方面的技术能力要求主要是对账号管理操作日志、权限审批日志、数据访问操作日志等进行记录和审计,以辅助相关管理制度的落地执行。技术实现上,可以根据组织内容实际情况,建设统一的日志管理和审计系统,或由相关系统各自实现功能,如账号管理和权限审批系统,实现账号管理操作日志、权限审批日志记录和审计功能。 大数据安全保障措施-全文共3页,当前为第3页。大数据安全保障措施-全文共3页,当前为第3页。5、异常行为实时监控与终端数据防泄漏 大数据安全保障措施-全文共3页,当前为第3页。 大数据安全保障措施-全文共3页,当前为第3页。 相对于日志记录和安全审计等"事后"追查
异常检测模型对由异常样本编码的低维表示的性能敏感可能会带来以下一些坏处: 1. 高度依赖异常样本的表示:如果异常样本在编码过程中没有很好地反映其异常性质,或者由于数据噪声或采样偏差导致异常样本的编码不准确,那么异常检测模型可能会受到这些编码错误的影响。这可能导致模型对异常样本的检测性能下降,因为它过于依赖低维表示中的异常样本。 2. 对新的异常样本可能不具备泛化性:如果异常检测模型在训练过程中过度依赖于由异常样本编码的低维表示,那么在遇到与训练集中不同的新异常样本时,模型可能无法准确地检测它们。这是因为该模型在编码阶段学习到的低维表示可能无法很好地捕捉新样本中的异常特征。 3. 对正常样本的识别可能受到负面影响:如果异常样本的编码在低维表示中占据了较大比例,模型可能会将正常样本错误地分类异常。这种情况下,模型的准确性和精确性可能会下降,因为它在正常样本的识别方面受到了异常样本编码的影响。 为了应对这些问题,可以采取一些措施,如更好地选择异常样本、调整异常样本的权重、使用更复杂的异常检测模型等。此外,还可以考虑使用其他特征工程方法或不同的数据表示方式来减少对异常样本编码的依赖性,以提高异常检测模型的性能和泛化能力

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值