关于如何用大数据做“用户画像”调查报告(持续更新)

               关于如何用大数据做“用户画像”调查报告(持续更新)

什么是用户画像

       用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。

用户画像的八要素

       做产品怎么做用户画像,用户画像是真实用户的虚拟代表,首先它是基于真实的,它不是一个具体的人,另外一个是根据目标的行为观点的差异区分为不同类型,迅速组织在一起,然后把新得出的类型提炼出来,形成一个类型的用户画像。一个产品大概需要4-8种类型的用户画像。

用户画像的PERSONAL八要素:

P代表基本性(Primary):指该用户角色是否基于对真实用户的情景访谈;

E代表同理性(Empathy):指用户角色中包含姓名、照片和产品相关的描述,该用户角色是否引同理心;

R代表真实性(Realistic):指对那些每天与顾客打交道的人来说,用户角色是否看起来像真实人物;

S代表独特性(Singular):每个用户是否是独特的,彼此很少有相似性;

O代表目标性(Objectives):该用户角色是否包含与产品相关的高层次目标,是否包含关键词来描述该目标;

N代表数量性(Number):用户角色的数量是否足够少,以便设计团队能记住每个用户角色的姓名,以及其中的一个主要用户角色;

A代表应用性(Applicable):设计团队是否能使用用户角色作为一种实用工具进行设计决策。

L代表长久性(Long):用户标签的长久性。

用户画像的优点

        用户画像可以使产品的服务对象更加聚焦,更加的专注。换言之, 如果这个产品是适合每一个人的,那么其实它是为最低的标准服务的,这样的产品要么毫无特色,要么过于简陋。纵览成功的产品案例,他们服务的目标用户通常都非常清晰,特征明显,体现在产品上就是专注、极致,能解决核心问题。比如苹果的产品,一直都为有态度、追求品质、特立独行的人群服务,赢得了很好的用户口碑及市场份额。又比如豆瓣,专注文艺事业十多年,只为文艺青年服务,用户粘性非常高,文艺青年在这里能找到知音,找到归宿。所以,给特定群体提供专注的服务,远比给广泛人群提供低标准的服务更接近成功。  其次,用户画像可以在一定程度上避免产品设计人员草率的代表用户。代替用户发声是在产品设计中常出现的现象,产品设计人员经常不自觉的认为用户的期望跟他们是一致的,并且还总打着“为用户服务”的旗号。这样的后果往往是:我们精心设计的服务,用户并不买账,甚至觉得很糟糕。

(来自搜狗百科)


对于“人物画像”我自己的理解就是对用户进行“贴标签”!


用户画像的四阶段

  1. 战略解读:企业选择构建用户画像平台,可以实现不同的战略目的,如提升产品服务质量、精准营销等。根据战略目的的不同,用户画像的构建也有所区别。因此首先需要明确用户画像平台的战略意义、平台建设目标和效果预期,进而有针对性的开展实施工作。
  2. 建模体系:对用户画像进行数据建模,结合客户实际的需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合客户实际情况的建模体系。
  3. 维度分解:以用户、商品、渠道三类数据实体为中心,进行数据维度分解和列举。根据相关性原则,选取和战略目的相关的数据维度,避免产生过多无用数据干扰分析过程。
  4. 应用流程:针对不同角色人员的需求(如市场、销售、研发等),设计各角色人员在用户画像工具中的使用功能和应用/操作流程。

       目前主流的标签体系都是层次化的,如下图10-4所示。首先标签分为几个大类,每个大类下进行逐层细分。在构建标签时,我们只需要构建最下层的标签,就能够映射到上面两级标签。

       上层标签都是抽象的标签集合,一般没有实用意义,只有统计意义。例如我们可以统计有人口属性标签的用户比例,但用户有人口属性标签本身对广告投放没有任何意义。  

                                      

       用于广告投放和精准营销的一般是底层标签,对于底层标签有两个要求:一个是每个标签只能表示一种含义,避免标签之间的重复和冲突,便于计算机处理;另一个是标签必须有一定的语义,方便相关人员理解每个标签的含义。此外,标签的粒度也是需要注意的,标签粒度太粗会没有区分度,粒度过细会导致标签体系太过复杂而不具有通用性。

表10-1列举了各个大类常见的底层标签

          

       最后介绍一下各类标签构建的优先级。构建的优先级需要综合考虑业务需求、构建难易程度等,业务需求各有不同,这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系,优先级如图10- 5所示。

 

                        

 

       基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。事实标签的构造过程,也是对数据加深理解的过程。对数据进行统计的同时,不仅完成了数据的处理与加工,也对数据的分布有了一定的了解,为高级标签的构造做好了准备。

       模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签。模型标签的构造大多需要用到机器学习自然语言处理技术

       最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。


1. 人口属性画像

       人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等。这些标签基本是稳定的,构建一次可以很长一段时间不用更新,标签的有效期都在一个月以上。同时标签体系的划分也比较固定,表10-2是MMA中国无线营销联盟对人口属性的一个划分。

 

大部分主流的人口属性标签都和这个体系比较类似,有些在分段上有一些区别。

             

             

                

             

             

       很多产品(如QQ、facebook等)都会引导用户填写基本信息,这些信息就包括年龄、性别、收入等大多数的人口属性,但完整填写个人信息的用户只占很少一部分。而对于无社交属性的产品(如输入法、团购APP、视频网站等)用户信息的填充率非常低,有的甚至不足5%。

       在这种情况下,我们一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。

下面我们用视频网站性别年龄画像的例子来说明标签扩散模型是如何构建的。

       一个视频网站,希望了解自己的用户组成,于是对用户的性别进行画像。通过数据统计,有大约30%的用户注册时填写了个人信息,我们将这30%的用户作为训练集,来构建全量用户的性别画像,我们的数据如表10-3所示。

 

         

      下面我们来构建特征。通过分析,我们发现男性和女性,对于影片的偏好是有差别的,因此使用观看的影片列表来预测用户性别有一定的可行性。此外我们还可以考虑用户的观看时间、浏览器、观看时长等,为了简化,这里我们只使用用户观看的影片特征。

       由于观看影片特征是稀疏特征,我们可以使用调用MLlib,使用LR、线性SVM(支持向量机)等模型进行训练。考虑到注册用户填写的用户信息本身的准确率不高,我们可以从30%的样本集中提取准确率较高的部分(如用户信息填写较完备的)用于训练,因此我们整体的训练流程如图10-7所示。

对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。

 

                           

2. 兴趣画像

       兴趣画像是互联网领域使用最广泛的画像,互联网广告、个性化推荐、精准营销等各个领域最核心的标签都是兴趣标签。兴趣画像主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,因此在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模。

      内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。

      为了保证兴趣画像既有一定的准确度又有较好的泛化性,我们会构建层次化的兴趣标签体系,使用中同时用几个粒度的标签去匹配,既保证了标签的准确性,又保证了标签的泛化性。下面我们用新闻的用户兴趣画像举例,介绍如何构建层次化的兴趣标签。

2.1 内容建模

       新闻数据本身是非结构化的,首先需要人工构建一个层次的标签体系。我们考虑如下图10-9的一篇新闻,看看哪些内容可以表示用户的兴趣。

 

                         

       首先,这是一篇体育新闻,体育这个新闻分类可以表示用户兴趣,但是这个标签太粗了,用户可能只对足球感兴趣,体育这个标签就显得不够准确。

       其次,我们可以使用新闻中的关键词,尤其是里面的专有名词(人名、机构名),如“桑切斯”、“阿森纳”、“厄齐尔”,这些词也表示了用户的兴趣。关键词的主要问题在于粒度太细,如果一天的新闻里没有这些关键词出现,就无法给用户推荐内容。

       最后,我们希望有一个中间粒度的标签,既有一定的准确度,又有一定的泛化能力。于是我们尝试对关键词进行聚类,把一类关键词当成一个标签,或者把一个分类下的新闻进行拆分,生成像“足球”这种粒度介于关键词和分类之间的主题标签。我们可以使用文本主题聚类完成主题标签的构建。

       至此我们就完成了对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模,新闻的三层标签如表10-4所示。

 

               

 

       既然主题的准确率和覆盖率都不错,我们只使用主题不就可以了嘛?为什么还要构建分类和关键词这两层标签呢?这么做是为了给用户进行尽可能精确和全面的内容推荐。

       当用户的关键词命中新闻时,显然能够给用户更准确的推荐,这时就不需要再使用主题标签;而对于比较小众的主题(如体育类的冰上运动主题),若当天没有新闻覆盖,我们就可以根据分类标签进行推荐。层次标签兼顾了对用户兴趣刻画的覆盖率和准确性。
 

2.2 兴趣衰减

       在完成内容建模以后,我们就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重。最简单的计数方法是用户点击一篇新闻,就把用户对该篇新闻的所有标签在用户兴趣上加一,用户对每个词的兴趣计算就使用如下的公式:

 

                                                    

其中:词在这次浏览的新闻中出现C=1,否则C=0,weight表示词在这篇新闻中的权重。

这样做有两个问题:一个是用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;另一个是用户的兴趣有很强的时效性,昨天的点击要比一个月之前的点击重要的多,线性叠加无法突出近期兴趣。

为了解决这个问题,需要要对用户兴趣得分进行衰减,我们使用如下的方法对兴趣得分进行次数衰减和时间衰减。 

次数衰减的公式如下:

                                  

其中,α是衰减因子,每次都对上一次的分数做衰减,最终得分会收敛到一个稳定值 ,α取0.9时,得分会无限接近10。

时间衰减的公式如下:

                                            

它表示根据时间对兴趣进行衰减,这样做可以保证时间较早的兴趣会在一段时间以后变的非常弱,同时近期的兴趣会有更大的权重根据用户兴趣变化的速度、用户活跃度等因素,也可以对兴趣进行周级别月级别小时级别的衰减。

3. 地理位置画像

       地理位置画像一般分为两部分:一部分是常驻地画像;一部分是GPS画像。两类画像的差别很大,常驻地画像比较容易构造,且标签比较稳定,GPS画像需要实时更新。

       常驻地包括国家、省份、城市三级,一般只细化到城市粒度。常驻地的挖掘基于用户的IP地址信息,对用户的IP地址进行解析,对应到相应的城市,对用户IP出现的城市进行统计就可以得到常驻城市标签。

       用户的常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等,如图10-10所示是人群出行轨迹的一个示例。

 

                  

       GPS数据一般从手机端收集,但很多手机APP没有获取用户 GPS信息的权限。能够获取用户GPS信息的主要是百度地图、滴滴打车等出行导航类APP,此外收集到的用户GPS数据比较稀疏。

       百度地图使用该方法结合时间段数据,构建了用户公司和家的GPS标签。此外百度地图还基于GPS信息,统计各条路上的车流量,进行路况分析,如图10-11是北京市的实时路况图,红色表示拥堵线路。

 

      

04 用户画像评估和使用

       人口属性画像的相关指标比较容易评估,而兴趣画像的标签比较模糊,兴趣画像的人为评估比较困难,我们对于兴趣画像的常用评估方法是设计小流量的A/B-test进行验证。

       我们可以筛选一部分标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反馈。

       例如,在新闻推荐中,我们给用户构建了兴趣画像,我们从体育类兴趣用户中选取一小批用户,给他们推送体育类新闻,如果这批用户的点击率和阅读时长明显高于平均水平,就说明标签是有效的。

1. 效果评估

       用户画像效果最直接的评估方法就是看其对实际业务的提升,如互联网广告投放中画像效果主要看使用画像以后点击率和收入的提升,精准营销过程中主要看使用画像后销量的提升等。

       但是如果把一个没有经过效果评估的模型直接用到线上,风险是很大的,因此我们需要一些上线前可计算的指标来衡量用户画像的质量。

       用户画像的评估指标主要是指准确率、覆盖率、时效性等指标。

1.1 准确率

      标签的准确率指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。准确率的计算公式如下:

 

                                                     

       其中| Utag |表示被打上标签的用户数,| Utag=true |表示有标签用户中被打对标签的用户数。准确率的评估一般有两种方法:一种是在标注数据集里留一部分测试数据用于计算模型的准确率;另一种是在全量用户中抽一批用户,进行人工标注,评估准确率。

       由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差,故后一种方法的数据更可信。准确率一般是对每个标签分别评估,多个标签放在一起评估准确率是没有意义的

 

1.2 覆盖率

标签的覆盖率指的是被打上标签的用户占全量用户的比例,我们希望标签的覆盖率尽可能的高。但覆盖率和准确率是一对矛盾的指标,需要对二者进行权衡,一般的做法是在准确率符合一定标准的情况下,尽可能的提升覆盖率。

我们希望覆盖尽可能多的用户,同时给每个用户打上尽可能多的标签,因此标签整体的覆盖率一般拆解为两个指标来评估。一个是标签覆盖的用户比例,另一个是覆盖用户的人均标签数,前一个指标是覆盖的广度,后一个指标表示覆盖的密度。

用户覆盖比例的计算方法是:

 

                                                           

其中| U |表示用户的总数,| Utag |表示被打上标签的用户数。

 

人均标签数的计算方法是:

                                                              

       其中| tagi |表示每个用户的标签数,| Utag |表示被打上标签的用户数。覆盖率既可以对单一标签计算,也可以对某一类标签计算,还可以对全量标签计算,这些都是有统计意义的。

1.3 时效性

       有些标签的时效性很强,如兴趣标签、出现轨迹标签等,一周之前的就没有意义了;有些标签基本没有时效性,如性别、年龄等,可以有一年到几年的有效期。对于不同的标签,需要建立合理的更新机制,以保证标签时间上的有效性。

1.4 其他指标

       标签还需要有一定的可解释性,便于理解;同时需要便于维护且有一定的可扩展性,方便后续标签的添加。这些指标难以给出量化的标准,但在构架用户画像时也需要注意。

 

画像使用

       用户画像在构建和评估之后,就可以在业务中应用,一般需要一个可视化平台,对标签进行查看和检索。画像的可视化一般使用饼图、柱状图等对标签的覆盖人数、覆盖比例等指标做形象的展示,如下图10-12所示是用户画像的一个可视化界面。

 

                  

 

       此外,对于构建的画像,我们还可以使用不同维度的标签,进行高级的组合分析,产出高质量的分析报告。在智能营销、计算广告、个性化推荐等领域用户画像都可以得到应用,具体的应用方法,与其应用领域结合比较紧密。

 

(原文来自:https://blog.csdn.net/zw0Pi8G5C1x/article/details/83964888


1.1 用户属性 
用户属性用来描述一个用户的个性,从而用于与其他用户加以区分,为实现精准及个性化的推荐,系统通常对每个用户都有一个用户属性的建模,其中包括用户的基本信息,如用户的性别、年龄、年收入、兴趣爱好、活跃时间、所在城市等。如果计算得到用户A和用户B的属性相似度较高,那么系统就会认为用户A和用户B是相似用户,在推荐引擎中,基于邻居用户群的观影喜好推荐给当前用于一些电影。同时,用户属性还可以用于推荐结果进行过滤和排序,从而优化推荐结果。 
1.2 物品属性 
物品属性是用来描述一个物品的特点,比如观影,这个影片就会有相应的属性标签,比如动作片、爱情片、导演、主演、上映地区等。通过对影片属性进行相应的标签化,为后面的推荐提供数据支撑。

2、用户画像建模 
用户画像建模就是用户信息的标签化,以便为后面的推荐算法提供更精准的语义信息。它的核心是对用户潜在的意图和兴趣进行表示和存储,根据用户的基础信息、视频信息、访问信息、行为偏好等归纳出可读取,可计算的用户模型。用户画像通常包含定性画像和定量画像两个部分,其中定性画像主要包括用户的基本特征、行为刻画、兴趣模型和视频表征等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。所谓的定量画像就是通过某种可量化的数据特征进行画像,比如某个东西的购买量,点击量等。 
2.1 用户定量画像 
定量画像建模过程中需要重点考虑的是用户画像的颗粒度,即用户画像应该细化到何种程度,颗粒度越小,用户画像越细,也就更加有利于提高推荐系统的准确性。然而,也不是越细越好,一方面提高了用户画像建模成本,同时也会导致用户画像的使用性降低,如何把握好用户画像的颗粒度可以采取问卷调查的方法了解用户的使用场景、关注内容等。可以通过表单收集捕捉用户行为。 
2.2 用户定性画像 
标签化是用户定性画像的核心。标签化之后,首先,计算机可以自动完成分类统计功能,例如,可以统计喜欢科幻类型电影的用户有多少,还可以进一步统计喜欢观看科幻类型电影的人群中男女比例是多少,其次,计算机也可以根据这些标签进行深度挖掘,例如,可以利用关联规则计算用户年龄和喜欢电影类型的关系,还可以利用聚类算法分析喜欢科类型电影用户的年龄段分布情况。将标签信息与用户的视频浏览、点播行为数据相结合就可以进一步预测用户的喜好,这对于搜索引擎、广告投放等应用领域都有显著的意义。

3、群体用户画像分析 
群体用户画像分析是指用户间的关联分析。 
群体用户画像分析的流程主要包括: 
1、用户画像的获取 
2、用户画像相似度计算,根据不同的用户画像计算相互间的相似度,是区分用户群体的重要指标,也是展开用户画像聚类的前提条件。 
3、用户画像聚类,根据用户画像间的相似度,将相似的用户画像聚为一类。 
4、群体用户画像生成,针对不同类别的用户分别建立有代表性的典型用户画像。 
通过群体用户画像分析可以获取需求相近的用户群。 
3.1.1 定量相似度计算 
 

 

 

 

 

 

 

 

 

 

 

 

 

更加详细的实际应用博客网址(大数据项目(四)————用户画像):

https://blog.csdn.net/Jorocco/article/details/81428996


 

 

 

 

                    

 

 

                     

 

                      

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值