合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。
基础属性类画像标签是用户自身属性的标签,通常不与用户在 APP 上的行为挂钩,例如性别、年龄、操作系统、所在城市等。
其建立方式包括:
基础属性画像标签的应用场景主要包括:
与业务目标(或者说 KPI)强关联的标签,通常基于这样的标签找到业务的目标人群。
可以根据与 KPI 的关联分为两大类:
建设方式包括:
使用方式包括:
针对特定策略建设?群标签,通常能够在 AB 实验中拿到较好的收益。例如:
与权益干预相关的标签,可以帮助我们识别那些在接受红包或全域干预后会显示出显著提升的用户群体。通过 AUUC 图的分析,可以预测特定用户群体干预前后的增量以及预期的投资回报率(ROI)。这种预测性的分析可以为策略决策提供坚实的数据支持。
针对电商场景的复购属性用户,会通过分析用户购买某一类目的时间间隔分布,进行统计拟合,预计不同用户的购买间隔。当用户预计的购买间隔接近时,通过适当的引导和干预,可以有效提高用户的复购率。这种策略不仅增加了用户对平台的粘性,还有助于抢占市场份额。
预测类的标签基于用户的历史行为和其他战略特征,预测用户未来的行为模式,如流失或沉默的概率。利用这些信息,可以绘制热力图来表示不同预测分数区间内的用户流失概率和数量。这种方法使我们能够精确地识别出潜在的风险用户群,并对他们实施针对性的运营策略,从而最大化 ROI 和 AB 实验的增量效益。
策略向人群的建设方式包括:uplift 模型、复购周期预测、二分类模型等。
使用方式为:在特定策略(红包/push 干预)下,进行干预的目标?群,实现 ROI 的最大化。
这里主要介绍一些日常特征处理中容易被忽视的步骤。
用户标签的生成同时参照 RFM 模型中提供的三个维度进行特征构建:
处理的目标是让距今更近的行为对分数产生更大的影响。
Frequency 类的指标中有一些代表过去一段时间的累计行为,如过去 90 天的总登录次数,定义按照假如两个用户在这个指标上的数值相同那代表他们的活跃频次是相同的。但需要考虑一个场景,如果用户 A 只在最近 10 天登录了 10 次,用户 B 只在 80 天前登录了 10 次,他们的 F 指标都是 10,可是用户 A 的活跃度直观来看应该更高。如果希望数值上体现这个差异的话,可以对每一天的数据乘以一个权重再进行求和,这个权重是一个随着距今时间增加而衰减的函数。
为了在数值上体现这个差异,可以对每一天的数据乘以一个权重再进行求和,这个权重是一个随着距今时间增加而衰减的函数。公式如下:
在互联网平台中,用户行为数据通常展现出显著的头部/长尾效应。即绝大多数用户表现出相似的指标特征,而在数据的尾部则存在着很多行为多样的用户群体(数量小但分布广)。此现象导致数据在区分不同用户行为时的能力受限,特别是对于那些行为模式较为独特的用户群体。
因此需要进行平滑处理,其目标是提升数据区分度,以增强模型对用户行为的识别能力。
具体的解决方案为,采用对数函数(log 函数)对原始数据进行平滑处理。对数转换能够减少极端值的影响,使数据分布更加平缓,从而提高数据的区分度。通过对数平滑处理后,数据分布将更加均匀,能够更有效地识别和区分不同用户的行为模式。特别是对于长尾中的小众用户行为,能够更准确地进行识别和分析。
在实施平滑处理时,需注意选择合适的 log 函数以及处理方法,以确保数据转换后能够有效反映用户行为的真实特征,并对模型的预测能力产生积极影响。
通过 log 函数对原数据进行处理,处理前后数据分布对比如下:
在确定了画像标签后,进行长期的评估或追踪是至关重要的步骤。在特定命题下,可以直接通过 AUC、AUUC、召回等指标准确地评估。但是在非特定命题的情况下,可能无法通过这些指标简单地评估标签质量。日常使用中,通常有两种评估标准,即内聚性和稳定性。
离散系数是一个绝对数值,一般来说,离散系数在 5% 以下时,我们认为这个分层是稳定的。参照稳定性的含义,我们可以基于每个分层用户的表现指标(如次留率)去计算,也可以用分层的边界值计算(如活跃分的 75 分位数)。
A1:不同活跃度人群的内聚性计算基于比较核心关注的指标,例如用户在平台的活跃天数。具体计算方法是,首先为每个用户分配高中低活跃的标签。然后,计算高活用户与其他高活用户在活跃天数上的差异,同时计算高活用户与中、低活用户的活跃天数差异。理想情况下,同一活跃度分层内的用户差异较小,而不同分层之间差异较大。通过这样的计算,我们可以得到一个单一数值来评估内聚性,并用此判断不同分层方式的优劣。
A2:在划分高中低活用户时,我们可能会采用不同的方法。每种方法都可以计算内聚性和分层稳定性。我们将选择在内聚性或稳定性上表现更好的分层方式。这意味着我们寻找能最佳区分不同用户群体行为的分层标准。
A3:是的,时间衰减的计算复杂度相对较高。为了应对这一挑战,我们通常会选择一些核心指标进行时间衰减处理,并将这些指标落表到数仓中。这样可以避免对所有指标进行复杂的时间衰减处理。
A4:基础业务策略的分类是从数据分析师的日常应用视角出发的。基础标签通常是用户自身的属性标签,帮助我们进行初步的用户认识。业务标签是根据给定业务对用户进行分层,而策略标签则是针对特定策略设计的画像标签。
A5:画像结果的评估广泛应用于设计长期使用的常用标签,例如高中低活跃或购买力标签。我们希望这些标签在长期内稳定且具有区分度。此外,在没有真实标签对照的情况下,如二分类模型或 Uplift 模型,我们无法直接用 AUC 衡量模型准确性。在这种情况下,我们会采用额外的方法来评估画像标签的质量。
TOP