大数据实战:用户画像之标签如何治理
  8bxyRFfzXN55 2023年11月02日 20 0


1.前言

书接上回:手把手教你搭建用户画像系统(入门篇上);手把手教你搭建用户画像系统(入门篇下),我们介绍了搭建一个完整的用户画像项目,也开设了对应的项目课程《涤生大数据之互联网金融用户画像项目》,相信入坑的小伙伴学完以后,都知道一个用户画像系统的从0到1的过程。

在建设画像体系中最重要的就是打标签,经过前期标签体系设计、标签加工,标签终于可以上线,随着标签上线一段时间后,我们开始关心每天占用计算资源与存储空间,跑出来的上百个标签,业务同学真的用到了多少,业务收益是否能覆盖数据成本呢?标签上线后,其质量怎么样,是否存在老规则不适用、需要持续优化的情况?那今天我们就来讲讲数据治理应用中的用户画像“标签治理”。

整体的优化我们可以从下面五个维度考虑:

2.标签的质量

根据标签的时效性、标签覆盖度、标签准确性等维度评估用户被打标情况,反映标签规则的合理性。

覆盖率:主要是评估被打标的用户数在总用户数的占比

比如【首次登录app时间】的标签,全量用户有5000万,其中有3000万打上了具体时间,那么剩下的2000万没有打上任何时间的标签,也就是说当前首次登录app时间的标签覆盖率是60%。

如果覆盖率太低的话,在使用标签进行人群圈选的时候,用户体量太小,可用性比较低。在后续业务使用过程中,和真实情况会有较大的偏差。

准确性:主要评估用户被打标签的实际情况是否准确

比如我们常用的【理财产品购买偏好】标签,通过用户对该品类的金额和下单次数能够直接反馈出用户对该品类的喜爱程度。实际场景应用的价值,比如说用户偏好数学的学科,那么针对该用户投放数学品类的优惠券,去吸引用户使用优惠券购买数学商品,这时准确性就起到至关重要的作用,如果准确性比较低的话,那么直接影响到用户的购买行为。

时效性:主要评估标签数据的时间的保证

我们常用的一些基础或者核心标签是需要保证数据的时效性,比如push场景中【活跃】、【地域】、【性别】都会影响到push策略的收益,那么早上10点要做push动作,数据能否就绪进行使用,就是变得至关重要的。

3.标签使用

主要评估标签在使用、分析、调度场景的情况

标签引用:如人群圈选直接反应该标签的使用现状,有多少人用该标签进行的圈选人群,使用的次数越多,代表着该标签符合场景、标签数据比较可信。

人群分析:指标签在人群分析、人群对比等分析场景中使用的次数。标签在群组画像分析、群组画像对比分析、单用户画像分析功能中被分析的情况,计算“标签分析次数”指标。

标签调用:标签通过数据API被外部应用查询的次数,计算“标签调用次数”指标。

4.标签的关注度

标签关注度,用以评估被搜索、查看、收藏的情况。

标签搜索:标签被用户搜索的情况,计算“搜索次数”指标。

标签查看:标签被点击查看基础信息、分析页面等的次数,计算“查看次数”指标。

标签收藏:收藏该标签的用户数,计算“收藏用户数”指标。

5.标签持续优化

根据低频率标签和无使用场景标签进行处理下线治理,优化整体标签架构和计算的资源,从计算效率和计算成本进行收益评估。

6.标签的安全

俗话说“安全无小事,防患于未然”,虽说数据在公司内部进行使用,但是关乎于用户隐私或者公司经营数据还是要谨慎再谨慎。标签安全相关的策略有:

标签使用是否需要申请授权:标签发布后,其他人使用该标签,是否需要申请审批。

标签是否进行行级权限控制:上面我们控制了标签的列权限,行级权限反映该标签是否设置了行级权限。

标签是否脱敏:标签是否进行脱敏。

7.总结

以上就是我们从几个维度对治理标签的探讨,其实不管是数据治理,还是标签治理,个人觉得最重要的是要能合理的评估出来收益。当然我们也可以通过上面的各个维度,来给标签评分,一般思路就是函数+规则去评定,使用度、关注度这种,需要先通过函数转化成评分,然后在进行加权,收藏这种主动行为更有倾向,比重就高一些。像标签安全,比较重要的,如果敏感数据未脱敏,并且超过一定范围,直接给0分。

所有维度权重加起来等于100%,具体实际权重可以根据目标和关注点进行调整。如果最终评分太低的话,我们就可以对标签进行优化调整或者 下线的操作。

 

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
8bxyRFfzXN55