网易云音乐用户画像资产治理及业务赋能

开发 前端
着重说明下业务和技术背景。首先是业务背景,云音乐现阶段用户增长瓶颈总量几十亿用户,日活几千万左右,月活几亿,想要再增长用户成本极高,精细化运营已经是破圈的必须手段。

​在如今降本提效的大背景下,用户画像资产在人维度数据上占据大头资源,历史遗留问题也不少,数据治理迫在眉睫。本文将从项目背景、项目挑战、项目方案、项目成果四个方面进行分享阐述,希望分享能帮助到大家。

1.项目背景

着重说明下业务和技术背景。首先是业务背景,云音乐现阶段用户增长瓶颈总量几十亿用户,日活几千万左右,月活几亿,想要再增长用户成本极高,精细化运营已经是破圈的必须手段。面对现在不同的用户人群,具备不同的商业化潜质,需要对不同人进行商业化分层,才能更好的帮助用户精细化运行。除了主站业务的拓展,子业务扩展也是迫在眉睫,用户画像可以帮助子业务从主站业务挖掘和扩展需要的用户群体,帮助做业务扩展,扩单云音乐整体营收能力。

再说技术背景,主要也分3块内容,历史用户画像建设标签重复建设,多达32张相关画像表存在,部分依赖层级多,且标签重复建设。圈选产品不统一,存在多套产品,比如muse、诺伦、sniper等,产品侧需要做一定的重组。圈选产品的响应速度,也是整个产品获得用户依赖的核心指标,通过一定的技术改造实现从sql圈选到ms级圈选能力是很有必要的。

综上,可以概括为云音乐用户画像资产,存在链路强耦合,计存高成本,口径不统一,产品性能又不足的现状问题。  

图片

2.项目挑战

数据侧难点:数量大,链路长,时效低,口径多。数量大体现在用户画像涉及上千指标,需要对这些指标做统一的管理,确保指标及其对应表的高内聚底耦合,任务链路存在很多7-8层的任务层级,层级越多,任务的稳定性越差,需要对任务链路进行压缩;实效性方面,现阶段任务的时效性不高,每天产出的时间是10点左右,远没有达到用户需要的6点时效性要求,需要进行产出时间的压缩;关于任务的一致性,需要进行,则是如此之多的画像指标,如何做到指标的一致性是具有很大挑战的。

3.项目方案

3.1 方案框架

针对以上内容,这些脏乱差数据应该如何治理是值得我们花时间去做的事情。本项目结合实际可实现的内容,整理并完善整个项目方案,以治理降本和产品提效为两大主线为解决方案,如下图:

图片

从图中可以看出,整个项目分为五层。底层为画像底表层,包括流量数据、用户中台数据、内容数据、会员数据、社区数据等数仓公共层数据;上层为画像逻辑层,通过对底层数据进行实体关系建模,抽象成用户基础画像、用户行为画像、用户统计挖掘几大块内容。

用户画像的逻辑层建模就是为了实现整个画像层,可以实现数据的一致性标准,确保数是高内聚低耦合的,同时也确保了整体的可扩展性,比如新增游戏业务的话,那就在行为画像中添加游戏实体,可以实现整个逻辑层的可扩展而不需要重构整个内容。

画像的应用层,测试整个画像的输出部分,包括画像核心全量表,以及各类画像的切片画像,如会员画像、日活画像、月活画像等等。

画像产品层是基于画像数据进行的画像产品,包括魔镜圈选产品,实现标签管理的标签工厂,实现标签服务化的标签服务能力等等。

在画像逻辑层和画像应用层涉及整个画像的治理工作,包括画像的产出保障以及任务下线。

再向上则是最终服务业务的业务产品,魔镜通过打通和业务产品的能力,比如打通灵渠,可以实现从用户人群圈选到用户push的打通构建。还有天秤、音乐人运营等产品。

3.2 标签建设

用户画像标签建设以需求触发为出发点,需求调研case如下左表。需求来源包括各线分析师、魔镜、标签工厂产品、运营同学等。通过结合数仓分层和ER实体关系建模的方法、依托业务诉求,设计画像逻辑层。实现数据的高内聚低耦合,从而确保了良好的可扩展性。

图片

比如歌单、歌曲、直播、mv都是实体对象,通过与用户的二元叉乘得到相关数据指标,后续业务扩展游戏等,也可直接实现用户叉乘游戏,实现横向实体扩展。确保实体内数据高内聚,实体间数据低耦合。

3.3 保障体系

保障体系重点在于数据质量的监控保障,以数据稳定性、一致性、及时性、唯一性、完整性、准确性为核心保障内容,详细工具和方式见下图所示:  

图片

3.4 任务下线

任务下线机制则主要以定策略,用工具为主要手段,逐步推动下线。 

图片

3.5 魔镜产品

用户画像下游接入魔镜产品,实现用户画像表服务各类业务的圈选功能,下游链接各类产品投放产品,实现画像数据的业务赋能。

图片

图片

图片

4.项目成果

项目成果从产品价值、治理价值、业务价值三大块说明。

4.1 产品价值

统一数据服务基于画像数据及标签元数据提供高效的标签服务、圈选服务,基本覆盖了云音乐全部业务圈选服务,应用于用户运营、线上活动、AB实验、广告投放等多个产品及场景。统一数据开放接口的提供为用户运营、线上活动、AB实验、广告投放全业务线提供服务,做到一次开发多产品使用,减少人力开发成本。  

产品总计实现1900多次人群包圈选,百亿次圈选,500万次多的push服务,覆盖音乐几十亿用户和上百+标签。

图片

4.2 治理价值

总体预计下线32张表,上千多标签治理,预计节约存储成本近150万,年节省计算成本近200万,预计年度总节省300多万元。

图片

 4.3 业务价值

除了产品链路打通后大大节省了push时效外,还有子业务的画像服务场景,也大大体现了业务价值。比如某子业务使用主站用户标签数据,每日实现拉新几千用户,年可节省千万左右成本。​

责任编辑:武晓燕 来源: 网易有数
相关推荐

2023-06-12 07:44:21

大数据数据治理

2023-07-27 07:44:07

云音乐数仓平台

2023-02-08 19:32:27

大数据

2017-03-01 15:49:45

网易

2013-03-04 10:57:01

网易云音乐

2024-02-06 08:18:30

用户画像标签数字化异常值处理

2023-03-15 18:34:26

资源治理数据治理业务线

2017-01-09 16:19:23

互联网

2019-11-01 10:00:14

前端业务代码

2020-03-05 11:15:32

IBM混合云

2023-07-27 13:44:19

业务用户画像

2023-09-13 07:19:46

数据开发平台治理平台

2022-04-02 11:47:11

数据分析业务岗位

2014-10-10 16:04:01

网易云音乐Mac版

2017-06-27 16:11:19

互联网

2022-12-12 08:00:00

人工智能网易云音乐算法平台研发

2017-03-24 17:55:47

互联网

2017-03-24 18:38:40

互联网

2013-05-13 11:12:22

云音乐云应用
点赞
收藏

51CTO技术栈公众号