设计以外,广告以内:特征数据篇

2021年|类型:编著|标签:专业理论

我们将从数据源直接获取到的特征称之为原始特征,将经过计算后输入给模型的特征称之为模型特征。在多重角色的合作配合下,经过数据接入、数据挖掘和数据应用三个阶段,可以实现同一个原始特征经过不同的处理逻辑,计算出不同的模型特征。将生成的模型特征根据配置转换成可以直接输入给模型的数据格式,被模型和策略所采用,乃至最后为内外部用户提供直观的数据服务。这就是特征的数据通路。

在整个样本闭环中,我们可以按照数据通路的三个阶段,来看各个角色所遇到的问题。

数据接入阶段

在 2021 年上半年,我们的主要工作之一还是在推进数据接入。在数据接入阶段,广告主在知数基础版中,通过文件上传的方式上传一方人群数据,通过数据源接入行为数据 (App行为、Web行为、微信行为和线下行为) 和属性数据,还可以通过 API、SDK、JS 回传后链路数据。系统解决广告主在数据接入、管理、价值衡量、报表展示等环节上的痛点。在知数行业专业版中,可以通过专属通道和私有云存储,进一步保障资产安全。广告平台也可以从交易数据等消费端数据以及监控数据等生产端数据中进行采集。具体而言:

数据接入

除此之外,我们还联动了行业运营,系统性解决一方数据从接入、治理到衡量各环节上卡点。

从广告投放开始到用户完成交易,用户在双方产生的交互和交易数据是割裂的,广告平台和广告主各持一半。前者有用户画像、点击行为等前链路数据,后者有应用激活、付费等后链路数据。广告主通过上述方式回传一方用户数据,理论上就是突破数据边界,实现一定程度上的数据共享,提升ROI。为广告投放带来更精准的转化效果,广告数据进入后链路营销时代。

广告主

  • 接入安全性有待提升
  • 效果反馈不及时

广告平台

  • 数据理解不足
  • 数据使用不规范
  • 接入情况不透明

多行业特性下,接入的数据缺少规范、数据资源分散、数据质量参次不齐,数据安全隐患等问题涌现时,针对一方数据的接入、治理和衡量就成为急需解决的问题。

数据挖掘阶段

在数据挖掘阶段,主要涉及到特征生产方,包括行业运营、数据挖掘。其中数据挖掘理解的知识体系是后置的,行业运营为数据挖掘提供行业经验支撑,围绕实体指导数据挖掘做更精准地定义。数据挖掘则专注于特征生产上。

行业运营

  • 更准确的实体定义。完善实体的属性与属性值的理解,明确实体识别符合行业标准与认知。
  • 更有效的人群定义。按照行业人群的职业成长来划分,为新手、经验人士、专家等匹配用户特征。
  • 更紧密的匹配关系。建立人群与实体的联系。

数据挖掘

  • 建立统一的语义规则。数据表是怎么存储的,有哪些字段,字段类型和定义是什么,数据表的上下游有哪些。
  • 理解行业的知识体系。这个行业有哪些实体,实体包含哪些特征,特征值分别是哪些。
  • 提升特征的挖掘效率。挖掘前不知道是否存在类似特征,避免重复挖掘;挖掘后可以快速适配多个模型,帮助应用方快速找到所需特征。
  • 了解特征的挖掘效果。了解特征被谁订阅了,被哪些模型应用了,全链路应用情况以及对应效果如何,优化空间在哪。

为了提高信息、知识的存储、传递,以期进一步提升数据挖掘效率,我们可以:

  • 对行业知识进行建设,通过实体管理关联商品、人群,并补充商品与人群的定义等能力,加深数据挖掘对行业的理解。
  • 对特征的元数据进行管理,通过数据字典、数据血缘数据版本等能力,在一定范围内,用统一的语义规则来描述。
  • 将特征信息整理成库,提高查询效率,汇总特征效果,帮助各方角色理解特征数据。

数据应用阶段

在数据应用阶段,主要涉及到特征应用方,包括模型策略、行业运营。其中模型策略与上一阶段数据挖掘都在数据通路上,但现阶段还处于线下对接的方式,信息在双方不透明是比较明显的问题。

模型策略

  • 不了解特征生产信息。挖掘逻辑是什么,生产负责人是谁,特征质量如何。
  • 特征在模型中应用效率低。特征的基础质量如何,提高特征调研的效率,特征如何向数据上游追溯,特征应用到哪些模型,哪些特征更有价值。

 行业运营

  • 不了解行业特征。我所在的行业在用的、用得好的特征都是哪些。挖掘逻辑是什么。
  • 如何优化效果。进一步优化我所在行业的应用效果,了解特征的优化空间如何。

站在数据通路来看,数据挖掘与数据应用脱节。我们从特征的生命周期来看特征在模型应用效率低的原因。

C3MM特征调研流程|体验地图

注:将数据写入在线 KV 的过程叫做特征入库,在线 KV 这里特指 Marvel。Marvel 是服务于广点通用户数据的存储系统, 适用的场景是用户的时间序列数据,并且通常需要将旧的数据按时间淘汰。Marvel 现在承载了广告系统中用户特征、用户画像、新鲜度和 DMP 等数据的在线查询。实际使用中发现,很大一部分数据是由数据挖掘侧批量提供的。例如用户特征表,是由几十个数据源 Merge 而成,包括用户安装的 App 列表、用户点击过的广告 id 序列、用户的 DMP 标签信息等等,这些特征通常是天级别的更新的,通过 HDFS 或 Hive 表提供。

并通过行业化串联数据挖掘与数据应用,通过自动化提高生产效率,缩短应用周期。

写在最后

AMS 广告系统已全面进入数据驱动的智能化时代,用户(基础、行业化特征等)、广告(创意、落地页等)、商品(行业商品库、商品特征 )海量数据,源源不断的在广告播控系统全链路进行挖掘与应用。由于广告系统庞大、应用链路深长,各种信息不对称、特征不统一、应用效率低、效果回收难、主动优化难等问题突显。数据如何被透明化出来,消除协同团队间的信息不对称,提升应用分发效率,同时让更多团队高效地参与到数据共建与全链路应用中成为当前亟待解决的问题。通过分析数据通路上的三个阶段各用户的诉求,我们整理得到了现阶段需要产品化的核心问题,即: 

  • 一方用户数据的接入、治理和衡量
  • 行业知识管理
  • 特征元数据管理
  • 特征注册、管理和衡量

© 2024 Xiang PENG. All Rights Reserved.