设计以外,广告以内:特征数据篇
2021年|类型:编著|标签:专业理论
我们将从数据源直接获取到的特征称之为原始特征,将经过计算后输入给模型的特征称之为模型特征。在多重角色的合作配合下,经过数据接入、数据挖掘和数据应用三个阶段,可以实现同一个原始特征经过不同的处理逻辑,计算出不同的模型特征。将生成的模型特征根据配置转换成可以直接输入给模型的数据格式,被模型和策略所采用,乃至最后为内外部用户提供直观的数据服务。这就是特征的数据通路。
在整个样本闭环中,我们可以按照数据通路的三个阶段,来看各个角色所遇到的问题。
数据接入阶段
在 2021 年上半年,我们的主要工作之一还是在推进数据接入。在数据接入阶段,广告主在知数基础版中,通过文件上传的方式上传一方人群数据,通过数据源接入行为数据 (App行为、Web行为、微信行为和线下行为) 和属性数据,还可以通过 API、SDK、JS 回传后链路数据。系统解决广告主在数据接入、管理、价值衡量、报表展示等环节上的痛点。在知数行业专业版中,可以通过专属通道和私有云存储,进一步保障资产安全。广告平台也可以从交易数据等消费端数据以及监控数据等生产端数据中进行采集。具体而言:

除此之外,我们还联动了行业运营,系统性解决一方数据从接入、治理到衡量各环节上卡点。
从广告投放开始到用户完成交易,用户在双方产生的交互和交易数据是割裂的,广告平台和广告主各持一半。前者有用户画像、点击行为等前链路数据,后者有应用激活、付费等后链路数据。广告主通过上述方式回传一方用户数据,理论上就是突破数据边界,实现一定程度上的数据共享,提升ROI。为广告投放带来更精准的转化效果,广告数据进入后链路营销时代。
广告主
广告平台
多行业特性下,接入的数据缺少规范、数据资源分散、数据质量参次不齐,数据安全隐患等问题涌现时,针对一方数据的接入、治理和衡量就成为急需解决的问题。
数据挖掘阶段
在数据挖掘阶段,主要涉及到特征生产方,包括行业运营、数据挖掘。其中数据挖掘理解的知识体系是后置的,行业运营为数据挖掘提供行业经验支撑,围绕实体指导数据挖掘做更精准地定义。数据挖掘则专注于特征生产上。
行业运营
数据挖掘
为了提高信息、知识的存储、传递,以期进一步提升数据挖掘效率,我们可以:
数据应用阶段
在数据应用阶段,主要涉及到特征应用方,包括模型策略、行业运营。其中模型策略与上一阶段数据挖掘都在数据通路上,但现阶段还处于线下对接的方式,信息在双方不透明是比较明显的问题。
模型策略
行业运营
站在数据通路来看,数据挖掘与数据应用脱节。我们从特征的生命周期来看特征在模型应用效率低的原因。

注:将数据写入在线 KV 的过程叫做特征入库,在线 KV 这里特指 Marvel。Marvel 是服务于广点通用户数据的存储系统, 适用的场景是用户的时间序列数据,并且通常需要将旧的数据按时间淘汰。Marvel 现在承载了广告系统中用户特征、用户画像、新鲜度和 DMP 等数据的在线查询。实际使用中发现,很大一部分数据是由数据挖掘侧批量提供的。例如用户特征表,是由几十个数据源 Merge 而成,包括用户安装的 App 列表、用户点击过的广告 id 序列、用户的 DMP 标签信息等等,这些特征通常是天级别的更新的,通过 HDFS 或 Hive 表提供。
并通过行业化串联数据挖掘与数据应用,通过自动化提高生产效率,缩短应用周期。
写在最后
AMS 广告系统已全面进入数据驱动的智能化时代,用户(基础、行业化特征等)、广告(创意、落地页等)、商品(行业商品库、商品特征 )海量数据,源源不断的在广告播控系统全链路进行挖掘与应用。由于广告系统庞大、应用链路深长,各种信息不对称、特征不统一、应用效率低、效果回收难、主动优化难等问题突显。数据如何被透明化出来,消除协同团队间的信息不对称,提升应用分发效率,同时让更多团队高效地参与到数据共建与全链路应用中成为当前亟待解决的问题。通过分析数据通路上的三个阶段各用户的诉求,我们整理得到了现阶段需要产品化的核心问题,即:
© 2024 Xiang PENG. All Rights Reserved.