解密DSP核心:算法和数据的价值与应用
发布人:悠易互通发布时间:2015-07-31 11:38:32
       随着程序化购买规模的快速增长, DSP已经从概念化阶段发展成为具有规范化考核目标的市场标配产品服务。然而,目前的DSP市场鱼龙混杂,在各家DSP都可以标准化对接流量交易平台(Exchange),进行广告投放的情况下,算法和数据即成为DSP最核心的竞争力,它们从本质上构成了在相同资源约束下DSP达成更优KPI的逻辑支撑点。
\
       事实上,算法和数据是DSP看不到的底层结构,它们的价值主要体现在三个方面:一是为广告主精准识别和触达用户,二是需要对用户的价值进行准确的预估,三是按其需求认知阶段选择好打动TA的营销信息。解决了这三个问题,就能让广告预算进行合理分配,从而达到优化广告投放的效果。

算法和数据的场景应用

通常,DSP中算法和数据发挥效力主要体现在一下几个场景:

       首先,要在浩瀚的互联网资源市场中找到目标用户(TA)。以母婴行业为例,营销过程中有两个难点待解决,一是用可信逻辑确认你找到的“母婴”用户的确是“母婴”人群,二是“母婴”人群在不同渠道不同媒介之间的统一识别能力。理想情况下,每个标签人群集是DSP算法根据用户的互联网行为建立模型,然后通过可信Panel库进行验证迭代优化模型的持续过程。所以DSP基于完整的用户行为和可信panel库,建立可信的需求判断模型,是构建“可信”标签用户关键点。

       最实用的Panel库就是客户的第一方数据,包括线下会员信息或线上广告投放的收集到的转化信息(理论上客户在各电商平台的购买用户群均应该为自身资产)。例如,YOYI标签体系中分为兴趣标签和购买意向两种不同需求层级的受众,对应地,我们会参考用户在官网行为特征,判定出用户的不同需求层级,以此作为建模检验标准之一。

       同时,YOYI一方面接入了国内市场上几乎全部交易平台和主流媒体的流量,大面积覆盖用户互联网行为;另一方面,我们融合用户的自然行为和广告行为,从用户角度来分析,只要发生实际的浏览和点击行为,就是用户对信息感兴趣的一种体现,并不严格区分信息是自然信息还是广告信息。以上两点让YOYI能够全面还原用户的互联网行为轨迹。

       完整用户行为轨迹保证模型可用特征完备、特征取值准确;丰富的第一方Panel数据,为模型训练提供真实有效的训练和验证集合,这两点共同保证了用户判断模型的有效性。实际操作中,根据用户行为的所在场景、媒介、时间、频次、浏览时长、搜索、点击广告、浏览广告等所有行为进行特征分类和特征抽取,训练用户需求阶段性行为模型,以进行标签建模。这样我们能对用户的需求和需求层级做出更为准确的判断。

       同时,对目标用户进行多渠道统一识别是技术需要解决的另一个问题。目前有机会大规模完成互联网PC和移动端统一ID识别的只有同时拥有大体量移动和PC用户的巨头公司,让DSP可以较容易地跨越这个问题。但是在国内目前尚未有大体量的统一跨屏ID标准化服务,所以需要DSP构建自己的多屏统一ID体系。YOYI的做法是自己构建跨屏用户识别算法,再以市场上比较标准的第三方跨屏ID作为训练集进行优化验证。例如,同一个人在PC和移动上,wifi接入、地理位置、行为轨迹、触媒习惯都会有一些相似性,这些是构建统一ID算法的基础。大规模数据的机器学习算法和人工规则结合起来,可以从很多维度去解构数据和认识数据,从而解决规律不明显和行为不连贯的问题。对用户在PC、移动、以及PC和移动的交叉维度进行特征抽取和建模,训练出统一ID模型,以标准第三方的跨屏ID作为评测标准,准确率达到了可用的程度。

       其次,要分析目标用户的价值强弱,并不是每个绝对准确的“母婴”人群在每个场景下遇到时都“正好”急于购买奶粉。用户级别的转化率预估和点击率预估问题,是效果广告的关键问题。预估特定广告在特定位置特定用户下的点击率和转化率是一个典型的大规模数据的机器学习问题。我们构建了用户特征体系、广告反馈特征体系、流量特征体系,以及各个维度的交叉特征体系,用经典LR作为预估模型,GBDT作为高维特征抽取模型,进行了点击率预估和转化率预估,离线评测和在线效果都有不错的表现。预估了点击率和转化率以后,根据营销目标,我们就可以就行KPI为导向的CPM计算了。 以汽车Leads为例,Ecpm = CPA*转化率,根据不同用户和不同流量进行CPM的出价,以达到在有限预算内,效果最好。

       此外,还有一个常常被忽略但至关重要的策略是防作弊能力。如何对输入模型的数据进行有效性识别,排除虚假流量、点击,甚至转化,是需要单独文章专门展开的一个核心课题,这里先做记录,以提示其重要性。进行数据提纯后的转化率至关重要,一方面是投放中进行广告筛选排序的重要因子,决定了给用户在当前场景下看到的最相关广告是哪个,另一方面,在广告主授权情况下,算法可以针对目标用户进行自动竞价,以保证适当范围跳出CPA的出价限制去追踪核心用户群,避免被竞争对手“抢去”展现机会。

       最后,找到了人,知道了TA所在场景下的关注点及对应的需求阶段,就要考虑用合适的沟通方式去打动TA。目前受限于目前广告主创意的丰富度、制作能力和媒体审核周期的限制,我们在智能创意上的算法应用还在发展初期,创意组合效用的爆发还有很大空间。不过已经看到市场上已经有一些第三方创意公司在这个方向上努力推进,一场互联网广告的创意革命指日可待。

算法和数据的行业定制化应用

       以汽车行业的算法和数据应用为例,来说明下通用算法和数据框架需要通过行业定制化优化才可以发挥最佳效力。在汽车实际广告投放中,我们发现一个有趣的现象:用户汽车相关行为的时间维度是对最后销售Leads非常有用的一个特征。我们分析,有些汽车爱好人群,虽然长期关注汽车论坛或者浏览汽车知识,但是他们短期内没有购车需求,所以对于销售Leads并没有太多作用。但是对于短期内有购车需求的人,他们的行为时效性会非常明显。所以我们在通用模型基础上对重点行业的建模因子进行了差异化处理,让一些行业中特定的显性特征在用户需求识别中发挥独特效力,成为满足广告主不同营销目标的有效武器。

       总结下,DSP中算法和数据核心应用就三个方面,一个对用户各种兴趣不同阶段的识别,一个对用户在不同媒介场景下价值的判定,一个是对用户展示有效信息的选择。围绕这些问题,用户兴趣和效果价值算法体系构成了YOYI的核心算法体系,在实践中不断改善,帮助广告主完成营销目标。

(文:悠易互通CTO 任登君)