在线广告产品逻辑5—数据加工与交易(数据来源、加工、运用、隐私保护)
发布时间:2024-10
浏览量:113
本文字数:6514
读完约 22 分钟
要提高定向的精准程度与人群覆盖率,技术并不是最重要的因素。那么什么才是决定性的呢?是数据的来源与质量。这是正确认识精准广告业务非常重要的观点。
时至今日,数据行业已经逐渐发展成了一个相对独立且有巨大发展空间的产业。
一、有价值的数据来源
(1)用户标识。对广告而言,如何确定哪些行为来自于同一个用户是非常关键的问题。用户标识对于行为定向的重要性往往容易被忽视。实际上,稳定精确的用户身份,就像是一串0前面的那个1一样,对准确界定受众和利用数据至关重要。无论能拿到多少行为数据,如果没有办法把它们与投放系统联系起来,这些数据就没有办法发挥作用。
由于高质量的用户标识本身就是一种非常有价值的数据,因此也是可以在市场交换和售卖的。
(2)用户行为。业界通常认为,主要有转化(conversion)、预转化(pre-conversion)、搜索广告点击(sponsored search click)、展示广告点击(ad click)、搜索点击(search click)、搜索(search)、分享(share)、页面浏览(page view)、广告浏览(ad view)等在线行为是可以被广泛采集并且对受众定向或广告决策有明确作用的。按照对效果广告的有效性分类,这些行为又可以分为决策行为、 主动行为、半主动行为和被动行为。
决策行为主要包括转化和预转化。这类行为的价值是最高的,但是也是供给方或广告平台最难得到的。根据广告主的数据来进行重定向或者个性化重定向是对此类行为最直接的利用。
主动行为主要包括广告点击、搜索和搜索点击。这一组行为都是用户在网络上在明确意图支配下主动产生的行为,因而也有比较丰富的信息量。搜索行为是能够大量获得的最主要的主动行为,要特别注意挖掘 利用。
半主动行为主要包括分享和网页浏览。主动行为和半主动行为都是用户在目的比较弱的内容消费过程中产生的,因此,其所涉及的兴趣领域对把握用户信息有价值,但是细节的内容精准程度有限。半主动行为的指导意义虽然有限,但是其数据量却是各种行为中最大的。
被动行为主要是指广告浏览。广告浏览严格来说不能算作定向的行为依据,但是由于其频次与相应类别的广告点击负相关,因而在行为定向的建模中也可以使用。
(3)人口属性。人口属性是常用的一种定向标签,因此其数据来源很重要。一般来说,只有一些能够与用户实名身份绑定的服务才可以得到此信息。
(4)地理位置。地理位置信息随着能获得的精度不同,其用途也会有相当大的差异。如果只能根据IP进行映射,我们往往只能拿到精确到城市级别的地理位置,当然这对于很多广告投放来说,已经有相当的价值。而在移动互联环境下,GPS或蜂窝可以提供的定位往往可以精确到几百米的范围,这就让我们可以收集用户线下的到店兴趣,并使hyper local的区域广告商(如餐饮)投放定向广告成为可能。
(5)社交关系。社交网络上的关系反映了人与人之间的联系,也隐含了一种联系人之间“兴趣相似”的合理推测。因此,社交关系可以用于用户兴趣的平滑。平滑只适用于那些长期稳定的兴趣,对于短时的购买兴趣则不太适用。从这个意义上来看,强关系类型的SNS比弱关系的SNS有优势。
(6)设备信息。移动设备能够获得的数据比PC要丰富得多,其中一些设备的状态信息,如设备的应用安装列表、机型、年龄、陀螺仪乃至电池电量等,对场景的确定非常有帮助。因此,移动广告对于设备信息的收集和深入加工有特别重要的意义。
广告的根本目的是“低成本地接触潜在用户”。如果仅仅从转化效果上判断行为数据的作用,会发现靠近转化的行为更精准,实际上是因为这部分人群已经更加接近于决策的最终阶段,也就是说越发不是“潜在用户”。因此,在行为定向这个问题上,不能单纯追求ROI或者转化效果,而是要根据广告主的具体的人群接触目标来平衡效果和覆盖率。
二、数据管理平台
第一方和第三方DMP虽然在技术环节上基本一致,但是在产品方向和商业模式上却有较大的差别
1、三方数据划分
广告中用到的用户数据,根据其来源的不同,可以分为第一方数据、第二方数据和第三方数据。
在广告网络中,主要使用第二方数据指导广告投放;而在实时竞价环境下,不仅第一方数据可以被利用起来,大量第三方数据的加工和交易也逐渐发展起来。第一方数据的量虽然一般较小,却是所有数据的灵魂。以第一方数据为基础,用好第二方数据和第三方数据,是实时竞价时代重要的方法论。
2、第一方数据管理平台
这一产品有下面几个核心功能。
(1)它可以为网站(可以是媒体,也可以是广告主网站)提供受众定向功能,并将得到的用户标签应用于网站业务。在这一过程中,除了加工一些通用标签,DMP还需要能够比较灵活地按照网站定义的用户标签来加工受众人群。
(2)广告主网站可以通过DMP与广告采买渠道进行更方便的数据对接。DMP应数据源(DataProvider,DP)的要求,收集第一方数据,并加工成第一方需要的用户标签。DP可以根据这些用户标签进行站内运营,也可以用这些用户标签来指导DSP进行广告投放。
虽然DMP按照DP需求整理和加工数据会向DP收取费用,但是 绝对不应该把数据看作自己的财产进行二次变现,或者把不同DP的数据混合使用。第一方DMP是一种数据托管和加工服务,并非以数据变现为目的,其客户也多为大中型的媒体和广告主。当然,也可以自建DMP为自己的业务服务。
3、第三方数据管理平台
第三方DMP,也称数据交易平台(data exchange)。它的主要产品功能是聚合各种来源的在线的用户行为数据,将这些数据加工成有价值的用户标签,然后在广告市场上通过售卖这些标签来变现。
DMP从多个DP那里收集原始数据,按照自己的逻辑加工成用户标签,并向DSP出售标签数据收入。同时,获得的收入再按照一定的比例分成给DP。与第一方DMP不同,第三方DMP是一种数据变现产品,其DP也以中小型的媒体和数据所有者为主。
4、产品案例
BlueKai
BlueKai是比较典型的第三方DMP产品,也是最早践行数据交易的公司之一。BlueKai作为一个独立DMP,不像其他DMP公司开始整合DSP业务,而是一直不提供媒体的竞价采购服务。BlueKai认为,这样可以保持DMP的中立性,可以使BlueKai的DMP与多家DSP对接合作。
BlueKai的主要业务模式,是聚合大量中小媒体的有价值行为数据,使用受众定向技术为用户打上标签,并对外售卖标签以获取收入。BlueKai通过数据交易获得的收入,其中很大比例还将返还给数据提供方。
AudienceScience
AudienceScience是广告市场上首先明确提出受众定向这一概念的公司,并且长期专注于这方面的数据加工和算法建设。它的核心业务有以下两项。
(1)主要提供面向媒体和广告主的第一方DMP服务。例如,《纽约时报》自己有很多用户,也有很多在线数据,但它的核心业务不是做广告,也不是做数据加工,它更愿意把数据交给AudienceScience。AudienceScience帮它加工一些有意义的用户标签,如财经类用户、体育类用户。《纽约时报》的BI系统可以用这些标签分析哪些用户对哪些内容感兴趣,应该如何优化内容。
(2)AudienceScience还直接运营一个效果广告网络,并帮助广告主进行投放管理和优化,这里它就用到了它分析得到的用户标签。就其数据聚合和收入分成的模式来说,AudienceScience与BlueKai有很多相似之处。两者主要的区别是AudienceScience并不通过售卖标签来获得收入,而是仅供委托他们优化效果的广告商使用,即通过运营一个自有的广告网络来变现,使用标签创造的营收按照一定比例与提供数据的媒体分成。这样做的原因是AudienceScience认为数据加工业务在扣除媒体分成以后利润空间太小,而自营广告网络有可能获得更大的套利空间。
AudienceScience具体的商业流程是:网站(可以是广告主或媒体网站)先把自己的流量托管给AudienceScience,并付给AudienceScience一定的技术服务费,AudienceScience把数据加工成标签,首先提供给网站用以优化它的流量和用户体验。
遗憾的是,2017年5月,AudienceScience公司关闭了,这也反映出在当今互联网广告业中,单纯的数据服务规模化和盈利能力都比较有限,在市场上举步维艰。
TalkingData
TalkingData是中国市场知名的移动数据平台,以向开发者提供应用统计分析工具为切入点,TalkingData积累了每月700PB左右的独立设备数据,在这些数据的基础上,又推出了营销云产品MarketingCloud。从产品上看,这是一个将第三方数据和第一方数据相结合用于营销的DMP产品,从商业模式上看,更接近于第一方DMP产品。MarketingCloud主要的产品功能有以下几个。
(1)用户ID的映射与管理。客户在各种情形下收集到的第一方用户数据,往往以不同的ID出现。例如,CRM数据、线下门店数据、线上浏览数据、微信公众号数据,其对应的用户标识都不一样。为了有效地管理用户,需要把以不同ID出现的同一个用户数据打通,这需要比较强的第三方数据积累,MarketingCloud提供了这方面的产品功能。
(2)向客户开放的第三方标签库。由于TalkingData已经积累了大量的第三方数据,可以让客户在自己的第一方数据以外,更方便地全面了解和使用全网用户数据进行受众定向或新客推荐。比起第一方DMP主要利用第一方数据的方法,这些第三方数据有可能让客户面向新用户的营销能力有质的提升。目前,MarketingCloud中的第三方用户标签包括人口属性、城市、设备属性、应用兴趣、消费偏好等体系,一共800多个细分维度。
(3)地理围栏目标受众。通过GPS、Wi-Fi信号、蓝牙等方式,移动设备可以更准确地了解用户的地理位置,而这些地理位置经常可以准确地恢复用户的场景。MarketingCloud利用TalkingData积累的地理位置数据,向客户开放根据地理围栏构建目标受众的能力。
(4)营销过程监测和管理。第一方数据管理和第三方数据利用的主要目的之一是用于营销过程。对此,MarketingCloud提供了一系列的功能,用于营销前的受众洞察和营销后的数据分析,希望逐渐驱动营销过程的自动化。
与MarketingCloud类似的数据驱动的营销自动化产品近年来成为市场的热点。通过综合利用第一方数据和第三方数据,在获客、再营销、效果评估和优化等环节上,实现基本自动的营销过程,是未来市场发展的重要方向之一。
三、数据交易的基本过程
数据交易一般是通过ADX或SSP作为中转来完成的,DMP的各种用户标签,以批量传输的方式提供给ADX,并作为ADX的一个辅助产品售卖给各DSP。标签一般按照CPM计价,DSP如果选择购买某种标签,则在广告询价的过程中,ADX将本次请求的用户标签传给DSP,最终以DSP实际成交的展示量乘以CPM价格作为其购买数据的附加费用。
以广告交易为载体进行数据交易,与在DMP和DSP之间直接进行数据交易相比,是更加合理的产品方案,它有以下一些好处。
(1)因为数据的量级可能较大,所以数据传输的成本是无法忽略的。如果在DMP和DSP之间进行数据交易,总体的数据传输成本就非常高。而在广告请求上附加用户标签本身不会带来额外的服务开销,因此整体数据交易的传输成本就只有DMP和ADX之间的一次传输。
(2)所有的DSP、数据提供方都只需要与ADX进行cookie映射,这种以ADX为中心的星形拓扑结构,比起DSP直接与数据提供方进行cookie映射的拓扑结构,显然是要方便得多的。ADX触达的用户规模往往比单个DSP或DMP要高很多,这种方案实际上最大限度地避免了由于cookie映射带来的数据损失。
(3)这种方式还有一个很大的好处,那就是实现了数据的部分交易:DSP显然很少有机会利用到某个DMP的所有数据,通过在广告交易过程中传数据的办法,DSP可以自由限制需要的数据范围。例如,某DSP只投放上海地区的客户,那么在ADX中选择上海地区以后,就只会收到上海地区的数据了。
(4)ADX在数据的买方和卖方之间恰好起到了数据使用量监测和计费的作用。
数据的重复售卖会引起数据价格向流量价格的转移。
四、隐私保护和数据安全
无论是受众定向还是数据交易,都需要谨慎地考虑对行为数据的使用是否会泄露用户的隐私;同时也要考虑拥有数据的利益方,特别是广告主,是否在广告市场中被平台或竞争对手获得和利用了自己的关键商业数据。
1、隐私保护问题
隐私保护除了关心那些成批的用户资料泄露,更大的挑战是针对熟人的隐私窥探,即窥探者在了解被窥探者一些背景信息的基础上,用这些背景信息进一步试图获取其更多的隐私信息。
1.1 隐私保护基本原则
目前,工业界有一些共识性的隐私保护原则,这些原则主要包括以下几条。
(1)要严格避免使用个人可辨识信息(Personal IdentifiableInformation,PII)。PII是最重要的隐私信息,它指的是那些被获取后可以方便地定位到具体人的信息,如身份证号、电话号码、电子邮件地址、家庭住址等。
(2)用户有权要求系统停止跟踪和使用自己的行为数据。
(3)不应长期保留和使用用户行为数据。即使用户同意接受行为定向广告,广告平台在数据的使用和存储上也应该有所节制。
(4)工程上还需要特别注意权限的严格分配和最小数据访问的原则。
1.2 .准标识符与K匿名
年龄、工作地点、性别、职位、爱好这组信息虽然单独看来都无法确定一个人,但组合在一起就有可能让熟人确定出对应的人,这样的信息,我们称为“准标识符”(quasi-identifier)。由于有这样的准标识符的存在,即使没有提供PII,也存在比较高的隐私泄露风险
将准标识符做一定程度的泛化。例如,将“年龄:36岁”泛化成“年龄:30~40岁”,将“工作地点:上海市携程大厦”泛化成“工作地点:上海市”。如果泛化的结果使数据集里的每一组准标识符的实例都能找到K条与其相同的,那么就说实现了K匿名。显然,当K的值取得比较合理时,隐私泄露的风险也就降低了不少。
1.3 .稀疏行为数据的挑战
行为数据的特点是极为稀疏,换句话说,任何两个用户的行为数据都几乎不可能是相同的,也很难通过K匿名的方案来解决。那么是否可以通过行为数据来反推用户的隐私呢?答案是肯定的,而且有实际的案例发生。通过稀疏的行为数据,可以比较容易地定位自己熟悉的人,并进而获取其相关隐私信息。
目前,差分隐私的技术在学术界和工业界引起了越来越多的关注。所谓差分隐私,指的是对数据集进行一定程度的修改,在尽可能少损失查询准确率的情况下,使隐私泄露的风险最低。2016年,苹果公司宣布在其iOS 10操作系统中集成了差分隐私技术,不过具体实现了什么样的功能尚不清楚。
2、程序化交易中的数据安全
在数据得到更加充分利用的同时,RTB中供给方和需求方对于数据安全性的顾虑和诉求也必须加以考虑。
2.1 供给方的数据安全
假设有某个恶意的DSP,对于能够参与竞价的所有广告请求,都以很低的价格参与竞价,目的不在于赢得流量,而在于收集媒体上的用户行为,这就产生了媒体数据的安全问题,我们将其称为供给方的数据安全问题
2.2 .需求方的数据安全
在RTB的环境下,由于定制化标签的引入,广告主的第一方数据也暴露在了广告交易的过程中,而这些数据有的是广告主的核心数据,需要认真考虑其安全问题。需求方的数据安全性在某种意义上比供给方的数据安全性更加重要,因为这决定了广告主是否可以放心地通过RTB进行广告采买。
3、欧盟的通用数据保护条例
欧盟议会于2016年4月通过的《通用数据保护条例》(General Data ProtectionRegulations,GDPR),此条例于2018年5月正式生效实施。GDPR适用范围很广,任何收集、传输、保留或处理欧盟成员国个人信息的机构组织均受其约束。
总体而言,GDPR是用户隐私保护领域的一次重要探索。但从实际规定来看,这一条例有些因噎废食和纸上谈兵,如果彻底严格执行,有可能会对欧洲的互联网产业带来致命打击。