打击异常流量,看国双大数据和人工智能技术如何赋能智能营销

近日,国双在中国广告协会的指导下,重磅发布了《国内互联网异常流量白皮书2020》。根据国双Ad Dissector(互联网广告监测分析优化平台)全年监测的互联网广告数据显示,2020年互联网广告异常曝光占比29.4%,较2019年降低了2.8%。异常点击占比降低明显,从33.8%降低至25.7%。整体来看,2020年异常流量虽然有所下降,但形势依然不容乐观。

数据技术及互联网产业的不断发展,推动了数字广告的高速增长,与此同时虚假流量、网络水军及背后的网络黑灰产业链也愈发猖獗,严重损害了用户、平台、品牌等各方利益。作为中国领先的企业级大数据和人工智能解决方案提供商,国双始终走在国内广告反欺诈的前列,那么国双是如何利用应用大数据、知识图谱和人工智能等方面的技术来对抗异常流量的?面对广告欺诈,媒体、广告主、代理商、第三方公司又扮演了怎样的角色呢?

对此,国双营销云技术总经理吴充和国双营销产品高级技术经理李济景结合国双近期发布的《国内互联网异常流量白皮书2020》对行业现状进行了深入分析。

1、作为国内广告反欺诈的积极推动者,国双已连续四年制作并发布《国内互联网异常流量白皮书》,国双发布《国内互联网异常流量白皮书》的初衷是什么?为行业带来了哪些价值?

第一,作为一家致力于利用大数据和人工智能赋能智能营销的技术公司,国双持续地帮助广告主监测媒体对广告的流量产生,帮助其科学地衡量广告投放效果,助力客户运用人工智能以增强广告效果,用于寻找并确定受众、完善有创意的信息传递,形成受众特征,优化客户既定目标。但因流量所承载的经济价值,也滋生了流量造假的黑灰产业链,国双持续发布《国内互联网异常流量白皮书》,将行业里存在的异常流量公布出来,是提升数字广告透明度,推动行业健康发展应尽的义务。

第二,发布四年以来,国双的《国内互联网异常流量白皮书》内容也在不断完善和丰富,这得益于国双结合大数据、人工智能的基因,不断升级异常流量甄别技术。从最初关注硬广产生的异常流量,到今年增加对内容营销及KOL等存在的无效流量分析,国双为广告主了解互联网流量行业现状提供了数据依据,每年也都得到了客户和行业伙伴的大力关注。

第三,《国内互联网异常流量白皮书》的发布会对流量造假组织起到警示和震慑作用。

2、从国双近日发布的《国内互联网异常流量白皮书》来看,2020全年异常流量整体呈现明显下降趋势,异常流量下降的主要原因有哪些?又出现了哪些新的趋势?

异常流量下降首先在于行业对异常流量的关注度有所提升,中国广告协会、MMA中国等行业组织都在大力推动行业标准的制定,国双也积极参与异常流量相关标准的制定工作,贡献了很多黑名单,各方的共同努力有效遏制了异常流量上升的趋势。

其次也和疫情有一定的关系。2020上半年异常流量整体呈下降趋势,但是下半年又呈现上升的趋势。异常流量的存在,一方面是有造假的利益驱使,另一方面是在过去相当长一段时间,移动互联网处于红利状态,流量的买卖市场出现供不应求的状态,广告主需要越来越多的流量,但是媒体能提供的流量总池子已经达到瓶颈,这就会有一定的异常流量来堵上缺口。而2020上半年受疫情影响,很多广告主都缩减了预算,对流量需求降低,所以异常流量也就降低了。

从GIVT(一般无效流量)和SIVT(复杂无效流量)各自的变化来看,GIVT是下降的趋势,SIVT则处于上升的趋势。这说明造假成本较低的这部分异常流量在下降,因为整个行业的监管会越来越严,标准也越来越统一,媒体都会认可GIVT的识别。但是相应的SIVT的变化是上升的,因为这部分流量造假的投入成本更高,其识别难度以及整个行业的统一认知差异会更大。

3、GIVT(一般无效流量)和SIVT(复杂无效流量)两类异常流量在识别方式上有什么差异?

GIVT(一般无效流量)的识别比较简单,通过中国广告协会发布的“黑名单”对比,或者基于一定的特征规则,比如出现高频的点击、曝光,就能够发现里面的异常流量。

SIVT(复杂无效流量)的识别比较复杂,它的复杂在于常规的手段已经解决不了问题,也没有行业黑名单作为依据,甚至可能还需要人工的参与。为此,国双采取了一种灰名单的方式,通过人工智能技术将存疑的流量识别出来,再借助人工进一步来做更准确的判断。除了识别手段更复杂之外,行业在SIVT的认定上也会存在一些争议,这也是为什么市面上绝大多数媒体并不认同把SIVT直接剔除来作为结算依据。

4、目前有哪些技术手段可以有效甄别异常流量?

构建数据模型。可以举一个具体的例子,比如“手机墙“刷量现象。一般商家推出活动,目的是让消费者参与活动,产生一些回馈。如果我们作为一个消费者正常参与,不会影响活动效果。但是会有人通过”手机墙“的方式刷量,这也是真实设备产生的流量。对于这种异常流量的过滤和识别,就需要构建数据模型发现这部分数据的规律,比如都是来自于同一个IP,或者操作时间相对集中等,通过这样的复杂特征去识别。当然数据模型也需要持续优化,只有不断地喂数据进去,才能更好地发现规律,再生成模型,提高识别效率和精准性。

5、在对异常流量的甄别上,最大的难点是什么?国双的应对方案是什么?

难点主要体现在两方面,一是整个行业在复杂异常流量识别上无法形成闭环,作为第三方可以识别出来一些复杂异常流量,但是如何评估并确诊这是不是真正的复杂异常流量,需要客户、媒体一并来处理。因为媒体对复杂异常流量有所避讳,这个闭环还无法建立起来。

其次,无论是异常流量识别,还是做更全面的分析,都需要足够多的数据量。虽然国双基于长年的积累,积累了大量的数据量,也占有了一定的市场规模,可以输出一些规则。但其实数据的深度和维度还不足够,需要整个行业一起来推动。在GIVT方面,大家已经建立起了一套行之有效的工作机制,而SIVT方面还有待进一步推进。

做复杂异常流量识别不光要依赖算法,还要依赖人工分析,知识和经验也很重要。国双下一步也会继续把执行内容沉淀到相应的知识体系中,通过知识图谱技术,构建异常流量知识库,更好地辅助我们做复杂异常流量的识别。

6、随着内容营销对社会和公众的影响不断增大,其背后的KOL无效流量、虚假舆情等问题也日益严重,对于这类作弊行为,国双具体是如何应用大数据、知识图谱和人工智能几个方面的技术来识别的呢?

国双在过去相当长时间积累了很多的数据能力,另一方面,国双本身也在帮助客户做用户运营和效果评估,积累了大量第一手真实数据,所以能够科学和准确地找到评估开发/舆情方面的数据指标、计算方式。

此次国双发布《《国内互联网异常流量白皮书》也是结合了行业内的多维度数据,后续国双还会继续借助自身的人工智能和大数据技术优势和服务客户的能力,不断地推出相关的内容。

此外,从造假的原因来看,硬广主要有两方面,一是从造假团伙的利益角度,二是流量本身供不应求。而软广造假可能更复杂一点,这里面有利益的因素,也有一些是因为生态不健康导致的。作为第三方,国双能够通过大数据和人工智能技术构建数据模型帮助广告主发现这些问题,但是真正要根治,其实还需要包括平台在内的行业各方共同推动。

7、打击异常流量,守护数据真实安全,是推动行业健康发展的基础,在保障数据真实安全方面,国双都采取了哪些行动?

国双一直在配合中国广告协会、信通院、MMA等行业组织,共同推进异常流量的识别,同时也积极参与行业标准和规则的制定,比如OTT广告评估标准、互联网广告标识(CAID)、行业“黑名单”等。

8、媒体、广告主、代理商、第三方作为互联网广告产业链上的重要环节,在广告欺诈与反欺诈中的关联是怎样的?作为第三方公司,又该如何保持客观公正性?

行业各方其实对广告反欺诈都有很大的影响,国双作为第三方公司主要是提供异常流量识别的技术手段,帮助行业发现异常流量。但其实媒体方也会有相应的识别手段,甚至会有更有效的手段来进行异常流量的识别。广告主起决定性作用,如果广告主更旗帜鲜明地站在反对异常流量的位置上,同时给予足够的力量支持这方面的工作,会带动整个行业形成完整的反欺诈链条。

作为第三方公司,必须要保证自身的客观公正性,因为第三方是这个链条上唯一有能力、有立场做客观公正判断的角色。首先,作为第三方公司,技术手段要过硬,拥有识别复杂异常流量的能力;其次也要积极参与到行业各种标准和相关事务中;最后要保证产品、公司背景的独立性,不受外界的影响干扰。