Tag: 数据挖掘

移动广告数据挖掘

从有米遇到的实际情况,来谈自己对移动广告数据挖掘的一点认识。

为什么需要数据挖掘?

我知道我广告费的一半浪费掉了,但是我不知道哪一半。

这是某位大师说的话,事实上的确如此,可能还不止一半。

对于我们来说,数据挖掘就是用来指导或者实现广告的精准投放,提升广告的转化率,从而提升开发者收益,形成平台的良性循环。


什么时候需要数据挖掘?

在我看来,数据挖掘应该是一种锦上添花,而非雪中送炭。广告的转化率对于我们来说是至关重要的,所以我们会重点关注这方面数据。对于积分墙(介绍:http://www.youmi.net/page/product/#wall),大家也许会觉得,用户是奔着积分去下应用的,转化率会很高,不过中间还是有很多因数使得用户没有完成步骤,我们数据挖掘的核心任务就是要把影响转化率的主要因数找出来,以驱动产品改进决策。对于我们来说,可能看见钉子就想锤,看见数据就想挖,但是这样未必总是好的。对于一个企业来说,特别是各种资源都相对紧张的初创企业,做一件事情的成本和收益永远是其要考虑的,毫无疑问,数据挖掘是需要付出成本的,包括时间成本和人力成本等。作为企业决策者就需要衡量投入的成本和获得的收益是否符合增长的预期?如果把这部分的成本放到其他方面会不会获得更好的收益?

上周末听郭同学讲了这么个情况:

1
数据挖掘服务对于小电商肯定是需要的,但是对于小电商,他们的样本数太少,而且对于他们企业来说,主要矛盾并不是怎么挖掘提升转化率,而是怎么开拓新用户。

具体从有米的实际情况来说,也是这样的。我们是国内第一家移动广告平台,到现在已经三年多,但是真正的数据挖掘也是最近才开始的。并不是我们不重视数据挖掘,只是有很多现实的情况:

  • 媒介流量是否足够大
  • 广告量是否足够多(如果广告量不够,那么就算挖掘的模型再完美,那很可能就是无米之炊,很难用来指导广告投放)
  • 公司资源是否允许(在创业的前三年,市场在迅速的扩大,公司也在快速的扩张,内部的各种资源都紧张,自然要放在解决主要矛盾上)

基于这些情况,我们的重心也自然不在数据挖掘上,当然也不是完全没有数据挖掘,简单的还是有的。

所以,对企业来说,特别是初创企业,数据挖掘很多时候是重要不紧急的任务。


是否需要高深的算法?

对这个问题,常常让我想起大学时参加的数学建模竞赛:全国赛的时候,大家可能都喜欢使用那些看起来很高深的算法,例如神经网络,遗传算法之类;不过到了美国赛道时候,我们使用的模型并不复杂。一个模型的好与不好,我觉得并不是用算法的复杂度来衡量的,在满足现实条件时,能解决实际问题的模型,就是好的模型。我们关注的是解决问题本身,而不是算法。

好的模型通常是简单,而且应该易于理解的。

对我们来说,高深的挖掘技术,暂时也还没有用上,不过可以列举一些简单有效的案例给大家。


怎么进行数据挖掘?

这里最重要的一步就是要把每一个步骤到下一个步骤的转化率计算出来,这些计算都很简单,下面给出两个实例(数据是经过简化的)。

积分墙不同接入点下的转化率分析

https://docs.google.com/spreadsheet/ccc?key=0AtdtDh06pqwEdGZUZWQzVFd1OG43UHpXVzA2SnE3dWc&usp=sharing

从数据或者图像至少可以看出几个问题:

  • 从启动安装到安装完成这一步的转化率明显比其他步骤低很多
  • 展示到点击的这个转化率也普遍不高
  • 从请求到展示这个步骤中,在cmwap的环境下特别低
  • 从启动下载到下载完成,在cmnet和cmwap环境下也明显偏低
  • 在wifi环境下,可以看到有两个转化率是明显比总的转化率高的,但是其他的却没有。

看出了问题,我们再跟问题去寻找问题发生的原因。。。

积分墙下安装包大小对在不同网络环境下的影响

数据如下:

https://docs.google.com/spreadsheet/ccc?key=0AtdtDh06pqwEdDlacnZ6YVdBT1pLRy1UR1NfMDV6YkE&usp=sharing

从这份数据我们也可以得出一些产品或者投放上的优化建议,不过这次重点不关注这个。从图像上看,包的大小和转化率基本呈线性关系。有了这个线性模型,我们就可以去计算,怎么分配不同的广告包,以达到我们收益的最大化。


扩展阅读

这两个都是视频,值得看。