删除——大数据取舍之道

高翔

柠檬数据联合创始人,2008年毕业于英国华威大学(University of Warwick)。早年在高朋(Groupon)消磨了一段青葱岁月,之后在数字营销领域艰苦创业。经过多年的摸索,柠檬数据DMP(Data Management Platform)产品已经成为第三方大数据深度加工服务商,致力于将数据商品化,为多家顶尖的数据营销企业提供了受众标签优化、广告人群定向、人群画像以及行为洞察报告等服务。

个人微信号:frankie-gao。

【精彩观点】

记忆与遗忘的斗争,构成了数据的核心矛盾。对于人类而言,遗忘一直是常态,而记忆才是例外。然而,由于数据技术与全球网络的发展,这种平衡已经被打破。如今,往事正像刺青一样刻在我们的数字皮肤上,遗忘已经变成了例外,而记忆却成为常态。在整个互联网中,个人用户和企业都在主动地或者被动地贡献着内容,大量过去的数据内容由于无法得到更新,对人类的生活造成了很多的不便,大家也逐步认识到对数据的保护或者删除是多么的必不可少。

数据的取舍不是简单的为了隐私安全和节省存储空间,将数据在人为设定的时间点删除。大艺术家罗丹说:什么是雕塑?就是在石料上去掉那些不要的东西。当大数据这堆石料越来越多后,像雕刻一样以艺术的手法去其糟粕,让雕像留下来。雕像就是意义所在。这种“取舍”就是产品思维中重要的组成部分。

【实践案例】

互联网产品是数据的产生者也是使用者,产品经理们更是大数据在商业应用中的执行者。无论在产品创新、预测推荐、营销推广、风险控制、管理运营,还是程序化交易,大数据在不同的产品经理手中都可以像“罗丹”的雕塑一样变得栩栩如生。

1.为什么取舍

特别是在数字营销中,大数据得到最为明显的价值体现。为了实现互联网的免费模式,基于大数据的广告应用和收入是大多数互联网产品的一大商业模式,有了强有力的市场驱动,数字广告技术公司不断深挖数据的价值,通过将广告交易产品化,传统的广告位售卖模式正在逐步被基于受众定向技术的实时竞价模式所替代。下图的中国程序化广告技术生态图中展示了部分的参与者。

来源:http://www.rtbchina.com/china-display-ad-tech-ecosystem

在Data Suppliers&Data Management类别里的黄色小柠檬就是我们,我们的产品就是数据,这和媒体比较相似,都是内容即产品。我们的产品不是一篇有价值的文章,而是一个小小的标签。这个标签包含了一群有此特点的人,广告公司使用这个标签,就能准确将广告内容到达这批受众。

图中所示的各个标签就是我们的产品,比如购买倾向中的“女装”标签,这看似一个简单的词,却需要经过7道工序:数据收集、数据清晰、数据预处理、标签模型、标签结果、结果验证、标签输出。其中数据模型的建立就需要决定如何对数据进行“取舍”。简单描述标签制作的逻辑如下:

通过cookie记录用户在多个网站的访问行为,利用实时的在线处理技术再配合离线的协同过滤等算法,对此cookie的行为记录加上一定的条件进行加权处理得出分值,如果符合要求,就把此cookie归类到“购买倾向-服饰-女装”,反之亦然。

广告主利用这种人群定向数据进行广告投放的效果非常好,可是在一段时间过后,虽然cookie仍然有效,但是广告效果却迅速降低。其主要原因就是历史数据的有效性在不断降低,用户要么已经完成了购买,要么购买意向已经转变了。而之前获取的用户访问行为数据已经无法对推荐做出贡献。如何让数据发挥最大价值、合理地优化标签模型,就要利用取舍的思想:人是会遗忘的,人会忘记对某类单品或者品牌的好感。虽然获得了用户的访问记录,但价值随着人的遗忘在不断降低。

柠檬数据DMP系统图

2.怎么取舍

产品经理要根据实际的产品来采取对历史数据的“遗忘”,术语一般叫作“衰减算法”。在衰减算法中,遗忘曲线(Forgetting curve或者叫Ebbinghaus curve)最为基础,也很常见。《心理学导论》里是这样描述的:“遗忘曲线由德国心理学家艾宾浩斯(H.Ebbinghaus)研究发现,描述了人类大脑对新事物遗忘的规律。人们可以从遗忘曲线中掌握遗忘规律并加以利用,从而提升自我记忆能力。该曲线对人类记忆认知研究产生了重大影响。”

艾宾浩斯通过试验发现,人在刚刚记忆一组信息时有100%的准确记忆,而20分钟后就只能准确回忆起其中的58%,遗忘的部分不是被完全忘记,就是被错误地记忆了。过1小时后只能记忆起44%,9小时后36%,1天后33%,2天后28%,6天后25%,31天后21%。可以看出人们的遗忘是有规律的,遗忘的过程不是均衡的。在最初阶段遗忘的速度很快,后来逐渐平稳直到不再遗忘。这正是人与数据技术最大的不同,数据技术有着100%的记忆能力,只要不做任何删除,数据(记忆)就能长时间保存。但数据技术的发展是为人类提供服务而不是为了改变人类。除非数据技术具备人类的遗忘和抽象能力,否则提供的服务永远只能停留在存储能力上。

在有了“数据需要遗忘”这个共识之后,我们利用艾宾浩斯的学术研究成果为理论假设,通过对兴趣标签的计分进行一定的加权处理,再结合商品的生命周期等因素做了一系列的回归实验,得出受众人群对各类兴趣和购买倾向的衰退曲线,利用有规律的时间变化有效地删除老数据,进而实现用户原有兴趣和新兴趣的交替。结果我们的模型效率成长迅速,无论是展示广告的点击率,还是商品的购买率,都有了大幅度的提升。

放弃使用一些看似重要的数据并不会造成损失,反而删除才能带来收获。除了数据产品外,这一点和广义上的产品设计也是互通的,将一大堆流行的功能或内容堆砌出来,只会造成用户的困扰,并不会带来产品的提升。通过系统的数据挖掘,将功能或者内容进行有效的排序,叠加和收敛一定会很大程度地提高用户的体验。比如,微信中对于功能点的陈列,为什么使用率最高的朋友圈被放在第二屏。又如知乎,将回复按照算法排列,让用户优先看到认可度高的内容。58同城网更是通过自建模型来净化自身的生态环境,降低诈骗信息的展示机会。优秀的产品无一不进行了艰难的取舍。

【总结分析】

有舍有得,不舍不得,大舍大得,小舍小得。舍得是一种人生智慧和态度,是拥有超越境界来对已得和可得的东西进行决断的情怀和智慧。如果数据技术或数据的使用者不把数据的“删除”作为提升数据价值的重要途径而一味地采集数据,这将是大数据行业的悲哀,更是人类的灾难。文中举的自身的经历,就是想告诉各位,有时候尝试舍去一些看似重要的数据,反而能得出意想不到的收获。因为只有了解人性,才能为人更好地服务。

对于产品经理来说,数据的取舍是一份沉重的思考。在这个数据时代,无论为恶者,还是为善者,都希望获取更多的信息,产品经理们肯定不希望用户删除、屏蔽自己所有的行为,因为产品缺少了数据获取渠道,用户体验会降低,产品的迭代速度会变慢,市场调查会倒退,免费产品数量更会爆减,没有精准广告作为收入支撑,小开发者的动力也会削弱。

其实,大家不必惧怕隐私的泄露,正因为数据技术的发展,善与恶也更加清晰。越来越多有情怀的产品经理一定会把大数据取舍的艺术发扬光大,从而更好地理解用户和模仿用户的思维。在保护好用户隐私的同时,为用户提供更好的服务。