数据柔道(4)

将数据返给用户,以创造更多价值

将数据返给用户,既可以留住用户,又可以创造利润。数据的游戏玩了不是一天两天,许多用户都知道自己不是顾客,而是产品的一部分。他们的角色是制造数据,用来帮助广告的精准投放,或者卖给其他人,有时两者皆有。他们也许不介意,但也说不上喜欢。将数据返给用户,让他们觉得你跟他是站在同一边的,增加他们对数据产品的参与度。

怎么将数据给回用户呢?LinkedIn有一个功能,叫做“谁看了你的页面”。这个功能在保障用户的隐私的前提下,列出看过你页面的人,并对看你页面的人进行统计。包括什么时间谁看了你的页面,别人搜索什么找到你,还有浏览你页面的人的地区分布。这些数据是即时的,可操作的,还且还会上瘾。每人的主页上这数据都可见,并且显示浏览的总数,而且随时在变。每次你登上LinkedIn的主页,你都会忍不住去点开来看。

人们确实会点开。参与度很高,所以LinkedIn出了两个版本:一个免费的 ,一个付费的(付费还可以用别的功能)。这个版本的区分,让轻度用户和重度用户各得其所。前者只是看着好玩,后者可以查阅到许多深度的功能。

LinkedIn不是唯一一个产品,将数据返给用户。Xobni分析你的email,让你有更好的办法管理来信。Mint(被Intuit收购了)分析你的信用卡,帮你了解自己的消费,并跟附近的人们作比较。Pacific Gas和Electric 有一个SmartMeter,帮你分析能源使用。我们还甚至看到健康的应用从手机或其他仪器收集数据,帮你做一个个人的统计页面。

简单总结一下。读这篇文章的人都花过不少专业时间在数据上。但不只是我们。所有人,包括所有用户,都开始意识到数据的价值。不要藏着掖着,返给用户们。这样用户会更多地参与,并给你和你公司创造更多的价值。

防止数据多到呕

作为数据科学家,我们喜欢玩原始数据。我们知道怎么导入、转化,并跟其他数据结合,以及视觉化。大多数你的客户不懂这些。开发数据产品的一项挑战,是怎么将数据给回用户。给他们太多,泛滥到他们不知如何反应,就是“数据多到呕”。开发产品时,你很自然会根据自己的需要来做,但同时也很容易高估用户的能力。你想要的产品未必是用户想要的。

当我们做“谁看过你的页面”时,我们做过一个早期版本,里面有各种有趣的数据,并允许用户进行各种探索。我们获得了多少点击呢?零!为什么?因为一个“负面互动定律”对大多用户适用:你给他们越多数据,他们用得越少。

防止“数据多到呕”的最佳方法,是聚焦数据的“可操作性”。意思是,你想用户咋样捏?如果你只是想让他们对你玩弄数据的能力崇拜得五体投地,你很容易就造成了“数据多到呕”。如果你能引导他们用数据来做一些你设想好的事情,你的产品就是有力的。

为无法预测的副作用作好准备

显然,无法预测的副作用是无法避免的,不然也不叫做无法预测。然而,这副作用可不是好玩的。一个最好的例子是“我的Tivo认为我是gay”。许多网络媒体都有推荐系统,列出你可能感兴趣的节目。这是从Amazon学来的。但有时一个用户看了某个节目(例如威尔和格蕾丝),于是从此就被推荐类似的节目(艾伦show, 或者同志亦凡人)。出于类似的原因,我一个英裔的朋友住在一个很多东南亚人的小区。Netflix常常给他推荐宝莱坞的电影。

这听着蛮有趣,甚至用作栋笃笑的笑料。但对用户来讲是个实实在在的痛点。一旦推荐引擎认定了某用户喜欢某类电影,要让他知错改正是困难而烦人的。这时,这个用户很有可能会跑掉。发生什么错误了?在宝莱坞的例子里,算法可能对附近的人的观看兴趣给了太高的权重。TiVo的例子里,要告诉系统哪里错了是很难的。只有想办法去骗系统。试过这么做的人都知道,系统一旦错了,要骗它改道是很难的。

减低“杀错率”和“放过率”

用什么工具处理不好的结果呢?例如错误的推荐,或者错误的过滤。两个概念,杀错和放过。

Precision,是“无杀错率”。比如你要建立一个推荐引擎,是不是每次都有好的推荐呢?又比如你显示广告,是否每次都获得点击呢?这就是“无杀错率”。

Recall,是“无放过率”。还是用上面的例子。合适的推荐都被你抓到手了,或者合适的广告都被你存起来推荐给用户了,就是“无放过率”高的表现。

你当然希望无杀错又无放过。比如推荐广告,最好当然是所有合适的广告你都抓到了,并且每个推荐的广告都获得了高点击率。然而,无杀错和无放过往往是难以兼顾的。你想减低杀错,“放过”自然就提高,反之亦然。例如,你希望给出的广告都有95%以上的点击率。那么你能给出的广告就很少,即,你放过了不少好广告。反之,你希望不放过任何好广告,所以只要有1%点击率的你都放出,这样杀错率就会很高。

所以产品设计的一个重要问题,是这两个率的平衡。在搜索引擎,“无杀错”是关键。抓到很多好推荐在手不是那么重要(所以放过一些好的并无所谓),最好的推荐会爬到页面的前面。杀错率高的搜索结果体验不好。

但反过来,高杀错率的广告无伤大雅(当然,你可能说反正容易杀错,用户本身就不感兴趣,所以才无伤大雅,但这是另一码事)。很难知道怎么的广告才会获得点击,而有广告总比没有的好。我们时常看到许多我们一点都不感冒的广告。

两个例子的区别,在于数据呈现的方式。搜索结果是直接呈现的。例如你google“数据科学”,在0.47秒内会有11亿个结果。第一页的结果全都有“数据科学”几个字。你得到与你搜索直接相关的结果。这联系一目了然。但广告背后的逻辑却是模糊的。你看到一个广告,却不知道为什么该广告会呈现给你。没人会告诉你“我们之所以给你看这个广告是因为你住在Virginia而且你又搜索过数据科学,我们这里有你需要的数据仓库”。既然这个联系是模糊的,你也很难指责它,而且你也可能不会留意到它。

即使不是广告,如果数据产品的呈现是模糊的(意思是,用户并不容易知道自己为什么会看到这个产品),你应该重视低放过率,而放任杀错率。但如果数据的呈现是直接的,低杀错率就很重要了。

(笔者按:关于“直接呈现”,如果你跟一个人说,根据我们的数据分析,以下金融产品适合你。。。这样很正常。换个说法:根据我们的数据分析,你属于低收入人士,以下金融产品适合你。。。这样有点冒犯。再换个说法:根据我们的数据分析,以下金融产品适合黑人。。。这样人家好像可以告你种族歧视。其实黑人也好,女人也好,都是人的一个feature。根据这样的feature作出预判,给出相应的反应,就是“歧视”了。所以歧视没什么不对–如果歧视不对,数据分析恐怕好多都不用做了。歧视是“政治不正确”,就是说,没有不对,但大家不喜欢所以你忍着点。在数据分析的时候,系统一不小心就将一个人的种族、性别、性取向等给予了很大的权重,从而让结果看起来好像在歧视某一类人。作为一个负责任的数据科学家,我们要做的就是让客户不发现这个秘密。本文作者充分意识到这点,在本段以及之前“为无法预测的副作用作好准备”都透露这他的这点认识,但他不能明说,否则自己就成了政治不正确。)

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

%d 位部落客按了讚: