数据柔术(3)

靠投机取巧获得胜利

我一直强调,建立最简单而又刚好可行的产品,尽管这捷径有点极端。等你有了可行的产品,并发现用户需要,然后才去改进它。Amazon有个好例子。在最开始的时候,Amazon的页面包含产品细节、评价、价钱,以及一个购买的按钮。但万一顾客不确定要买,而想先比较一下呢?在真实世界中这很基本,但在初期的Amazon,唯一的办法是回到搜索引擎。这是一个黑洞:顾客一回到google,很大机会就不会回来。他可能在竞争对手处找到他要的商品,即使Amazon可能也有并且卖得更便宜。

Amazon需要一个页面,帮助顾客导向相似货物。这样,顾客即使一开始没有购买,也依然留在Amazon。他们可以建立一个复杂的推荐系统,不过他们选择了一个远为简单的系统。他们利用“协同过滤”的办法,在页面内加入了“浏览此商品的顾客同时也浏览了以下商品”。这个功能有着深远的作用:顾客可以研究买那样货物,同时不离开Amazon。如果你刚开始浏览的不是你想要的,Amazon会带你去另一个页面。这个方法十分成功,Amazon还建立了不少类似的,例如“购买此货物的顾客还购买了以下商品”(所以顾客可以顺便买附件),等等。

协同过滤是一个很好的例子,教你如何先建立一个简单的产品,然后在成功以后不断改进。当你要将协同过滤系统做大,你需要统计所有的购买记录,并将它们储存,建立一个处理层,建立一个更新的功能,诸如此类。相关性是个麻烦的事情。当数据量很少的时候,协同过滤可能给出奇怪的推荐。几下鼠标乱点,可能导致了看服装的人被导向电工用具的页面。不过还是有办法简单处理的。比如分批地进行处理以减少时间上的压力。计算“浏览此商品的顾客还浏览了以下商品”时,可以放弃实时计算,而改为每天,甚至每周、每月才更新一次。偶尔有些奇怪的推荐,你可以容忍以下,或者借Mechanical Turk人工过滤,又或者让用户帮你挑出来。

投机取巧在一般化的分析中也可以发挥功用。华尔街日报报道了一个新闻。Zynga在一个叫做FishVille的游戏中急速成功。游戏中你可以赚取金币买鱼,但金币也可以直接购买。Zynga的人发现,有一类鱼的购买量是普通鱼的6倍。于是,Zynga抓住机会,设计了几种类似的鱼,每种卖3-4美元。数据表明了那类鱼踩中了某个重点。这个重点是,人们对发光的鱼特别感兴趣。一个简单的发现,加上一个小型的测试,他们成功地增加了很多利润。

将产品植根于真实世界

Amazon的协同过滤系统,还有值得我们学习的地方。想象一下,你去一个商店买电话。你也许关注价钱,也许关注评论,但绝不会只看一款。你会看好几款,很有可能它们在你看中的第一款的附近。“浏览此商品的顾客同时浏览了以下商品”的功能,Amazon在网页中创造了类似真实世界的体验。本质来讲,它们将虚拟世界的体验植根在真实世界中。(博主按:想想微信红包)

LinkedIn的“你可能认识的人”融合了“数据柔道”和“植根真实世界”。想象你在会场的接待处。你走来走去,直到看到一个你认得的人。你逮住那个人,直到看到多几个你认识的。这时,你的交流方式发生了改变:当你周围的脸孔都是熟悉的,你就有勇气认识那些你不认识的人。(下次开会时不妨试试)

当你刚加入一个新的社交网络时,类似的体验也会发生。LinkedIn最早的数据科学家发现了这个问题,意识到他们有两大挑战:第一,在网络,你不能像现实中那样走来走去。那种感觉,好像在一个漆黑的房间里头寻找朋友。第二,LinkedIn的用户随时都会离开。真实的会议中,你可能喝点东西,顺便买个机会,看看还有没有认识的人。网络世界中你只会给自己几秒钟的时间。看不到什么有趣的事物,你鼠标一点,可能就离开了。

早期试图解决这两个问题的方案,例如导入地址本、搜寻功能,有太大阻力。他们让不太感兴趣的用户,在发现网站的价值以前,做太多事情。不过LinkedIn的团队发现,一个简单的探索可以带来好些“你可能认识的人”的推荐。我们当时没有资源去建立完整的推荐,但作为开始,我们可以问几个问题:你做什么的,你住哪里,你在哪上学,以及类似的一些,你初次认识朋友时会问的问题。我们还利用了三角形法则(triangle closing,不知怎么译,意思是,如果A认识B,B认识C,那么A认识C的可能性相对较大)。为测试效果,我们建了一个广告界面,给用户显示三个可能认识的人。点其中一个,会带你进入“加为好友”的页面。(当然,如果你再次看到这个广告页面,可能还是给你推荐那三个人。当时的宗旨是,用最小的干扰快速测试)。结果超乎我们的期待:用户很需要这个功能。FB和其他社交网络很快抄去了这个办法。当我们确认了这个办法的好处以后,我们才去进行技术上的研究,将结果规模化。

在“你可能认识的人”以后,LinkedIn的团队发现,类似的办法可以建立“你可能喜欢的小组”的功能。我们将它作为一个练习,让我们熟悉相关的数据库技术。我们用了一个星期建立第一版本,放在主页上,用广告的形式。与此同时,我们明白了许多推荐系统的力量和缺陷。一方面,数字表明人们很喜欢这个功能,但更多的过滤功能需要加入:用户不喜欢被推荐政治或宗教小组。马后炮地说,这是显然的, 但事前很难发现。这个小规模的测试让我们有很多自由度,去建立过滤规则。我们本来就是要测试数据库的,所以可以说开发这个新功能成本几乎是0. 这是另一个很好的例证:当你做了一件成功的事情,趁热打铁,获取更大的战果。

 

 

 

 

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

%d 位部落客按了讚: