设计正点的数据产品(1)

译自Oreilly.com, Designing great data products. 纯粹娱乐,概不负责。

在过去几年,我们见识了许多用来预测的数据产品。例如天气预报、推荐引擎,甚至用来预测航班的飞行次数(可能比航空公司还准)。但这些产品纯粹是预测,没有告诉人应该拿这些预测数据来做什么。预测的技术可能本身有趣,数学上优雅,但我们需要跟进一步。预测技术是用来建立数据产品,让整个业界起革命。既然如此,我们为何不试着做一下?

为了快速启动,我们提议一个四部曲:它已经改变了整个保险业界。我们称之为“驱动系统”。名字的灵感来自日渐兴旺的无人驾驶行业。工程师们首先有一个清晰的目标:他们希望在没有人力介入的前提下,将汽车从a点驶到b点。预测模型固然重要,但不再是孤军作战。随着产品越来越复杂,预测模型真是化于无形。用google自动驾驶的人,才不管里面涉及到几千个模型,或者PB级的数据。而与此同时,数据科学家则需要一个系统设计框架。我们不是说“驱动系统”是最好或者唯一的办法。我们的目的只是让数据科学和商业结合起来,让我们的视野可以更进一步。

以目标为本的数据产品

我们进入了犹如驱动系统的数据时代:数据不再是用来预测更多的数据,而是用来制造实实在在的成果。这就是“驱动系统”的目标。一个最好的例子来自大家熟悉的产品:搜索引擎。在1997年,AltaVista是搜索算法的老大。然而,他们的模型虽然在搜索相似网页上非常有效,用户最感兴趣的结果常常沉没在100页以外。然后,Google进来了。他们改变了网上搜索的世界。就靠着问了一个问题:当用户搜索一个词,他们想得到什么?

Google意识到,用户的目的是得到最相关的结果。在其余的情况中,客户可能是要提高利润,提升客户体验,帮机器人找最佳路径,或者平衡数据中心的负载。一旦我们明确了目标,第二步就是,寻找可以改变结果的杠杆。对于Google而言,这个杠杆是搜索的排名。第三步,需要什么新的数据来获得想要的排名?他们意识到,一个不显眼的数据:网页之间的链接关系,可以帮他们达到这个目的。这三步清楚以后,我们才开始第四步:建立预测模型。我们的目的,可用的杠杆,已有或者需要有的数据,三者决定了我们的模型。这个模型以杠杆和其余客观数据为原料,模型的产出则用于预测我们最终目标能否达到。

其中这第四步, 在Google来讲,已经载入了历史: Larry Page 和Sergey Brin发明的图形遍历算法PageRank,并以此为基础建立的搜索引擎,改变了整个搜索的世界。但是,为了建造一个好产品你不需要发明下一个排名系统。我们会告诉你,在没有计算机博士学位的前提下,这第四步怎么做。

组装线:Optimal Decisions Group的案例分析

如何基于预测模型获得最大战果,是公司最重要的策略。对于一个保险公司,保单的价格就是他们的产品。所以价格模型的重要性,等同于汽车工厂的组装线。保险业者的预测经验有几百年,但直到10年前,都依然无法制定新客户的最佳价格。精算师们可以算出客户遇到意外的概率和赔偿金,但这样不足以算出价格。最终制定价格靠的是市场调查,和猜测。

1999年形势起了变化。一个叫做Optimal Decisions Group(ODG)的公司,用了以上的四部曲。他们将其中的第四步落到实处,这样,还可以用来解决其他领域的问题。他们首先定义了保险公司的目的:制定一个价格,使得在今后多年的总利润最高。有一些限制条件比如不丧失市场份额之类。以此为起点,他们开发出一种最优价格策略,赚多了数以亿计的纯利。

ODG挑出了可用的杠杆:每个客户收多少钱,哪种意外可保,用多少钱做广告和售后服务,以及对竞争者的价格战如何应对。他们还考虑到一些无法控制的因素,例如竞争者的策略,经济大环境,自然灾害,客户粘合度等。然后他们想,还需要什么样的数据,才能预测客户对于价格的反应呢?为此,需要随机选取数十万的用户,在未来几个月改变价格。保险公司不太愿意做这样的实验:客户会流失,但他们还是对巨大的潜在利益动心了。最后,ODG设计了一个模型,用来优化公司的利润。

ODG的模型里,第一块是价格弹性模型(即用户对给定价格接受程度),包括新保价格和续保价格。这模型是一条关于价格和接受该价格可能性的曲线,从低价几乎必然接受,到高价几乎不可能接受。

模型的第二块,是价格与公司利润的关系(要将客户对价格的接受程度考虑在内)。比如价格很低肯定是亏钱的,抵不上赔偿金以及推广和服务新客户的固定成本。

将这两块的曲线相乘,得到一条“预期利润曲线”,有一个很清楚的局部最大值,那就是新保的最佳价格。

ODG还建立了旧客户续保的模型,预测在价格变化和竞争者加入的情况下,客户在一年后会不会续保。这个模型结合前面的新客户模型,可以预测新客户在未来5年提供的利润。

这些模型并不是最终答案。它只告诉你,用某个策略会有某个结果。组装线下一步叫做“模拟器”,模拟不同情形下,对ODG最终利润的影响。刚才的曲线只是曲面上的一条线,是多种情形中的一种。要建立整个曲面,模拟器考虑更广泛的参数。例如“如果公司在第一年给客户更多优惠,但第二年提高价格,会发生什么。” 他们也考虑了不可控因素对利润的影响。“如果经济崩溃,客户实业,会怎么样?如果百年不遇的洪水来袭,冲毁房屋又会怎样?如果新的竞争者加入,而我们没有对策,损失会有多大?”因为模拟是对逐个保单进行的,公司可以预测价格改变对利润、市场份额,以及其他长远目标的影响。

模拟器的结果会送进“优化器”,用来找曲面的最高点。不但如此,还考虑可能存在的灾难性后果,并考虑如何避免。优化器的选择有不少,但这个领域比较成熟,方法可行有效。ODG的竞争者寻找最佳价格的方法可能不同,但结果是大同小异。区别是ODG用“驱动系统”的办法和模型组装线,从模型跨到了成果。CloudPhysics的Irfan Ahmed用模型预测的分类法,来描述整条组装线:

当你用几十万个独立模型去模拟整个系统,“搜索”是必不可少的。我将它想象成复杂的机器,但没有外壳,你可以将其中某个零件拿出来做实验,或者进一步模拟零件之间的互动。注意这里的层次:先是一个个独立的模型,模型结合起来,加一组input(此处input意义未明)放入模拟器。优化器则在多组不同input中搜索最佳的。

 

 

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

%d 位部落客按了讚: