强化学习

自互联网兴起,诞生了不少新贵。一家公司,满足用户一个或几个很简单的需要,做大了,忽然就值几十几百甚至几千亿。我一直都没有充分了解这个现象。抛开一切技术上的细节不论,如果我告诉你,我会搬砖头,一年赚1000万,恐怕没人会相信。理由很简单:这个活儿这个价钱,必然大把人来抢着做,价钱就会拉低了。现在我的问题就是:互联网公司靠什么作为自己的门槛呢?

当一个服务面世的时候,必然要有人来用。然后就会产生问题。用户的问题,单个来讲可能并不难,但千头万绪。解决方法各有成本,也有利弊,要取舍。有时解决了一步,下一步问题跟着会来。另外,用户也许并不知道自己要什么。既要听他们的需求,又不能全听。

这有点像一个强化学习的模型。此类模型是alphago核心技术之一。你有一个最终目标,然后你有很多步棋要走。每步走完以后,并不会直接告诉你最终目标是更近了还是更远了。你要不断计算,修改价值函数,才能采取正确的步骤。而在做生意来讲,还有各种风险变化,不好评估。而最终目标,也就是用户的需求(或者说是你希望给用户做成什么),本身也是模糊不清的。

这加起来就是个复杂的问题,这解释了门槛为什么高。门槛高而价值大,公司市值自然就大。

在这个任务面前,什么公司容易成功呢?alphago是这样解决问题的:首先它用深度学习造出了一个“狗头军师”,靠的是模仿历史棋局,水平尚算可以。当然这本身也很复杂。这个狗头军师在不同局面中给出建议,一步一步地,生成一棵树。通过评估每棵树的优劣(有时进行剪枝),不断修改价值函数,系统最终找到最好的一步。

一家技术过硬的公司,等于有了个很牛的“狗头军师”。一个好的决策过程,让技术发挥它的可能性,即生成树的过程很顺畅。然后,一个好的检讨过程,即修改价值函数的过程。这样成功机会就相对大一些。

 

 

 

 

 

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s

%d 位部落客按了讚: