【转帖】王培:仅靠概率论的机器学习无法实现通用智能

原链接

【新智元导读】王培认为,贝叶斯解释在通用智能系统中适用性有限,因此仅靠概率论的机器学习方法并不能让计算机拥有可比人脑的智能,概率论虽然是个好东西,但这条路并不能让我们抵达通用智能。
自上世纪八十年代以来,概率统计逐渐取代数理逻辑成为人工智能中最流行的形式化框架,以至于有人以此作为“新AI”取代“旧AI”的标志。源远流长的概率论和数理统计在“数据挖掘”、“大数据”、“数据科学”、“神经网络”、“机器学习”等新潮名目之下焕发出了茁壮的生命力。尤其是“深度学习”技术在近年间令人炫目的进展,令很多人考虑是否沿这条路可以达到人工智能的终极目标。

这是个复杂的问题。一方面,“概率统计”是一个庞大的领域,包括难以数计的结论和方法;而另一方面,对“人工智能”有各种非常不同的理解。在这篇短文中,我试图聚焦于问题的核心。在概率统计中,这里只涉及其基本概念,如“概率函数”和“随机样本”等。而“人工智能的终极目标”在这里是指通用的、完整的智能系统。这种系统的能力应在各个方面和人脑的信息加工能力有可比性(尽管未必在所有细节上和人脑相同),特别是能够在现实环境中有效处理出乎系统设计者和系统本身预料的问题。

一个自然的想法是给系统的每个信念一个概率值,其初始值或直接从数据中提取,或用各种统计算法和学习算法从相关数据中估计或总结。在此基础上,让系统反复用贝叶斯定理根据新证据修正信念。当需要在不同行动之间做选择时,选取期望效用值最高的。这类基于决策论的理性模型早已在经济学、心理学等领域中被广泛应用。随着计算能力的大幅增长和各类数据的广泛收集,在计算机上实现这么个“理性人”的时机是否已经成熟了?

当然没那么简单。首先,“概率”在这里是什么意思?作为一个数学理论,“概率”在概率论中的含义是被有关公理所严格确定的。但如何把这个数学概念应用于现实问题并非显而易见。经典的观点是把“概率”看作一个可重复实验中一个结果出现频率的极限。问题是“极限”是定义在无穷远点的,而我们的观测总是有限的。严格说来,仅从一个数列有限项的值是不能确定其极限的,甚至无法确定这个数列是否有极限。因此,把一个带有不确定性的量看作“随机变量”并讨论它属于某值域的概率,基于一个隐含假设:这个量在重复测量中的取值是有一个相对稳定的分布的。但既然是“假设”,这个条件就不是永远成立的,而在它不能被认为近似成立时,我们就不能谈“概率”,也就更谈不上用概率统计解决问题了。

对概率的上述“频率解释”的局限性早已引起了很多人的关注。在诸多拓广概率使用范围的尝试中,一个有代表性的方案是对概率给予“主观解释”(又叫“私人解释”),即把它看作一个认识主体对信念的相信程度。和频率解释把一个事件的概率当作该事件的客观属性不同,主观解释容许不同认识主体赋予一个事件不同的概率值,而只要求在同一个认识主体的信念中的概率值是一致的,即不会给一个信念两个不同的概率值。这样,不可重复事件和数据不足的事件的概率也都有定义了。

对通用智能系统来说, 频率解释失之过窄(很多信念的概率根本没定义),而主观解释失之过宽(信念的概率没办法唯一确定),因此常见的是某种“逻辑解释”(或“贝叶斯解释”,这两个概念的差别在这里不细谈),即把一个信念的概率看成系统已有证据对它的支持程度。对给定信念和证据,这个值是确定的(客观性的一面),尽管对其具体确定方式仍有不同意见。仅对给定信念而言,不同认识主体可以赋予其不同概率(主观性的一面),因为它们所拥有的证据不同。当某信念对应于可重复实验中的一个结果,且此结果的出现频率确有极限时,其概率应当收敛于这个极限。这样一来,这个解释可以说是集中了频率解释和主观解释的优势。

我在参考文献[1]中对上述三种解释在通用智能系统中的适用性有详细的讨论。尽管逻辑解释(或贝叶斯解释)比前两种在这个语境下更合理,以此为基础的方案仍面临若干严峻挑战。比如说,根据这种解释我们可以谈单个事件的概率,如“张三得了肺炎”。假定我们对张三只知道他的性别(男)和年龄(40),那么最直接的办法就是以“40岁男人”为张三的“参考类”,以肺炎在此类中的发病率作为“张三得肺炎”的概率。但问题是张三会同时属于其他参考类(如“退役运动员”、“吸烟者”等等),其中每一个都可能为“张三得肺炎”提供一个不同的概率(因为各个参考类中的概率是根据不同的数据计算的)。在这种情况下,取哪个概率值呢?这就是“参考类问题”[2]。一般的做法是用最详细的描述,即“ 40岁、男性、吸烟者、 退役运动员”,但这么详细的统计数据不一定存在,即使存在也可能因数据量太小而失去可靠性。在极端境况下,“最详细的描述”包括张三的所有特点,而此时参考类大概只包含张三自己了。如果选一个我们有大量可靠数据的参考类(如“40岁男人”),则我们的统计结论是关于此类中的一个“随机样本”的,但不是关于张三的。因为我们有关于张三的进一步信息,他已不能被看作一个随机选择的40岁男人了。另一方面,如果不是选择一个参考类,而是同时考虑多个参考类,则必须处理这些参考类所提供的概率值之间的不一致。

对一个通用系统来说,只要其中的概率是根据不同的数据来估计的,上述一致性问题就可能出现,因而导致违反概率论公理。严格说来,在这种情形下得出的任何结论都不再具有来自概率论的合法性。尽管每个数据集可能支持一个内部一致的概率分布函数,概率论并未给出合并多个分布函数或将它们混合使用的方法。实际上,合法的概率运算都是在一个概率分布内部进行的。

上面结论的例外是“贝叶斯条件化”。贝叶斯定理的原始形式 P(H|E) = P(E|H)*P(H)/P(E) 直接来自条件概率的定义,仍是在同一个概率函数P内部的,即表达了几个在相同证据基础上的概率指派之间的关系。但是,如果“概率”被解释成基于已有证据的信念强度,那么当事件E发生后,它可以被合并到P的“已有证据”中去,以得到一个新概率分布P’,满足 P’(H)= P(H|E)。所谓“贝叶斯条件化”或“贝叶斯学习”就是指用这个办法逐渐把新证据整合到背景知识(已有证据)之中,以实现概率分布的演化。

有人认为贝叶斯条件化足以解决一般意义下的学习问题,但我在[3]中指出这种方法不能被用来获得或修改所有背景知识,因此不具有通用性。贝叶斯学习的局限性之一就是P和P’是定义在同一个样本空间(或者说信念空间)之上的,因此这种学习仅限于调整已有信念的强度,而无法构造新信念。既然“创造性”和“想象力”都隐含着构造新信念的要求(当然不是无中生有),那么贝叶斯学习在这方面就是不够用的。有人会说我们可以建立一个包含所有可能信念的样本空间,但这种可能性对通用系统来说即使在理论上都是可疑的,更不要说付诸实施了。

贝叶斯学习在通用系统中的另一个障碍是资源开销。原则上说,当系统用这个办法吸收一个新证据E时,任意信念 x 的强度都要按 P’(x)= P(x|E) 重新计算,除非 x 和 E 是相互独立的。对一个信念量和人脑接近的通用系统来说,这种全局性更新的时间是花不起的,因为这种系统一般需要作出实时反应。完全依赖于独立性假设也不是个办法,因为关于独立性的判断在这种系统中往往应当是随时间和经验而变的,不能完全预先确定。

上面提到的问题都不是新发现的,而且大部分都是如此的显而易见,以至于被认为不值一提。在概率统计的传统应用中,这些问题的后果不严重,因为这些应用都是针对某个具体问题的,而一个统计学家只是在这个问题是可解的情况下才用适当的统计模型解决它。与此相反,一个通用智能系统常常需要在知识(数据)和资源(计算时间、存储空间)相对不足时独立解决问题[4],而不能事事依赖设计者的事先安排。

统计技术在解决很多具体问题时所取得了巨大成就,这使得很多人想象这些成就可以被推广或集成,以此实现和人的智能有可比性的通用人工智能。这篇短文通过简述我前面几篇文章的结论说明,由于通用系统的特殊要求,直接用概率统计是不行的。有兴趣的读者可以去我的主页读那些文章的全文。

我对这些问题的解决方案是继承概率统计的一些基本想法,但将它们实现在“知识和资源相对不足”的约束下。具体说来,就是不仅把信念强度(我系统中的“真值”)完全定义在已有证据的基础上,而且允许不同的信念基于不同的证据。这样做的结果就是容忍信念间的潜在不一致,只是在发现明显的冲突时加以适当处理(合并或选择)。这样的信念强度不能被称作“概率”,因为它不再遵守概率论公理。因此,概率统计的标准手段在此系统中不再合法,而我的解决方法更接近于多值逻辑的传统,尽管在某些地方和概率统计殊途同归。这个系统在[4]中有详细讨论,在其他文章中也有介绍。

心理学早有大量文献说明人的直观判断不符合概率论。我不认为这是像有些人所说是人类“没进化好”。恰恰相反,因为概率论的基本前提只能在理想情况下被满足,它不能被用作一个适用于所有环境的规范性理论。即使我们把讨论局限于专用系统,统计方法的上述理论局限性也不应被忽视。让我们随便看几个例子:

在各种预测软件中,一个股票的价格往往被表示成一个“随机变量”。但似乎没有理由认为一个股票的价格在未来会构成一个稳定的分布。这种情况下,为什么可以按概率论中的公式处理它?
前面已经提到了医疗诊断的例子。当讨论“张三得肺炎”的概率时,关于张三的哪些信息需要被考虑?为什么其他信息可以被忽略?
在用统计手段构造的对话系统中,系统对用户问题的答复往往是根据人们以往对同样问题的答复来确定的。在“百科知识问答”之类的情景中,这样做自然是对的。但如果某人回答你的所有问题时都遵照大多数人对此问题的反应,你会认为这个人有智能吗?

由于上面的问题都是概率论基本设定的后果,它们是不能被更快的机器、更多的数据或更复杂的算法所解决的。

概率论的确是个好东西,但这不说明我们总能“用得起”。一个常见的辩护是说“每个理论都是理想化的结果,因此只能被近似使用”。这自然是对的,但真正重要的问题是一个理论的基本预设和一个领域的现实情形到底相差多少。如果差的太多,“近似”也就变成“滥用”了。当一个理论被滥用时,其结论往往被瞎猜更有害,因为它们披着这个理论的华丽外衣。

参考资料
[1] Pei Wang, Issues in applying probability theory to AGI, AGI-13 Workshop:Probability Theory or Not?, 2013
[2] Pei Wang, Referenceclasses and multiple inheritances, International Journal of Uncertainty,Fuzziness and Knowledge-based Systems, Vol.3, No.1, Pages 79-91, 1995
[3] Pei Wang, The limitation of Bayesianism, ArtificialIntelligence, Vol.158, No.1, Pages 97-106, 2004
[4] Pei Wang, Rigid Flexibility: The Logic of Intelligence,Springer, Dordrecht, 2006