寻找生命算法：专访图灵奖获得者Leslie Valiant

iamyifan · 发表于 2017-9-6 21:22:37

对计算机科学家Leslie Valiant来说，「机器学习」是一个冗余的称呼。他认为，摸索橡胶球的孩童与识别猫咪照片的深度学习神经网络都可以叫做学习。把后者叫做「机器」只是名义上的差别。

Valiant是哈佛大学的计算机科学家，他并不是唯一一位认为大脑与计算机之间基本等价的科学家。但是，他是最早正式研究二者关系的人之一：1984年，他的「可能近似正确模型（probably approximately correct，PAC）」从数学上定义了一个机械系统在什么样的条件下可以被看做能够「学习」信息。由于Valiant的贡献有助于机器学习理论的进步，因此他赢得了图灵奖——这个奖通常被称为计算机界的诺贝尔奖。
Valiant的概念跃升并不止于此。2013年，他在《可能近似正确（Probably Approximately Correct）》一书中概括了他的PAC学习框架，使其能将生物进化也囊括在内。

他把算法的概念扩展为「生态算法（ecorithm）」，这是一种能在任何系统上运行的学习算法，并能与物理环境发生相互作用。算法是应用在计算系统上的，而ecorithm则可以应用在生物或整个种群上。从计算的角度看，这个概念在个体的学习与整个生态系统的进化之间画上了等号。这两种情况下，ecorithm都能用机械的方式描述适应性的行为。
Valiant说他自己的目标是找到「学习和进化的数学定义，找到信息进入系统的所有方式。」如果他成功了，那这个被他戏称为「万物理论」的理论，将能把生命科学与计算机科学融合在一起。此外，这还将扩展我们对「学习」和「智能」的直观定义，使其不仅包含非生物，还将包含非个体。「群体智慧」将不再是一个修辞手法。
《量子杂志》与Valiant谈论了他在消解生物学、计算机科学、进化和学习之间的藩篱所作的努力。以下是经过编辑的访谈。
量子杂志：你是如何想到「可能近似正确（PAC）」学习法的？
LESLIE VALIANT：我的研究属于理论计算机科学界，特长是研究计算复杂性理论，但是我对人工智能也很感兴趣。我的第一个问题是：人工智能的什么方面可以与定量理论相结合？我很快想到，答案应该是学习。
20世纪80年代，当我开始研究这个课题时，人们已经在研究机器学习了，但对「学习」究竟是什么东西，并没有达成共识。实际上，理论计算机科学界曾怀疑学习根本不可能成为一门科学。
另一方面，学习是一个再现性很强的现象——就像苹果掉落地上一样。每一天，世界上所有的孩子都在学习成千上万的新词语。这个现象的规模太大了，一定有一个可量化的解释。
所以我想，学习一定是符合某种理论的。由于统计推断学已经存在，我的下一个问题就是：为什么统计学还不足以解释人工智能？这只是一个开始：学习一定符合统计学的某些规律，但同时它也一定是某种可计算的东西。我需要某些能将计算和统计学相结合的理论来解释这现象到底是什么。
那么，到底什么是学习？它与计算和算术有什么不同？
学习是一种计算，但学习的目标是「在没有被精确建模的世界中做出优异的表现」。学习算法会观察世界，并在此信息的基础上决定要做什么事，并评估它的决策。我的书中提出了一个观点，那就是，所有个体所拥有的知识都应该是从学习或进化过程所得来的。如果这是真的，一定有一个统一的理论，可以解释个体的学习和进化这两个过程。
这里，我们终于谈到了「ecorithm」这个概念。什么是ecorithm？它与算法又有什么区别呢？
ecorithm就是一种算法，但是评估它的表现必须考虑到它从相当不受控制和不可预测的世界中所获得的输入数据。它的目标是在那个同样复杂的世界中做出好的表现。当你想到算法时，你可能想到的是计算机上运行的算法，但它也可以很轻易地在生物有机体上运行。但无论是哪种情况，ecorithm都存在于外部世界中，并与那个世界发生相互作用。
所以，ecorithm的概念正是为了破除「机器学习与非机器学习有本质的不同」这个错误的直觉观念？
是的，当然了。从科学的角度说，早在一个多世纪以前，就已经存在一种观点，说我们的大脑运行着计算，如果我们能找出产生出这些计算过程的算法，那我们就能够在机器上模拟大脑，那么「人工智能」和「智能」就变成了一回事。但是，如何确定大脑中进行的计算究竟是什么？这是一件在实际操作上非常困难的事情。事实证明，机器学习是绕开这个难题的有效方法。
留给机器的最大挑战之一就是那些与进化习得的行为有关的计算，或者说，我们孩童时期在地上爬来爬去、感受环境所学到的东西。以这些方式，我们学到了没有写在书本上的知识。比如说，如果你挤压一个装满了热咖啡的纸杯，我们都知道会发生什么事，但这个信息在互联网上却很难找到。如果这种知识在网上很好获得，那机器学习这些信息就会更加容易。
我们已经很好地了解了一些系统的行为，并已经能用算法来很好地模拟它们（例如太阳系或晶体）。这些系统也可以看做「学习」吗？
我不会把这些系统看做学习。我认为，学习者必须拥有某种最小的计算活动，并且，学习必须让系统变得更加有效。直到10年到20年前，当机器学习开始让计算机做出某些惊人的事情时，还没有任何证据表明宇宙中除了生物系统之外，还存在着其他类型的学习。
学习的理论如何运用到生物进化的现象上？
生物是基于蛋白质表达网络的。当进化向前发展时，这些网络也在不断地调整。当这些网络在经历达尔文进化时，PAC学习系统为这些调整加诸了一些逻辑极限。如果我们从生物界收集更多的证据，并用PAC学习框架来分析它们，我们就能找出生物进化为什么成功，以及如何成功，这将使我们对进化论的理解更加牢固，也更加具有预见性。
我们目前进展如何？
「我们将能理解我们放入机器中的智能，正如我们理解炸药的物理学一样。」
在考虑到生物学行为时，我们还没有完全解决我们面临的所有问题，因为我们还没有确定生物学中实际发挥作用并产生这些现象的ecorithm。所以，我认为这个框架提出了正确的问题，但我们还不知道正确的答案。我想，通过生物学家和计算机科学家的合作，这些答案是触手可得的。我们知道我们在寻找什么。我们正在寻找遵循达尔文约束条件的学习算法，而生物学能够且确实支持这些约束条件。它将在一个允许进化发生的时间跨度之内解释这颗星球上发生过的事。
想象一下，我们明天即将发现某些解码生物进化和学习的ecorithm。有了这些精确的知识，我们将能做什么过去做不了的事，理解哪些过去无法理解的事？
我们将理解我们从何而来。但还有一个推论是，我们将从计算的角度更加理解心理学。所以，如果这个项目真的成功了，那我们将理解更多关于人类本质的东西。
你的意思是否是说，计算机将能够可靠地预测出人们会做什么事？
这是一个非常极端的情景。如果我想要准确地预测你一个小时后将做什么事情，那我需要什么数据呢？从物理学的角度看，人是由原子组成的，我们知道原子的很多性质，理论上说，我们还能预测一组原子的行为。但是，这个观点却无法继续推演来解释人类的行为，因为人类行为是由非常多的原子组成的极端复杂的行为。我的意思是说，如果一个人对人脑的运行有一个高阶的计算解释，那么他距离「解释人类行为，使其符合我们对其他物理系统的机械理解」这个目标才能稍微近一些。原子的行为与人类行为的距离太遥远了，但如果我们理解了大脑所使用的学习算法，那就能提供一个距离人类行为更近的机械概念。它们为你的行为给出的解释也会更加合理和可预测。
如果支配着进化和学习的ecorithm是不可学习的呢？
逻辑上有这个可能性，但我不认为它会发生。我认为，它将是某种具体有形、容易理解的东西。我们可以对那些根本无法解决的数学问题问出同样的问题。你是否相信，这些问题存在能被人类理解的解，或者它们已经超出了人类的理解范围？在这个领域，我很有信心——否则我不会去研究它。我相信，大自然所使用的算法是有形的，可以被理解的，并且不需要我们不能拥有的直觉知识就能够理解。
许多杰出的科学家都对人工智能可能出现的「超级智能」表达了担忧，认为它们有可能会超过我们的能力并控制人类。如果你的 ecorithm理论是正确的，智能真的会从学习算法与环境的互动中自动涌现，这是否意味着，我们不仅应该对AI程序深表担忧，也应该对我们部署AI的环境提高警惕？
如果你设计一个从环境中学习的智能系统，谁知道呢——在某些环境中，系统会展现出你完全预想不到的行为，这种行为有可能是有害的。所以，你确实说对了。但是，一般来讲，我并不是那么担心超级智能会毁灭人类。我认为智能是由有形的、机械的、最终可理解的过程所组成。我们将能够理解我们放入机器的智能，正如我们能理解炸药的物理学一样——也就是说，我们能够控制智能的行为，让它们具有足够的可预见性，所以它们并不会造成什么意想不到的伤害。我并不那么担忧人工智能与其他强大的科技有什么不同。与其他科技一样，它也有它的科学基础。
附：《纽约时报》书评
我们的日常生活正越来越依赖算法，那些计算程序无所不在，手提电脑上，智能手机里，GPS设备中，还有许多其他地方。算法也影响着我们的决策: 当我们在Netflix 上挑部电影或者亚马逊上买本书时，大量由成熟算法生成的推荐会摆在我们面前，这些算法考虑了我们和与我们相似的其他用户(也是算法判定的)的以往选择。
当然，现代社会中，这些算法的重要性已经成为通识。但是，在其新书《Probably Approximately Correct》中，哈佛大学计算机科学家Leslie Valiant进行了更为深入的探讨。他说，计算是，也一直是「地球上的支配力量，存在于地球上所有生命体内。」大自然使用了算法语言。
Valiant 博士相信，诸如演化，自适应以及学习现象能够借由「生态算法（ecorithms）」这一术语得到最好解释，他发明的这个术语是指与周围环境互动并受益于所在环境的算法。当孩子学习如何区分狗和猫时，当我们穿梭于新的城市时，生态算法就在起作用——但是，不止于此，Valiant博士写道，有机体演化以及创造大脑回路时，生态算法也在发生作用。
兹举一例，看看他如何阐明这一复杂思想。假设我们想要通过测量花瓣大小，区分两种不同种类的花。每片花瓣，我们都测得两个结果，x代表花瓣的长度，y代表花瓣的宽度。已知某片花瓣长宽，请找出判断它属于哪一种花的办法。
为了完成任务，我们给算法输入一套实例，「训练」它生成一个好的标准，区分不同种类的花。算法事先并不知道标准是什么；它必须使用接收到的数据，「学习」标准的内容。

因此，算法从一个假设开始，并用第一个实例测试这个假设。（比如，能够用公式2x—3y>2来描述第一种花的花瓣，而第二种花的花瓣描述公式是2x—3y