刘志毅/文“范式”这一概念最初由美国著名科学哲学家托马斯·库恩年在《科学革命的结构》中提出来,指的是常规科学所赖以运作的理论基础和实践规范。
库恩指出,在科学发展的某一时期,总有一种主导范式,当这种主导范式不能解释的“异常”积累到一定程度时,就无法再使用旧有的范式去做解释,科学共同体将寻求既能解释旧范式的论据又能说明用旧范式无法解释的论据的更具备包容性的新范式,这时候就会发生科学革命。
在范式和科学共同体基础上,库恩又提出科学知识增长模式:前学科(没有范式)—常规科学(建立范式)—科学革命(范式动摇)—新常规科学(建立新范式)。
在前学科时期,科学家之间存在意见分歧,因而没有一个被共同接受的范式。不同范式之间竞争和选择的结果是一种范式得到大多数科学家的支持,形成科学共同体公认的范式,从而进入常规科学时期。
在常规科学时期,科学共同体的主要任务是在范式的指导下从事释疑活动,通过释疑活动推动科学的发展,“常规科学即解难题(Puzzle)”。在释疑活动过程中,一些新问题和新事物逐渐产生,并动摇了原有的范式,建立新范式的科学革命随之产生。
革命的结果是拥有新范式的新的科学共同体取代拥有旧范式的旧的科学共同体。新范式的产生并不表示新范式更趋近真理,只是解题能力的增强。
在后库恩时期,为了进一步阐明范式,库恩提出了专业母体,又可译为学科基质,是指一个科学共同体成员共同掌握的、有待进一步发展的基础,它主要包括概括(公式)、模型(一种形而上学的假设)和范例(最具体的题解),其中范例是最基本的要素,它使原先范式概念的模糊性得到改善。
我们看到,目前的主要的范式已经有四个基本范式,图灵奖得主、关系数据库的鼻祖吉姆.格雷(JimGray)在年加州善景城召开的NRC-CSTB大会上,发表了题为“科学方法革命”的演讲,提出将科学研究分为四个范式。
而年微软出版的《第四范式:数据密集型的科学发现》(《TheFourthParadigm:Data-IntensiveScientificDiscovery》)一书,则扩展了其思想。
简而言之,他们认为目前的科学研究的范式包括四个主要范式:
几千年到几百年期间,是经验范式,主要是通过实验用来描述自然现象(第一范式)。虽然在这些观察中,有许多规律是显而易见的,但没有系统性的方法来捕获或表达这些规律。
几百年到几十年前使用模型或归纳法进行科学研究,如开普勒定律、牛顿定律等,这是理论范式(第二范式)。第二范式以自然理论模型为特征,例如17世纪的牛顿运动定律,或19世纪的麦克斯韦电动力学方程。这些方程由经验观察,归纳推导得出,可以推广到比直接观察更为广泛的情形。
虽然这些方程可以在简单场景下解析求解,但直到20世纪有了电子计算机的发展,它们才得以在更广泛的情形下求解,从而产生了基于数值计算的第三范式。换言之,对于很多复杂问题,采用解析的模型难以求解,科学家们采用计算机进行仿真模拟,则形成了计算范式(第三范式)。
近几年,随着数据的增加和人们进入大数据时代,研究统一于理论、实验和模拟,即为第四范式。它的主要特征是:数据依靠信息设备收集或模拟产生,依靠软件处理,用计算机进行存储,使用专用的数据管理和统计软件进行分析。
机器学习是第四范式中日益重要的组成部分,它能够对大规模实验科学数据进行建模和分析。这四种范式是相辅相成,并存不悖。
科学智能+机器猜想
过去几年间,随着人工智能技术的发展,以深度学习为代表的AI技术应用于科学基础理论的发现中,兼顾了效率与准确性。
这种使用机器学习的新方式,与以往第四范式数据建模截然不同。因为用于训练神经网络的数据来自科学基本方程的数值解,而非经验观察,从而创造出一种新的知识创造的思路,即通过机器猜想的方式实现科学智能的应用。
诺贝尔奖经济学奖获得者赫伯特.西蒙提出的“信息处理范式”中提出了一种信息处理范式,这是一种由外向内的分析机制。
受到他启发的日本管理学家野中郁次郎在讨论创新时,提出了知识创造理论。他以波兰尼的两分法为基础,从“显性知识”和“隐性知识”的关系入手,提出企业的创新行为其实就是要创造知识,通过社会化、外显化、组合化和内隐化的方式来创造知识,从而实现知识的创造和知识螺旋的出现。
换言之,我们可以将科学方程的数值解看作自然界的模拟器,以较高的计算成本,对众多我们感兴趣的应用进行计算——例如预测天气、模拟星系碰撞、优化聚变反应堆设计,或计算候选药物分子与目标蛋白的结合等。
从机器学习的角度来看,模拟过程的中间细节可以被视为训练数据,能够用于深度学习仿真器的训练。此类数据是完全标注的,数据的数量仅取决于计算开销。一旦完成训练,仿真器就可以高效执行新的计算,并大大提升计算速度,有时甚至能够达到几个数量级。
正如微软执行副总裁兼首席技术官KevinScott所说,“AI4Science是一次深植于微软使命的尝试,这将充分利用我们的人工智能能力来开发新的科学发现工具,从而让我们和科学界的其他同仁能够应对人类面临的最重要的一些挑战。”
通过以上的讨论,我们可以看到未来决定科学范式发展的,是基于思维科学的“第五范式”,即“科学智能+机器猜想”范式。这个范式跃迁的变化刚发展出萌芽并正在影响科技产业的进程,也将极大改变我们理解智能经济时代的技术发展的基础,尤其是人工智能技术为基础的智能化技术的应用逻辑。
如果说第三范式和第四范式的区别在于,计算范式是通过可行的理论搜集数据,然后通过计算仿真得出之前未知的结论;第四范式则是通过大量数据计算得到新的结论。
那么我们认为“第五范式”的特点就在于通过“机器猜想”的方式应用于“科学智能”,通过不同的“算法思维”和“应用场景”的对撞,得到不同领域的“专业知识”,将未知的结论推导出来,从而反向推动该领域的发展,得到在经验领域上尚未得到的前瞻性的结果。
与第四范式相比较,作为“第五范式”的“科学智能+机器猜想”范式拥有以下特征:
第一,跟场景深度结合。以中国为例,新一代人工智能作为全球新一轮科技和产业变革的关键驱动力,正在基于应用场景重构生产、分配、交换、消费等经济环节,从宏观到微观的层面满足各个领域的智能化新需求,催生出一系列新技术、新产品、新产业、新业态与新模式,通过场景落地的方式创造新的经济发展的智能化引擎,从而实现社会生产力的整体跃升,改变未来人类生产生活的方式和思维模式。
这样的现象在以往的数据范式中是不存在的。数据范式更多的是结合企业等组织数字化转型的需求,而第五范式则是更深层次的与社会经济系统的底层发展嵌合。
第二,不依赖大数据而是通过算法进行实验测试。在弱人工智能时代对应的深度学习,更多是围绕单点任务的场景落地,可移植性较差,且需要大量训练。而正在崛起的机器智能,强调“深度理解”,强调系统化地解决宽泛的应用场景问题,具备灵活与动态的推理能力,从而可以更好的移植到不同的场景。
深度学习之父GeoffreyHinton从年开始就公开号召摒弃现有深度学习(主要是反向传播、CNN)范式,重新奋力向前寻找全新的道路。Hinton认为,要想让神经网络能够自己变得智能,即实现不依赖海量标注数据的“无监督学习”,可以看到不依赖大数据深度学习的技术趋势正在形成。
第三,解决不确定性的长尾问题。我们看到当前人工智能技术的应用,很多场景中的长尾问题并没有得到解决,这些需求需要统一的人工智能技术新范式解决。而目前产业界的基本思路就是通过大规模算力的方式去解决。
通过建立具备超大算力的智能计算中心去硬解各种长尾问题,就好像物理学中的粒子对撞机。因为粒子碰撞的结果不可预测,但只有通过不停尝试,在某种程度上才能找出可解释物理世界的规律。
第四,是基于开放复杂的智能系统的应用,具备以下四个复杂系统的特点:
1)系统是开放的,即系统本身与周围的环境有物质、能量和信息的交换,可以看到人工智能的超算系统基本上都是开放的。
2)系统是巨大的,本身包含成千上万的子系统,可以看到为了应对不同的场景,人工智能的系统在垂直领域都具备相对完整的子系统。
3)系统的种类是多样的,从而体现出复杂性,我们看到针对不同的领域,复杂巨系统下的子系统会分裂出不同类别的子系统,例如针对医疗、教育、自动驾驶、智慧城市等不同领域,会有不同的子系统模块。
4)系统是多层次的,也就是巨型复杂系统是非还原论的,因此需要多层次的复杂系统来解决问题,而不是依赖简单的巨型复杂系统。
第五,是从隐性知识创造显性知识创造的闭环,即“机器猜想”下的知识创造,并将其主要应用与科学智能领域。这里需要提到的两个关键概念就是“知识创造”与“机器猜想”。
“知识创造”的概念,原本是由日本管理学家野中郁次郎提出的关于企业在组织中创造新知识,在组织中国扩散知识并将这些知识融入到产品、服务和系统中的能力。
而我们这里衍生到如何通过机器算法进行知识创造从而解决人工智能产业中场景落地的的能力,由于机器的“知识创造”过程更多的是依赖于算法和算力,因此与组织的知识创造相比更具备可操作性,且降低了组织进行创新时的成本与风险。
“机器猜想”的概念则是对新一代人工智能技术中“人工智能推理能力”的描述,不同于感知智能时代的人工智能,认知推理时代的人工智能基于巨大的算力与复杂的算法生态,与单智能体“感知-行动-目标”的推理过程不同,未来的人工智能推理是基于巨型复杂的多智能推理的,可以通过定义规则和激励对智能系统之间的交互进行管控,并改变每个子智能系统行为过程中实现巨系统的目标,从而创造知识形成产业场景大规模落地的闭环。
以上就是我对第五范式,即“机器猜想范式”的特质的讨论,我们看到国内外很多科技企业开始将超大规模的计算中心与超大规模的智能模型作为下一代人工智能的基础平台,其原理就在于“机器猜想”范式的逻辑落地。
在这样的范式下,我们可以观察一些基本的科技趋势,这些趋势可以作为理解第五范式的科技浪潮中的创新的核心特质:
1)基于机器猜想的计算模型必然是超大规模的模型,以“大规模”、“高精度”和“高效率”作为基础,这样才能支撑系统在社会的经济、治理以及生产生活的其他方面产生共同作用。
2)基于机器猜想的范式中,需要通过跨学科交叉融合的方式,将人类的不同学科的认知模型和知识系统引入,提升巨型开放复杂系统的鲁棒性,同时能够反哺源头学科,产生更多的基础性认知,从而进入“机器猜想”的“智能科研”的知识创造时代。
3)“机器猜想”的范式中,能够在不同的垂直领域产生以数学为基础类似物理学规律的大一统理论,从而在基础理论领域形成双向的正循环,一方面大一统理论可以建构其解决长尾需求,打通学科本质的研究体系;另一方面,通过机器猜想的方式,能够在诸多基础学科领域建立起新的“未曾发现的知识体系”,从而能够规模化的产生新的知识生态。
4)“机器猜想”中的机器并非现在的人工智能系统,而是下一代人工智能系统,比较有可能突破和实现该领域的是在类脑计算,我们认为这是AI领域摩尔定律发挥作用的必然趋势,通过仿生神经形态计算戏称为未来智能计算的重要模式。
5)“机器猜想”需要新的治理生态,如何建立多层次的、多方参与的、敏捷的、负责任的综合治理体系,从复杂系统管理工程的角度而言,是非常重要且颇有难度的工作。一方面在传统的治理机制上需要突破和创新,另一方面也要通过“算法规制”等方式进行技术治理,这是我们需要看到的未来。
6)“机器猜想”的范式有可能有不同的演化路径,包括生物智能、决策智能和群体智能都是有可能的方式,生物智能是实现通用人工智能的可行路径,决策智能则有可能通过与博弈论的结合,在工业领域产生新的革命,群体智能则有可能在时空数据研究领域产生新的突破。
7)需要注意的是,“机器猜想”的范式路径是按照“知识进化论”的逻辑推导出来的,也就是我们认同波普尔的观念,也就是知识作为独立的第三世界的特质。自文明诞生以来,知识就有自己的进化路径,它在文明中诞生、成长、改进、猜想、验证、怀疑以及重建,当然它有赖于人类文明的发展和进化。
最后,我要重点讨论下第五范式研究的起源,即波普尔关于知识进化的研究,作为进化知识论的奠基人之一,他在多本专著中的研究对我的启发很大。
例如在《研究的逻辑》一书中,他讨论了通过试错而使得知识增长的理论,这与我们当下看到机器在进行算法训练获取知识的逻辑不约而同。在《猜想与反驳:科学知识的增长》一书中,他讲知识增长的理论系统化和纵深化,让我们看到知识进化的不同逻辑。在《客观知识:一个进化论的研究》中,他把认识论与进化论相结合,得到了进化认识论与科学方法的一致性,这也让我看到了“机器猜想”范式的未来。
我们在这里只需要提及他在《客观知识:一个进化论的研究》中所提到的“第三世界”的理论,这里指的是波普尔将世界分为三个:第一世界,就是物理客体或物理状态的世界;第二世界,就是意识状态或精神状态的世界;第三世界,就是思想的客观内容的世界,即知识的世界。
他在书中做了两个思想实验来印证“第三世界”的存在:实验(1):所有的机器和工具,连同人类所有的主观知识,包括人类关于机器和工具以及如何使用它们的主观知识都被摧毁,然而图书馆和人类从中学习的能力依然存在;实验(2)跟上述情况一样,区别在于这一次所有图书馆也毁坏了,以至于人类从书籍中学习的能力也没有了。
那么,我们可以预判是在第一种实验中,我们的文明世界还能够被重塑,第二种情况,人类文明将不再出现。因此,知识(这里主要指的是科学知识)代表了第三世界,属于客观理论、客观问题和客观论据的世界。
正如波普尔所说,“认识论的中心问题从来是而且现在仍然是知识增长的问题。而研究知识增长的最好方法是研究科学知识的增长。……略加思索就会看出,与我们的知识的增长相联系的大多数问题必然超越任何仅限于与科学知识相对立的常识性知识的研究。因为,常识性知识增长的最重要方式正是转变成科学知识。而且,显而易见,科学知识的增长是知识增长的最重要、最有意思的实例。必须记住,在这种背景下,几乎所有的传统认识论问题都是与知识增长的问题相联系的。我甚至要进一步说:从柏拉图到笛卡儿、莱布尼茨、康德、杜恒、彭加勒,从培根、霍布斯、洛克到休谟、穆勒、罗素,知识论都为这样的希望所鼓舞;它不仅使我们能知道更多的知识,而且使我们能对知识的进步做出贡献——对科学知识的进步做出贡献”。
当然,以往的认识论主要研究的是人类知识和动物认知的连续性和非连续性,即比较认知机制的科学,而新的知识范式下需要研究的是人类知识与机器知识的连续性和非连续性,我们要通过考察人类各种类型知识增长的逻辑,并将这种逻辑范例应用在“机器猜想”的模型和系统中,从而形成新的知识爆炸系统,形成新的理论思考。
第五范式下的元宇宙创新与治理
在理解了第五范式的基本逻辑后,我们来看元宇宙的世界中,新的范式将起到什么样的作用,首先要理解元宇宙的本质,我们可以从以下几个角度去理解:
第一,元宇宙的概念和特质,广义而言,我们可以说,互联网就早已经是一个元宇宙了。我们在新冠疫情中不可或缺的远程视频会议都有一些“元宇宙”元素。
“元宇宙”是永远在后退的地平线,我们可以不断靠近它,但永远无法完全实现它。狭义上的元宇宙是一种基于增强现实(AR)、虚拟现实(VR)和混合现实(MR)等技术,整合了用户替身创设、内容生产、社交互动、在线游戏、虚拟货币支付的网络空间。在元宇宙中,用户不仅仅是看内容,而是能全身心沉浸在相互补充和相互转化的物理世界和数字世界中。
第二,元宇宙技术的出现从根本上是因为人类媒介的记录能力和传输能力极大提升带来的结果,使得从前只能“记录和传输信息”(information)变成今天能“记录体和传输体验”(experience),从而实现人体的“遥运”(teleport)形成“遥在”(telepresence)。
第三,元宇宙代表了智能化技术的发展方向,代表了更高维度的信息化技术的实践,互联网在空间上仍是二维呈现,移动互联网在PC互联网的基础上,扩展了时间与空间的广度,即移动设备的可移动性使人们随时随地获取信息,但此时的空间呈现仍是以二维为主。
而元宇宙在空间上则是三维呈现,且更强调感官体验的全面跟进,用户的感官体验得以高度仿真,当下互联网的平面功能将被三维立体化在元宇宙中呈现,换言之元宇宙扩展了物理城市的尺寸与增长空间。
那么,在这样的元宇宙的世界里,就存在着属于自己的创新与治理机制,从创新方面来说,我们可以说元宇宙正在定义智能经济的未来,可以从以下几个角度进行讨论:
第一,元宇宙通过规则定义未来,其代表的数字世界和现实世界的融合创造了新的规则体系。这些规则包括不限于数字世界的信用规则、价值交换规则、生产关系的变化、社会组织生态的变化等,这就意味着元宇宙的建构过程当中需要加入人为的规则体系来定义其发展逻辑。
第二,元宇宙创造着独特的经济价值,这一系列价值是通过数字化技术实现的。用户通过元宇宙基础设施和超级VR技术将自己全身心地成为元宇宙的一份子(Cyborgs)。在混合虚拟现实技术的支持下,日益人性化的人机互动界面导致网下与网络空间的不断重合,网络空间就是现实空间,现实空间亦是网络空间。
第三,元宇宙中人们需要新的数字化身来获得沉浸式的体验,因此“数字化身”成为了元宇宙发展的核心,即虚拟数字人成为人们使用元宇宙技术的关键,从传播学来说,即实现了“亲身传播”。用户在使用元宇宙相关技术传输信息时,此时传播者的身体、传播技术和传播内容重新聚合。
作为重要的符号——文字的出现使得人类在传播时可以实现传播者的身体与传播内容的分离,它作为人体的初级化身,极大地扩大了人际的传播效率(一对多),但同时也牺牲了人际传播(一对一)的效果。
而人基于虚拟现实的化身远比文字化身丰满和立体,将导致亲身传播的复归,进入拉尼尔所说的“后符号传播时代”(post-symbolic