当代科技发展对数据和算力提出了极高要求。在传统基础技术研究领域,科研院所、高校的科研团队普遍缺乏这方面的能力支撑。为了应对这一变化,近十年来,“开放科学平台”在欧美逐渐盛行控制工程网版权所有,为科研社区提供包含开放数据及相关分析工具、开放算力平台、开放源代码的各种支持。在科学技术的大国竞争时代,“开放科学平台”逐渐成为推动科技发展的关键变量。中国在这个领域需要加大投入,从而实现科学范式转变阶段基础科学平台建设的跟跑、并跑直到领跑。
1 科学进步背后的规律:从“Paradigm Shift”到“第四范式”
科学进步的轨迹是什么样的?
早期,人们普遍认为,科学发展是循序渐进的,科学家不断涌现,将已有科学理论向前推进从而推动科学发现越来越接近真理。
1962年,美国学者托马斯·库恩在《科学革命的结构》一书中提出,以物理学历史发展为例,科学发展存在有规律的不连续性。书中说,科学由一系列交替的“正常科学阶段”和“科学革命”阶段组成。在科学革命阶段,伴随着概念层的突破,已有的理论框架被新科学范式全面颠覆并重构,例如从牛顿力学到量子力学的转变。
库恩创造了“范式转变(Paradigm Shift)”这一科学哲学新概念。在库恩定义的范式转变理论中,科学发现遵循的是另一条五个阶段的循环路径:
1. “前范式阶段”:几个不相容和不完整的理论,并逐渐收敛到一种被科学界普遍接受主导范式
2. “正常科学阶段”:在主导范式的背景下不断解决科学难题,推进科学进步
3. “危机阶段”:主导范式能未解决的异常现象,会在较长时期内不断累积,最终导致主导范式的信任危机
4. “范式转变阶段”:主导范式出现重大失败后,科研基本假设被重新审视,进入新范式建立阶段
5. “新范式阶段”:科学革命后,新范式主导地位确立
库恩开创了一门名为科学史或科学社会学的新学科。社会学家和历史学家开始把科学看成一种普通的亚文化。范式转变推动科学发展已成广泛共识。
库恩之后,计算机领域的学界泰斗、数据库领域的传奇科学家吉姆·格雷把科学技术发展史总结为四个范式阶段:
1. 第一范式:经验(empirical)证据。数千年文明史中,人类绝大多数技术发展源于对自然现象观察和实验总结。相比于宗教或神学中不允许被质疑的教条来说,基于观察和实验的经验范式是科学技术发展中人类迈出的一大步。
2. 第二范式:理论(theoretical)科学。相比于依赖观察和实验的第一范式可以做到“知其然”,第二范式的科学理论需要做到“知其所以然”,对自然界某些规律做出背后原理性的解释。因此,理论必须满足进一步的要求,如可证伪的预测能力、多个独立来源的一致性等。
3. 第三范式:计算(computational)科学。随着计算机的运算能力越来越强大,它逐渐被用于科学研究领域。同前两个范式不同CONTROL ENGINEERING China版权所有,计算科学中诞生了一种崭新的技术工具:计算模型与系统模拟。这一工具利用计算机的计算能力、基于大规模并行的计算机体系结构、通过设计算法并编制程序来模拟复杂过程,在大气环流、核反应过程、病毒感染过程。在经济学、心理学、认知科学等缺乏简单、直观分析解决方案的领域获得广泛采用。
4. 第四范式:数据科学(Data exploration)。从基因测序仪、深空望远镜到覆盖全球的社交媒体,人类社会已经被深度数字化。每天在我们生活的数字地球里每天都会产生海量的数据。据估计到 2025 年,全球每天将新产生463 EB 的数据,相当于212,765,957 张 DVD,这些DVD叠在一起有30个珠穆朗玛峰那么高。在这样一个数据爆炸的时代,基于数据的技术革命也正在发生,数据科学成为技术发展的最前沿。以数据为中心的计算平台、数据加工、处理与分享工具、算法与模型库等一系列科学研究方式构成了技术发展的第四范式。
2 “开放科学平台”:更好应对第四范式的挑战
在第四范式主导的科技时代,研究团队除了研读技术最前沿研究论文,同时也需要这些论文涉及的实验数据集CONTROL ENGINEERING China版权所有,以便复现实验结果。巨量数据和庞大计算需求给创新带来了新的挑战。传统科学交流仅限于论文和有限的公开数据集,为了促进新范式时代技术发展的持续性,加速科研团队的合作共享,欧美开始兴起了“开放科学”运动:
arXiv:美国物理学博士保罗·金斯帕格1991在美国洛斯阿拉莫斯国家实验室创建了分享arXiv存储库,帮助全球科研团队分享研究论文预印本的全文数字版本。2008年,arXiv突破了50万篇文章的里程碑;2014年底达到100万篇;今天, arXiv每月从全球科研社区获得超过15000篇投稿。一些出版商还免费授予arXiv作者存档同行评审后印本的权限。arXiv也鼓励了更多科研机构,如美国国家医学图书馆仿照arXiv建立了医学领域的PubMed中央存储库。
Papers with Code:相比arXiv,Papers with Code在开放获取领域则更进一步。这个平台不仅分享论文,还鼓励科研团队分享论文工作所对应的代码和数据集。平台同时提供了相关评测环境,可以对提交的算法代码在公共数据集合上做技术排名。Papers with Code不仅创建一个包含论文、代码和数据集的开放集合www.cechina.cn,同时也提供了技术评估方法的免费开放平台,显著促进了相关领域科研团队技术分享与协作,加速科技创新进程。
NASA开源科学计划:为了降低太空科学探索门槛,让更多的科研团队可以参加美国国家航空航天局的科学研究,NASA 提出了开源科学计划 (OSSI)。OSSI的目标是在十年内建立一个开放科学社区,参与的科研团队承诺在研发过程中开放和共享相关软件、数据以及知识(包含算法、论文、文档以及相关辅助信息),并充分利用协作工具和云计算在内的技术工具提高NASA科学进步的速度和质量。
3 大国科技博弈:开放科学平台的重要性
在第四范式时代,爆炸式增长的数据在科技研发工作中扮演了极其重要的角色,它也给经历这一次范式转变中各个学科,尤其是非计算机领域的科研团队带来全新挑战,涉及数据与模型的获取与分享、计算模型与系统模拟的规模膨胀、大规模人工合成数据构造、多模态数据处理与分析的工具、数据抽取、转换、加载、数据可视化与交互、人工智能工具集与算力平台等领域。
今天,新一轮大国竞争很大程度上体现为支撑科技发展的生态系统以及创新体系之间的竞争,开放科学平台已成为促进科技研发重要的基础能力之一。以第四范式驱动的新一代创新体系在欧美已经有先发优势,从政府主导的科研项目到学术界的实践已有十年经验。我国需要在这个领域认识到不足CONTROL ENGINEERING China版权所有,加速构建独立自主的开放科学平台,从而实现科学范式转变阶段科技发展的跟跑、并跑直到领跑。
参考文献:
1.https://www.theguardian.com/books/2012/jul/03/structure-scientific-revolutions-kuhn-review
2.https://www.britannica.com/biography/Thomas-S-Kuhn
3.https://amturing.acm.org/award_winners/gray_3649936.cfm
4.https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/
5.https://en.wikipedia.org/wiki/Metaphysics_(Aristotle)
6.https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
7.https://www.skatelescope.org/8https://arxiv.org/help/stats/2021_by_area