探索科学范式:理论基础、实践规范与 21 世纪的挑战
1.什么是科学范式?“范式”的概念最早由美国著名科学哲学家库恩于1962年在《科学革命的结构》中提出,是指正常科学运行的理论基础和实践规范。一群科学科学家所遵循的世界观和行为方式。 “范式”的基本理论和方法随着科学的发展而变化。
新范式的出现,一方面是由于科学研究范式本身的发展,另一方面是外部环境的推动。人类进入21世纪以来,信息技术的快速发展促使新的问题出现,使原有的科学研究范式受到来自各方面的挑战。
图灵奖获得者、关系数据库鼻祖 Jim Gray 在 2007 年于加州山景城举行的 NRC-CSTB(-and Board)会议上发表了最后的演讲《The: Data-》,提出使用第四代数据库科学研究的范式。 “数据密集型”部分就是我们现在所说的“大数据”。吉姆是一位航海爱好者。 2007年1月28日,见面后不久,他驾驶的帆船在茫茫大海中失去联系。
(右)贝尔70岁生日,2004年
吉姆得出结论,科学研究有四种范式:
2. 实证科学
人类最早的科学研究主要特点是记录和描述自然现象,又称“实验科学”(第一范式)。它从原始的钻木取火发展到以伽利略为代表的文艺复兴时期的科学。发展的初级阶段打开了现代科学的大门。
经验科学是“理论科学”的对称体,是指注重对经验事实的描述和清晰具体的实用性的科学,一般较少抽象性和理论性。在研究方法上,以归纳法为主,盲目观察和实验较多。普通科学的早期阶段是经验科学,特别是生物学和化学。
这种方法自17世纪科学家培根阐明以来一直为科学界所采用。他指出,科学必须是实验性的、归纳性的,一切真理都必须建立在大量扎实的事实材料的基础上。他还提出了一套实验科学的“三表”,即寻找因果关系的科学归纳法。方法是先观察,然后假设,然后根据假设进行实验。如果实验结果与假设不一致,则纠正假设并重试实验。
实证科学的主要研究模式是:科学实验。
典型的例子有:伽利略的物理学、动力学。伽利略是第一位将实验引入力学的科学家。他结合实验和数学来确定一些重要的力学定律。 1598年至1591年间,伽利略在仔细观察下落物体的运动后,在比萨斜塔上进行了著名的“两个铁球同时落地”的实验,推翻了亚里士多德的“物体下落速度和重量”的理论。 ”。 “比例原则”纠正了这个延续了1900年的错误结论。牛顿的经典力学、哈维的血液循环理论以及后来的热力学、电学、化学、生物学、地质学等都是实验科学的例子。
3.理论科学
https://bkimg.cdn.bcebos.com/pic/9213b07eca806538f36bf80697dda144ad348226
实证科学研究显然受到当时实验条件的限制,难以对自然现象实现更精确的认识。科学家们开始尝试尽可能简化实验模型,去除一些复杂的干扰,只留下关键因素(例如:“足够光滑”、“足够长”、“空气足够稀薄”),然后通过计算进行总结。这是第二范式:理论科学。
理论是指人类根据已有的经验知识、经验、事实、规则、认知和经过验证的假设,通过概括、演绎推理等方法,对自然和社会现象进行逻辑推理的总结。人类通过观察实际现象或逻辑推论获得一定的理论。如果没有被社会实践或科学实验证明,只能算是一种假设。如果一个假说能够被大量可重复的观察和实验所验证,并得到许多科学家的认可,那么它就可以被称为理论。理论科学注重理论总结和理性概括,强调较高的一般性理论认识而不是直接实践意义的科学。在研究方法上,以演绎法为主要方法,并不局限于描述经验事实。
这种研究范式一直持续到19世纪末,并且趋于完善。牛顿三大定律成功解释了经典力学,麦克斯韦理论成功解释了电磁学,经典物理的建筑很美。但量子力学和相对论出现后,主要采用理论研究,非凡的心智思维和复杂的计算超越了实验设计。随着理论验证的难度和经济投入越来越高,科学研究开始显得力不从心。 。
理论科学的主要研究模型有:数学模型。
典型例子包括:数学中的集合论、图论、数论和概率论;物理学中的相对论、弦理论和圈量子引力论;地理学中的大陆漂移说和板块构造理论;全球变暖在气象学转型理论中;经济学中的微观经济学、宏观经济学和博弈论;计算机科学中的算法信息论和计算机理论。
4.计算科学
20世纪中叶,约翰·冯提出了现代电子计算机体系结构。使用电子计算机模拟科学实验的模型迅速流行。人们可以模拟、模拟复杂的现象,从而推导出越来越复杂的现象。典型案例包括模拟核试验、天气预报等。随着计算机模拟日益取代实验,它们逐渐成为科学研究的常规方法,即第三范式:计算科学。
邮票中的约翰·冯
计算科学,又称科学计算,是与数据模型的构建、定量分析方法以及利用计算机分析和解决科学问题有关的研究领域。在实际应用中,计算科学主要用于对各个科学学科的问题进行计算机模拟和其他形式的计算。典型的问题领域包括:数值模拟、重建和理解已知事件(例如地震、海啸和其他自然灾害),或预测未来或未观察到的条件(例如天气、亚原子粒子的行为);模型拟合通过数据分析、调整模型或利用观测来求解方程(例如石油勘探地球物理学、计算语言学、基于图的网络模型、复杂网络等);计算和数学优化,优化已知解决方案(例如工艺和制造过程、运筹学等)。
计算科学的主要研究模型有:计算机模拟和模拟。
典型的例子包括:热力学和分子问题、信号系统和传统人工智能。
5.数据密集型科学
随着数据的爆炸式增长,计算机不仅能够进行模拟,还能进行分析总结,获得理论。数据密集型范式应该从第三范式中分离出来,成为独特的科学研究范式。也就是说,过去牛顿、爱因斯坦等科学家所做的工作,未来完全可以由计算机来完成。这种科学研究方式被称为第四范式:数据密集型科学。数据密集型科学是从传统假设驱动向基于科学数据探索的科学方法的转变。
https://images.tmtpost.com/uploads/images/2023/08/75f3d3ab8603caeffed73a1664802350_1693221122.png?imageMogr2/auto-orient/strip/interlace/1/quality/85/format/jpg/thumbnail/1400x1169/gravity/center/crop/%211400x1169&ext=.png
这
我们可以看到,第四范式和第三范式都是利用计算机来进行计算的。有什么区别?如今,大多数科研人员应该对第三范式有很好的了解。在研究过程中,专家评委总是会问他们“科学问题是什么?”和“科学假设是什么?”这意味着首先提出可能的理论,然后收集数据。 ,然后通过计算进行验证。基于大数据的第四范式首先拥有大量已知数据,然后计算以前未知的理论。
我们已经知道,大数据时代最大的变化就是放弃对因果关系的渴望,转而关注相关性。换句话说,只要知道“什么”,就不需要知道“为什么”。
关联关系是大数据的本质特征之一。
这颠覆了人类几千年来的思维惯例,据说对人类的认知以及与世界的沟通方式提出了新的挑战。因为人类总是思考事物之间的因果联系,而对基于数据的相关性并不那么敏感;相反,计算机几乎无法自行理解因果关系,但却极其擅长关联分析。这样我们就可以理解第三范式是“人脑+计算机”,人脑是主角;第四范式是“计算机+人脑”,计算机是主角。这将催生新一代人工智能技术。
我们知道,在大多数情况下,寻找事物之间的因果关系总是很困难。我们人类推演的因果关系总是基于过去的理解,获得“确定性”的机制分解,然后建立新的模型进行推导。然而,过去的经验和常识可能是不完整的,甚至可能有意无意地忽略了重要的变量。
举个例子。现在大家都在关注雾霾天气。我们想知道:雾霾是如何发生的以及如何预防?首先,需要在一些“有代表性”的地点建立气象站,收集一些与雾霾形成相关的气象参数。根据现有的机理认识,雾霾天气的形成不仅与大气的来源和化学成分有关,还与地形、风向、温度、湿度和气象因素有关。仅这些有限的参数就已经超出了常规监测的能力。只能进行简化,人为去掉一些看似不重要的参数,只保留一些简单的参数。那些看似不重要的参数在某些特定条件下会发挥至关重要的作用吗?如果考虑不同参数的空间异质性,这些气象站的空间分布是否合理、充分?从这一点来看,如果能够获得更全面的数据,或许就能真正做出更科学的预测。这是第四范式的起点,也可能是解决问题最快、最实用的方法。
现在,我们的手机可以监测温度和湿度,并可以定位空间位置。用于监测大气环境化学和PM2.5功能的传感设备也逐渐走向市场。这些移动监测终端增加了测量的空间覆盖范围。与此同时,大量的数据也产生了。利用这些数据,我们可以分析雾霾的成因,最终做出预测。
计算科学的主要研究模型有:数据挖掘和机器学习,特别是机器学习。
典型的例子包括几乎所有的大数据实践场景,以及基于大数据的人工智能。尤其是当前炙手可热的新一代人工智能研究。过去我们认为很难解决的智能问题,通过使用大数据,比如围棋,就可以轻松解决。同时,大数据将彻底改变未来的商业模式。许多传统行业将利用数据驱动的智能技术来升级和改变原有的商业模式。大数据和机器智能对未来社会的影响是全方位的,对整个社会产生巨大影响,特别是在智能革命的早期阶段。
六、总结
从大数据中探索“你不知道你不知道”的现象和规律,已经成为科学研究不可或缺的一部分。科学从经验科学发展到理论科学再到计算机科学,再到现在的数据密集型科学,科学范式也相应地从经验范式发展到理论范式到计算机模拟范式再到第四范式。每个范式都有其相应的特点和例子。清晰地认识各个范式所包含的特征和实例,对于科学研究第四范式的发展具有重要意义,对于推动数据科学和数据工程也具有重要意义。同时,大数据的发展也将引爆智能革命,深刻影响着今天的每个人。
注:本文参考以下信息
页:
[1]