数据科学与那个困扰哲学家三百年的“归纳问题”

上回我们聊了聊数据科学里的“假设”,说了算法的优劣取决于它的假设,以及如何区分“观测”和“假设”。那么这些假设是可靠的吗?

我们提到,统计学中的假设本质上是一种归纳假设,统计学本身也依赖于一些公理和假设。这一切从归纳得到的知识是可靠的吗?

关于归纳,这个问题已经困扰了哲学家三百多年,这就是大名鼎鼎的 “休谟问题”

休谟之问:太阳明天会升起吗?

苏格兰哲学家大卫·休谟在十八世纪提出了一个尖锐的问题:我们凭什么相信,基于过去的经验,未来的事情就会按照同样的规律发生?

比如,你每天早上都看到太阳从东边升起。根据这个规律,你归纳出“太阳每天都会从东边升起”这个结论。你也归纳出“明天太阳会从东边升起”。

但休谟问:你有什么逻辑上必然的理由相信明天太阳一定会升起呢?仅仅因为过去无数次发生了,并不能保证它未来一定发生。也许,宇宙的规律在某个时刻会发生变化。

这就是归纳问题的核心:我们对未来的预测和对普遍规律的信念,仅仅是基于习惯和心理预期,而缺乏严格的逻辑基础。

休谟问题一下子就把我们基于经验建立起来的整个科学大厦推到了一个尴尬的境地。如果归纳没有逻辑基础,那科学发现、预测甚至日常生活中的很多判断都显得不那么坚实了。

此时,世界似乎变成了“可信”和“不可信”的二元对立,而我们对于未知的推测,如果没有坚实的依据,似乎就只能停留在 50% 的概率上,这对于追求确定性的科学来说是无法接受的。

量化不确定性的现代解药

然而,现代科学,尤其是统计学,提供了一种巧妙的方式来缓解休谟问题带来的潜在危害。统计学并没有正面回答“为什么未来一定像过去一样”这个问题(因为在逻辑上无法证明),但它提供了一套强大的工具来量化我们对归纳结论的信心程度

统计学不把未知简单地分为“可信”和“不可信”两个极端,而是引入了概率的概念。通过严谨的数学方法,我们可以计算出,在当前观测数据下,某个归纳假设(例如,总体的平均值在一个特定范围内的概率)“有多大的可能性”是正确的。

这就像我们无法确定明天会不会下雨,但气象学可以根据各种数据计算出明天降雨的概率是 80%。这个 80% 并没有“证明”明天一定会下雨,但它给了我们一个量化的置信度,足以指导我们的行为(带伞还是不带伞)。

统计学的这些量化方法,虽然也依赖于一些更基础的假设,比如概率公理,以及我们常用的独立同分布 (i.i.d.) 假设,但它们将休谟问题从一个哲学上的二元对立,转化为了一个可以计算和管理的不确定性问题。我们接受了“可信/不可信不是 50% 对立”这一更精细的视角。

那些最普适的“假设”:最大熵与最小作用量

话说回来,我们为什么会觉得世界是有规律的,并且这些规律在时间和空间上具有一致性呢?为什么基于过去的经验预测未来似乎是有效的?

也许是因为,我们对世界认知的基础,是基于一些最普适、最底层的“假设”,或者说是自然界呈现出的最普遍的现象。

有两个来自不同领域的原理,常常被认为是这样的“第一性原理”:

  • 统计物理学:最大熵原理 (Maximum Entropy Principle)。 在没有更多信息的情况下,一个系统最有可能处于熵最大的状态,也就是最不确定、最混乱的状态。从概率分布的角度看,这意味着系统倾向于采取那些可能性最多的配置。这暗示着,在缺乏特定信息时,我们应该假设事物尽可能地随机或均匀分布,这是一种“无偏见”的假设。
  • 经典物理学:最小作用量原理 (Principle of Least Action)。 物理系统的演化路径总是选择那个使得“作用量”最小的路径。这是一个描述系统如何从一个状态运动到另一个状态的基本原理,它支配着宏观物体的运动。而在机器学习中,我们训练模型的过程,常常就是在寻找那个使得损失函数"作用量"最小的参数集。

有趣的是,这两个原理在统计物理学中找到了优雅的结合点:物理系统的动力学演化(受最小作用量原理等支配)使得系统趋向于平衡状态,而平衡状态从统计推断的角度看恰好是符合最大熵原理的分布。

这两个原理,可以说是在无数次物理过程和统计现象中被反复 “检验” 的最普适的“假设”。我们每时每刻都在与无数的物质交互,而这些交互似乎都遵循着这些底层规律。

奥卡姆剃刀与“暂时真理”

这些最普适的原理,似乎也支撑了奥卡姆剃刀原理 (Occam’s Razor):在同样能解释观测现象的理论中,我们应该选择最简单的那一个。

为什么最简单的理论更有可能是对的?一种解释是,最简单的理论通常引入了最少的额外假设。如果一个简单的假设能够解释大量现象,并且与那些最普适的底层原理(如最大熵)不冲突,那么它可能更接近事物的本质。我们不应该为了解释观测而引入不必要的复杂性。

这引出了科学哲学中的一个重要概念: “暂时真理” (Provisional Truth)

一个科学理论,如果在当前认知框架内,它是可证伪的(也就是存在理论上可以推翻它的实验或观测),但经过了严格的检验仍然没有被证伪,那么我们就可以暂时接受它为“真理”,或者更精确地说,是“在当前认知内最接近真理的理论”。

这种对“暂时真理”的接受,是基于一种更深层次的假设:不可分者同一性——如果在我们的认知中无法区分的两个事物(例如,无法区分“理论是对的”和“理论是错的但我们还没找到证据”),那么在当前阶段我们视它们为同一的。这不是本体论上的“同一”,而是认知论上的“同一”。

康德的先验与人工智能的“注入先验”

回到哲学,康德为了回应休谟问题,提出了人类认知中存在一些 “先验预设” ,这些是人类心智固有的、无需经验证明的认知框架,比如因果律、空间和时间的观念。这些先验预设就像我们大脑的操作系统,使得我们能够以特定的方式组织和理解经验。

这些先验预设,从某种意义上说,也是基于我们对世界最普适规律(如最大熵、最小作用量)的“最有可能”的假设。我们的大脑可能在漫长的演化过程中,内化了这些对世界运行方式的底层假设,从而能够更有效地进行归纳和预测。

这和现代人工智能中的一个重要思想不谋而合:注入先验 (Injecting Prior Knowledge)

早期的 AI 试图让机器完全从“白板”开始学习。但后来人们发现,如果向模型中注入一些关于问题领域的先验知识或假设,算法的性能会大大提升。

比如,在图像识别中,我们假设图像数据具有局部相关性和层次结构,所以我们设计了卷积神经网络 (CNN);在自然语言处理中,我们假设语言具有序列结构和上下文依赖性,所以我们设计了循环神经网络 (RNN) 或 Transformer。

这些模型结构本身就是我们基于对人类认知和领域知识的理解,对数据结构或处理方式所做的 “先验假设” 。这些先验假设就像康德所说的先验预设一样,为算法提供了一个认识世界的框架,使其能够更有效地从数据中学习和泛化。

真理是未完成的训练模型

休谟的“归纳问题”像一面镜子,映照出人类认知的边界与科学的谦卑。数据科学和统计学并未彻底解决这一哲学困境,但它们教会我们如何在不确定的汪洋中航行——不是追求绝对的真理,而是拥抱概率化的智慧,用“暂时真理”指导行动。从康德的先验预设到AI的“注入先验”,人类不断尝试将经验升华为规律,却又清醒地意识到规律的局限性。

或许,科学的真正力量不在于宣称掌握了永恒不变的答案,而在于它直面未知的勇气:我们以最大熵的开放心态容纳不确定性,以最小作用量的简洁原则逼近本质,再以奥卡姆剃刀不断修剪认知的枝蔓。这种动态平衡,恰如人类在宇宙中既渺小又伟大的位置——我们无法断言太阳明天必然升起,却依然怀着理性的信念,为每一个黎明做好准备。

而当我们教会机器“先验”时,是否也在提醒自己:所有对世界的理解,终究是一场基于假设的对话?这场对话中,数据是语言,概率是语法,而真理,或许永远是一个未完成的、等待被迭代的“训练模型”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值