透过现象看机器学习奥卡姆剃刀没有免费的午餐丑小鸭定理等

编辑来源：Datawhale

作者：邱锡鹏，复旦大学教授

寄语：本文对 PAC 学习理论、没有免费的午餐定理、丑小鸭定理、奥卡姆剃刀原理等机器学习中有名的理论或定理进行了详细的梳理。

在机器学习中，有一些非常有名的理论或定理，这些理论不仅有助于我们从本质理解机器学习特性，更好地学习相关理论，更重要的是可以有助于我们理解很多生活哲学，比如奥卡姆剃刀原理所延伸的极简主义：如无必要，勿增实体的理念，让我们一起细品吧。

没有免费午餐定理

没有免费午餐定理（NFL）是由 Wolpert 和 Macerday 在最优化理论中提出的。没有免费午餐定理证明：对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效。

如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差。也就是说，不能脱离具体问题来谈论算法的优劣，任何算法都有局限性。必须要“具体问题具体分析”。

没有免费午餐定理对于机器学习算法也同样适用。不存在一种机器学习算法适合于任何领域或任务。如果有人宣称自己的模型在所有问题上都好于其他模型，那么他肯定是在吹牛。

丑小鸭定理（Ugly Duckling Theorem）是 1969 年由渡边慧提出的[Watanable,1969]。“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”。这个定理初看好像不符合常识，但是仔细思考后是非常有道理的。

因为世界上不存在相似性的客观标准，一切相似性的标准都是主观的。

如果从体型大小或外貌的角度来看，丑小鸭和白天鹅的区别大于两只白天鹅的区别；但是如果从基因的角度来看，丑小鸭与它父母的差别要小于它父母和其他白天鹅之间的差别。

奥卡姆剃刀原理是由 14 世纪逻辑学家 William of Occam 提出的一个解决问题的法则：“如无必要，勿增实体“。

奥卡姆剃刀的思想和机器学习上正则化思想十分类似：简单的模型泛化能力更好。如果有两个性能相近的模型，我们应该选择更简单的模型。

因此，在机器学习的学习准则上，我们经常会引入参数正则化来限制模型能力，避免过拟合。

奥卡姆剃刀的一种形式化是最小描述长度（Minimum Description Length，MDL）原则，即对一个数据集𝒟，最好的模型𝑓 ∈ ℱ 是会使得数据集的压缩效果最好，即编码长度最小。

最小描述长度也可以通过贝叶斯学习的观点来解释[MacKay, 2003]。模型𝑓 在数据集𝒟 上的对数后验概率为

其中 − log 𝑝(𝑓) 和 − log 𝑝(𝒟| 𝑓) 可以分别看作是模型𝑓 的编码长度和在该模型下数据集𝒟 的编码长度。也就是说，我们不但要使得模型𝑓 可以编码数据集𝒟，也要使得模型𝑓 尽可能简单。

当使用机器学习方法来解决某个特定问题时，通常靠经验或者多次试验来选择合适的模型、训练样本数量以及学习算法收敛的速度等。

但是经验判断或多次试验往往成本比较高，也不太可靠，因此希望有一套理论能够分析问题难度、计算模型能力，为学习算法提供理论保证，并指导机器学习模型和学�