有目的地过度拟合神经网络-Java 学习之路

从技术上讲，考虑到足够复杂的网络和足够的时间，是否总是可以将任何数据集过度拟合到训练误差为0的点？

1 回答

4
神经网络是 universal approximators ，这几乎意味着只要存在从输入到输出的确定性映射f，总有 exists 一组参数（对于足够大的网络）会给出错误 arbitrarly close 到最小可能的错误， but ：
- 如果数据集是无限的（它是一个分布）那么最小可获得的错误（称为贝叶斯风险）可以大于零，而是一些值e（几乎是不同类/值的"overlap"的度量） .
- 如果映射f是非确定性的，则再次存在非零贝叶斯风险e（这是一种数学方式，表示给定点可以具有"multiple"值，具有给定概率）
- 任意关闭 does not 意味着最小化 . 因此，即使最小误差为零，也并不意味着您只需要"big enough"网络就可以达到零，您可能总是最终得到velieery small epsilon（但是只要你愿意，你可以减少它） . 例如，在具有sigmoid / softmax输出的分类任务上训练的网络不能获得最小的对数损失（交叉熵损失），因为您总是可以移动您的激活"closer to 1"或"closer to 0"，但是您无法实现这两者 .
因此，从数学角度来看，答案是 no ，从实际的角度来看 - 在有限训练集和确定性映射的假设下 - 答案是 yes .

特别是当您询问分类的 accuracy ，并且每个数据点都有唯一标签的有限数据集时，可以很容易地手动构建具有100％准确度的神经网络 . 然而，这并不意味着可能的损失最小（如上所述） . 因此，从优化角度来看，您没有获得"zero error" .
回复于 2024-06-02T12:47:56+08:00

有目的地过度拟合神经网络

1 回答

相关问题