스탠퍼드 대학의 연구진이 고전적 통계학의 직관을 깨는 딥러닝의 '양성 과적합(Benign Overfitting)' 현상을 설명하려 시도합니다. 모델이 파라미터를 무한정 늘려 개별 데이터를 완벽히 암기함에도 불구하고, 실제로는 훌륭한 일반화 성능을 보여주는 현상의 배경을 짚어냅니다. 단순한 경험적 방법론을 넘어, 왜 딥러닝 모델이 테스트 환경에서도 우수한 성능을 내는지 그 이론적 기반을 다지는 중요한 글입니다.
번역된 본문
보르헤스는 낙마 사고 이후 모든 것을 지각하고 기억하는 능력을 얻은 '푸네스'라는 인물에 대한 이야기를 썼습니다. 모든 나무의 모든 잎, 매 순간 모든 개울물의 모든 물결을 완벽하게 기억하는 그는 완벽한 경험주의자입니다. 무한한 데이터, 무한한 회상, 무한한 해상도. 하지만 그는 생각할 수 없었습니다. 보르헤스가 이해했듯, 생각한다는 것은 망각을 필요로 하기 때문입니다. 푸네스는 기억만으로 하루 종일을 재구성할 수 있었지만, 옆모습로 본 3시 14분의 개가 정면으로 본 3시 15분의 개와 왜 같은 대상으로 불러야 하는지 이해하지 못했습니다. 나는 [푸네스가] 사고에 그다지 능하지 못했다고 의심합니다. 생각한다는 것은 차이를 무시(또는 망각)하고, 일반화하고, 추상화하는 것입니다. 이레네오 푸네스의 넘쳐나는 세계에는 개별적인 사실들만이 존재할 뿐이었습니다. (호르헤 루이스 보르헤스, '기억의 푸네스', 픽시오네스 (1944)).
이야기의 후반부에서 보르헤스는 17세기에 각각의 개별적인 사물, 즉 모든 돌, 새, 나뭇가지가 자신만의 이름을 갖게 되는 불가능한 언어를 가정했던 로크를 떠올립니다. 푸네스는 이와 유사한 언어를 구상했지만, 너무 일반적이고 모호하다고 느껴 그 아이디어를 폐기했습니다. 딥러닝 이론은 이미 로크의 언어를 만들었으며, 푸네스의 언어를 향해 잘 나아가고 있습니다. 더 많은 파라미터, 더 많은 데이터, 더 깊은 네트워크, 더 많은 컴퓨팅 자원.
균일 수렴(Uniform convergence) 연구자들, 최적화(Optimization) 연구자들, NTK(Neural Tangent Kernel) 연구자들, PAC-Bayes 연구자들, 안정성(Stability) 연구자들, 평균장 이론(Mean-field) 연구자들 등이 모두 같은 문제를 놓고 연구하고 있지만, 아무도 같은 언어를 사용하지 않습니다. 각자 다른 가정 하에서 경계(bound)를 증명하지만, 그 가정들은 서로의 가정 아래에서는 의미가 없어집니다. 오늘날 딥러닝이라는 연금술은 라부아지에 이전의 화학과 같습니다. 즉, 실제로는 작동하지만 그 기반이 되는 이론은 작동하지 않는 실정입니다. 모두가 이것이 문제라고 동의하지만, 해결 가능한 문제라고 믿는 사람은 거의 없습니다.
스탠퍼드의 Diffusion Group에서 저희는 대부분의 동료들이 시기상조이자 근시안적이라고 생각했던 이 질문에 대한 답을 찾기 위해 꽤 오랫동안 노력해 왔습니다. "왜 딥러닝은 작동하는가?" 저희는 답을 찾았다고 생각합니다. 하지만 먼저 왜 이 질문이 어려운지 알기 위해 고전적인 이론이 어떻게 예측하는지부터 살펴보겠습니다.
고전적인 통계적 학습 이론은 편향-분산 트레이드오프(Bias-variance tradeoff)를 가정합니다. 너무 단순하면 데이터 과소적합이 발생하고, 너무 표현력이 높으면 과적합이 발생합니다. 심층 신경망은 매우 높은 표현력을 가지며 과대파라미터화(Overparameterized)되어 있습니다. 즉, 데이터 포인트보다 훨씬 더 많은 파라미터를 가지고 있어 어떠한 형태의 데이터 레이블링이라도 완벽하게 분리해낼 수 있습니다. 훈련 과정에서 네트워크는 노이즈까지 포함하여 훈련 데이터를 완벽하게 내삽(Interpolate)하며 오차를 0으로 만듭니다. 당연히 테스트 오차도 끔찍할 것이라 예상됩니다. (Zhang et al., "Understanding Deep Learning (Still) Requires Rethinking Generalization," Communications of the ACM 64, no. 3 (2021). 2017년의 원본 논문은 표준 아키텍처가 무작위 레이블도 암기할 수 있음을 보여주어, 용량(Capacity)에 기반한 고전적인 일반화 설명이 불충분하다는 것을 입증했습니다.)
하지만 테스트 오차 역시... 매우 낮게 나옵니다. 이를 '양성 과적합(Benign overfitting)'이라고 부릅니다. 이는 통계적 학습 이론의 가장 기본적인 직관을 위배합니다. (Bartlett et al., "Benign Overfitting in Linear Regression," PNAS 117, no. 48 (2020).) 훈련 데이터에 정확히 피팅을 하므로 노이즈가 파괴되었거나 어떤 형태로든 무해해진 것으로 간주됩니다. 신경망으로 편향-분산 트레이드오프를 시각화하려고 하면 예상했던 U자형 곡선이 나오지 않고 오히려 '이중 하강(Double descent)' 현상이 나타납니다. (Belkin et al., "Reconciling Modern Machine Learning Practice and the Bias-Variance Trade-off," PNAS 116, no. 32 (2019).) 모델 복잡도가 증가함에 따라 테스트 오차가 올라가다가, 내삽 임계값(Interpolation threshold)을 지나면서 다시 하락하는 것입니다. 네트워크가 모든 것을 암기할 수 있는 능력을 갖추는 바로 그 순간, 역설적이게도 일반화를 시작하게 됩니다.
데이터를 내삽하는 무한히 많은 해결책이 주어졌을 때, 경사 하강법(Gradient descent)은 일반화되는 해결책(일반적으로 낮은 (\ell_2)-norm, 낮은 핵노름(nuclear norm), 낮은 랭크 근사치 등)을 선택합니다. 이를 '암묵적 편향(Implicit bias)'이라고 부릅니다. (Gunasekar et al., "Implicit Regularization in Matrix Factorization," NeurIPS (2017) 및 Soudry et al., "The Implicit Bias of...
Borges wrote a story about a man named Funes who, after a horseback accident, acquires the ability to perceive and remember everything. Every leaf on every tree. Every ripple on every stream at every moment. He is the perfect empiricist. Infinite data, infinite recall, infinite resolution. And he cannot think. Because thinking, as Borges understood, requires forgetting. Funes could reconstruct entire days from memory but could not understand why the dog at 3:14, seen from the side, should be called the same thing as the dog at 3:15, seen from the front. I suspect [that Funes] was not very good at thinking. To think is to ignore (or forget) differences, to generalize, to abstract. In the teeming world of Ireneo Funes there was nothing but particulars. Jorge Luis Borges, "Funes the Memorious," in Ficciones (1944). Later in the story, Borges conjures Locke, who in the seventeenth century postulated an impossible language in which each individual thing, each stone, each bird and each branch, would have its own name. Funes projected an analogous language but discarded it because it seemed too general to him, too ambiguous. Deep learning theory has built Locke's language and is well on its way to Funes'. More parameters. More data. Deeper networks. More compute. Uniform convergence people, optimization people, NTK people, PAC-Bayes people, stability people, mean-field people, all working on the same problem, none of them speaking the same language, each proving bounds under assumptions that are vacuous under each other's assumptions. Deep learning alchemy today is where chemistry was before Lavoisier : a practice that works, built on a theory that doesn't. Everyone agrees this is a problem. Few believe it is a solvable one. At the Diffusion Group at Stanford, we have been trying for some time to answer this question, which most of our colleagues consider premature and quixotic: why does deep learning work? We think we have an answer. But first, to see why the question is hard, start with what classical theory predicts. Classical statistical learning theory posits the bias-variance tradeoff: too simple and you underfit the data, too expressive and you overfit. Deep neural networks are highly expressive and overparameterized—they have far more parameters than data points; they can shatter any possible labeling of the data. During training, the network interpolates the training data perfectly, including all noise, achieving zero error. Surely, the test error should be catastrophic. Zhang et al. , "Understanding Deep Learning (Still) Requires Rethinking Generalization," Communications of the ACM 64, no. 3 (2021). The original 2017 version demonstrated that standard architectures can memorize random labels, establishing that classical capacity-based explanations of generalization are insufficient. But then, the test error… is also very low. This is called benign overfitting. It violates the most basic intuition in statistical learning theory. Bartlett et al. , "Benign Overfitting in Linear Regression," PNAS 117, no. 48 (2020). You fit the training data exactly, so presumably the noise must have been destroyed, or rendered harmless in some form. Trying to visualize the bias-variance tradeoff with neural networks doesn't yield the expected U-shaped curve, but instead shows double descent. Test error goes up as model complexity increases, then comes back down past the interpolation threshold. Belkin et al. , "Reconciling Modern Machine Learning Practice and the Bias-Variance Trade-off," PNAS 116, no. 32 (2019). At the exact moment the network gains the capacity to memorize everything, it begins to generalize. Gradient descent, given infinitely many solutions that interpolate the data, picks ones that generalize (usually low \(\ell_2\) -norm, low nuclear norm, approximately low-rank). This is called implicit bias . Gunasekar et al. , "Implicit Regularization in Matrix Factorization," NeurIPS (2017), and Soudry et al. , "The Implicit Bias of Gradient Descent on Separable Data," JMLR 19 (2018). Lastly, in cases where the data-generating distribution is highly structured and the network doesn't possess the right inductive bias, the network memorizes the training set, then much later, hundreds of thousands of steps later, suddenly generalizes. This is grokking. Power et al. , "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets," arXiv:2201.02177 (2022). Our explanation is available via preprint here . Litman & Guo, "A Theory of Generalization in Deep Learning," arXiv:2605.01172. It comes with proofs, experiments, and an algorithm that allows you to train on the population risk of any model, loss function, and dataset. The Theory The standard approach treats a neural network as a point in a hypothesis class, attempting to bound its complexity across billions of parameters. We propose a radical Vereinfachung : abandoning the parameter space entirely. Instead, we analyze the network as a dynamical system strictly in output space , focusing on how predictions evolve and where error flows . Stack all training outputs into a vector \(U_S \in \mathbb{R}^{np}\) . Form the Jacobian \(J_S = D_w U_S\) , the matrix of partial derivatives of every output with respect to every parameter. The object that governs everything is the empirical Neural Tangent Kernel (eNTK): Jacot et al. , "Neural Tangent Kernel: Convergence and Generalization in Neural Networks," NeurIPS (2018). $$K_{SS}(w) = J_S(w) J_S(w)^\top$$ A matrix that tells you, for every pair of training points, how much a gradient step on one affects the prediction on the other. Under gradient flow, the training outputs and their gradient evolve as $$\partial_t u = -K_{SS} g$$ $$\partial_t g = -B K_{SS} g$$ Where \(g = \nabla \Phi_S(u)\) is the output gradient and \(B = \nabla^2 \Phi_S(u)\) is the loss Hessian. The test outputs evolve in parallel through the cross-kernel \(K_{QS} = J_Q J_S^\top\) : $$\partial_t U_Q = -K_{QS} g$$ This holds for any differentiable architecture and any convex loss, without any infinite-width or depth limit. The loss itself dissipates as $$\frac{d}{dt}\Phi_S(u(t)) = -g(t)^\top K_{SS}(t) \, g(t) = -\|J_S^\top g\|_2^2$$ Loss decreases at a rate set by the kernel. Decompose \(g\) along eigenvectors \(v_i\) of \(K_{SS}\) with eigenvalues \(\lambda_i\) . For squared loss the residual \(r = u - y\) obeys \(\partial_t r = -M(t)r\) where \(M = K_{SS}/n\) , so the component along \(v_i\) decays as \(e^{-\lambda_i t / n}\) . A mode with eigenvalue \(10\lambda\) is learned ten times faster. On any finite training horizon, modes below some eigenvalue threshold have barely moved. Given infinite time, all modes are interpolated, noise included. In the feature learning regime, the kernel is not fixed. As the parameters move, the eigenvectors rotate and the eigenvalues shift, so signal and noise get rearranged. Here is the kernel rotating (plotted by centering and normalizing its Gram matrix, extracting eigenstructure changes relative to initialization, mapping those changes into a shaded deformed surface): To capture the cumulative effect of the entire training trajectory, we take the time integral of the eNTK: $$\mathcal{W}_S(s,T) = \int_s^T P_g(\tau,s)^\top K_{SS}(\tau) P_g(\tau,s) \, d\tau$$ where \(P_g\) is the propagator of the gradient ODE. The eigenvalue of \(\mathcal{W}_S\) along direction \(\psi_j\) is the total integrated squared reachability of that direction over the entire training window: $$\lambda_j = \int_s^T \|J_S(\tau)^\top P_g(\tau,s) \psi_j\|_2^2 \, d\tau$$ Directions with large \(\lambda_j\) are where training dissipated loss. This is the signal channel , \(\text{range}(\mathcal{W}_S)\) . Directions with \(\lambda_j = 0\) are where training dissipated nothing. This is the reservoir , \(\ker(\mathcal{W}_S)\) . Now define the test transfer operator $$G_Q(T,s) = \int_s^T K_{QS}(\tau) P_g(\tau,s) \, d\tau$$ which propagates the initial gradient to test displacement: \(U_Q