Loss Landscape

Non-convex loss surfaces arise in deep learning. SGD escapes via noise; Adam adapts per-parameter learning rates. Saddle points dominate at high dimension.

Surface: sum of Gaussian bumps + quadratic. Trajectories show optimizer paths from random init.

LR 0.032 Noise σ 0.05 β₁ (Adam) 0.90 β₂ (Adam) 0.999

SGD path

Adam path

GD (no noise)