In-Context Learning — Implicit Gradient Descent

Task:

Shots:4

Akyürek et al. 2022: Transformers implement gradient descent in their forward pass via attention