Dopamine & Reward Prediction Error

Learning rate α = 0.1

Discount γ = 0.95

Reward magnitude = 1.0

Reward probability = 1.0

Cue at step = 3

TD Learning:
δ = R + γV(s') - V(s)
V(s) ← V(s) + α·δ

Schultz (1997) found that
DA neurons fire to:
• Unexpected reward
• Reward-predicting cue
(not reward, once learned)

Trial: 0
Last RPE: —
V(cue): —
V(reward): —