On-Policy Value Function

Definition

On-Policy Value Function

The on-policy value function $V^{π} (s)$ gives the expected return if you start in state $s$ and always act according to policy $π$ :
$V^{π} (s) = E_{τ \sim π} [R (τ) ∣ s_{0} = s]$

Lukas' Notes

On-Policy Value Function

Definition

Backlinks