v0.5

allenzren released this 07 Oct 20:38

· 10 commits to main since this release

e0842e7

Major updates since initial release

Fix double critic initialization; always using target critic
Fix MC return calculation in RWR (following RLPD)
Switch to using terminated and truncated instead of done
Add SAC, RLPD, Cal-QL, and IBRL implementation, tested with halfcheetah results

Minors

Log training steps
Rename transition_dim to action_dim
Fix robomimic lowdim rendering issue

In progress (v1.0)

Updating baseline results
Modifications to DPPO updates with potential performance improvement

Assets 2