(To be discussed) (Idea) feature: multi dimensional reward #225

YuriCat · 2021-11-18T15:06:17Z

Do we delete OUTCOME, or use OUTCOME as the first dimension of REWARD if it is defined?

ikki407 · 2021-11-22T03:21:50Z

My first impression was that this change could be closer to the implementation of general reinforcement learning. Also, it can be a simple code 👍
However, I think a user must pay attention to the first dimension of multi-reward is the outcome. How can we set gamma
in games with no outcome? like gamma: [1, 0.99]?

YuriCat · 2021-11-22T05:11:26Z

Yes, gamm: [1, 0.99] will work.
Warnings for over length need to be added.

ikki407 · 2021-11-25T07:58:45Z

handyrl/train.py

@@ -208,7 +208,7 @@ def compose_losses(outputs, log_selected_policies, total_advantages, targets, ba
    entropy = dist.Categorical(logits=outputs['policy']).entropy().mul(tmasks.sum(-1))
    losses['ent'] = entropy.sum()

-    base_loss = losses['p'] + losses.get('r', 0)
+    base_loss = losses['p'] + losses.get('v', 0)


wow, thank you

…onment

experiment: multi-dimensional reward

ce6709f

fix: train value loss

4a2ab4b

ikki407 reviewed Nov 25, 2021

View reviewed changes

YuriCat added 8 commits December 3, 2021 05:55

Merge branch 'develop' into feature/multi_dimensional_reward

ab35544

Merge develop

09bddbd

fix: environment sample tictactoe

380d4e2

fix: remove outcome() from test

074cdf0

fix: parallel tic-tac-toe environment sample for md-reward style

b3ae663

chore: stop using calling terminal_rewards 'outcome' in Geister envir…

c4500b1

…onment

fix: geister environment sample for md-reward setting

3866c74

fix: gamma outside of batches

461993d

YuriCat mentioned this pull request Feb 13, 2022

How to make model consider immediate reward ? #275

Closed

YuriCat added 3 commits February 15, 2022 11:16

Merge branch 'develop' into feature/multi_dimensional_reward

d970061

Merge develop

dc5cc11

Merge develop

493f8a8

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

(To be discussed) (Idea) feature: multi dimensional reward #225

(To be discussed) (Idea) feature: multi dimensional reward #225

YuriCat commented Nov 18, 2021

ikki407 commented Nov 22, 2021

YuriCat commented Nov 22, 2021

ikki407 Nov 25, 2021

(To be discussed) (Idea) feature: multi dimensional reward #225

Are you sure you want to change the base?

(To be discussed) (Idea) feature: multi dimensional reward #225

Conversation

YuriCat commented Nov 18, 2021

ikki407 commented Nov 22, 2021

YuriCat commented Nov 22, 2021

ikki407 Nov 25, 2021

Choose a reason for hiding this comment