Fix entropy regularization to be more readable

greydanus · Jan 18, 2019 · 85899d7 · 85899d7
1 parent f967681
commit 85899d7
Showing 1 changed file with 2 additions and 2 deletions.
diff --git a/baby-a3c.py b/baby-a3c.py
@@ -92,8 +92,8 @@ def cost_func(args, values, logps, actions, rewards):
     discounted_r = torch.tensor(discounted_r.copy(), dtype=torch.float32)
     value_loss = .5 * (discounted_r - values[:-1,0]).pow(2).sum()
 
-    entropy_loss = (-logps * torch.exp(logps)).sum() # encourage lower entropy
-    return policy_loss + 0.5 * value_loss + 0.01 * entropy_loss
+    entropy_loss = (-logps * torch.exp(logps)).sum() # entropy definition, for entropy regularization
+    return policy_loss + 0.5 * value_loss - 0.01 * entropy_loss
 
 def train(shared_model, shared_optimizer, rank, args, info):
     env = gym.make(args.env) # make a local (unshared) environment