pytorch · JackCaoG · Dec 11, 2023 · Nov 2, 2023 · Nov 6, 2023 · Nov 7, 2023
diff --git a/torch_xla/distributed/xla_backend.py b/torch_xla/distributed/xla_backend.py
@@ -73,10 +73,14 @@ def allreduce(self, tensors, all_reduce_options):
 
   def allgather(self, output_tensors_list, input_tensors, opts=None):
     for input_tensor, output_tensors in zip(input_tensors, output_tensors_list):
+      is_scalar = (input_tensor.dim() == 0)
+      if is_scalar:
+        input_tensor = torch.reshape(input_tensor, (1,))
       result = xm.all_gather(input_tensor, groups=self._mesh, pin_layout=False)
       for i, slice in enumerate(torch.split(result, input_tensor.shape[0])):
         with torch.no_grad():
-          output_tensors[i].copy_(slice)
+          output_tensors[i].copy_(
+              slice if not is_scalar else torch.reshape(slice, ()))
 
     return _ret_work([t for sublist in output_tensors_list for t in sublist])