diff --git a/docs/source/reference/optim/adagrad.mdx b/docs/source/reference/optim/adagrad.mdx
index 161c14a62..7bc0f3040 100644
--- a/docs/source/reference/optim/adagrad.mdx
+++ b/docs/source/reference/optim/adagrad.mdx
@@ -8,7 +8,10 @@
 Since learning rates are automatically adjusted, AdaGrad does not require manually tuning learning rates.
 
 [[autodoc]] bitsandbytes.optim.Adagrad
+    - __init__
 
 [[autodoc]] bitsandbytes.optim.Adagrad8bit
+    - __init__
 
 [[autodoc]] bitsandbytes.optim.Adagrad32bit
+    - __init__
diff --git a/docs/source/reference/optim/optim_overview.mdx b/docs/source/reference/optim/optim_overview.mdx
index 7f5d221b0..a4b5482a8 100644
--- a/docs/source/reference/optim/optim_overview.mdx
+++ b/docs/source/reference/optim/optim_overview.mdx
@@ -1,10 +1,13 @@
 # Overview
 
 [[autodoc]] bitsandbytes.optim.optimizer.Optimizer8bit
+    - __init__
 
 [[autodoc]] bitsandbytes.optim.optimizer.Optimizer2State
+    - __init__
 
 [[autodoc]] bitsandbytes.optim.optimizer.Optimizer1State
+    - __init__
 
 ## Utilities