Skip to content

Commit

Permalink
Update codes
Browse files Browse the repository at this point in the history
  • Loading branch information
ZhiqingXiao committed Dec 3, 2023
1 parent 290c9ab commit d7e6304
Showing 1 changed file with 107 additions and 0 deletions.
107 changes: 107 additions & 0 deletions zh2023/errata/202307.md
Original file line number Diff line number Diff line change
Expand Up @@ -85,6 +85,7 @@ $\mathrm{E}_ {\pi\left(\boldsymbol\theta\right)}\left[\sum\limits_ \mathsfit{a}q

$\mathrm{E}_ {\pi\left(\boldsymbol\theta\right)}\left[\sum\limits_ \mathsfit{a}q_{\pi\left(\boldsymbol\theta\right)}^\left(\mathrm{H}\right)\left(\mathsfit{S}_ t,\mathsfit{a}\right)\nabla\pi\left(\mathsfit{a}\middle\vert{\mathsfit{S}_ t};\boldsymbol\theta\right)+\nabla\left(\alpha^\left(\mathrm{H}\right)\mathrm{H}\left[\pi\left(\cdot\middle\vert\mathsfit{S}_ t;\boldsymbol\theta\right)\right]\right)\right]$


## 第288页代码10-2

```python
Expand Down Expand Up @@ -127,6 +128,40 @@ $\mathrm{E}_ {\pi\left(\boldsymbol\theta\right)}\left[\sum\limits_ \mathsfit{a}q
累积概率


## 第363页倒数第10行

#### 增加文字

记 $\mathsfit{a}_\ast$ 是最优动作。


## 第363页倒数第4行

于任意的正整数 $c_ \mathsfit{a}\ge\underline{c}_ \kappa\left(\mathsfit{a}\right)$ ,有 $q\left(\mathsfit{a}_ \ast\right)\le q\left(\mathsfit{a}\right)+\sqrt{\frac{2\ln\kappa}{c_ \mathsfit{a}}}+\sqrt{\frac{2\ln\kappa }{c_ \mathsfit{a}}}$

#### 改为

于任意的正整数 $c_ \mathsfit{a}>\underline{c}_ \kappa\left(\mathsfit{a}\right)$ ,有 $q\left(\mathsfit{a}_ \ast\right)>q\left(\mathsfit{a}\right)+\sqrt{\frac{2\ln\kappa}{c_ \mathsfit{a}}}+\sqrt{\frac{2\ln\kappa }{c_ \mathsfit{a}}}$


## 第363页倒数第2行

$c_\mathsfit{a}\ge\underline{c}_ \kappa\left(\mathsfit{a}\right)$

#### 改为

$c_\mathsfit{a}>\underline{c}_ \kappa\left(\mathsfit{a}\right)$


## 第365页倒数第6行,第365页第1行(共2处)

$c_\kappa\left(\mathsfit{a}\right)\ge\underline{c}_ \kappa\left(\mathsfit{a}\right)$

#### 改为

$c_\kappa\left(\mathsfit{a}\right)>\underline{c}_ \kappa\left(\mathsfit{a}\right)$


## 第368页算法13-4第2.3步

动作 $A$
Expand All @@ -135,3 +170,75 @@ $\mathrm{E}_ {\pi\left(\boldsymbol\theta\right)}\left[\sum\limits_ \mathsfit{a}q

动作 $\mathsfit{A}$


## 第371页第16行

$1-{\left({\mathrm{E}\left[\mathbfit{\hat{p}}_ i\left(X_ i\right)\right]}\right)^\mathrm{T}}\mathbfit{p}+\left\|\mathbfit{p}\right\|_ 2^2$

#### 改为

$1-2{\left({\mathrm{E}\left[\mathbfit{\hat{p}}_ i\left(X_ i\right)\right]}\right)^\mathrm{T}}\mathbfit{p}+\left\|\mathbfit{p}\right\|_ 2^2$


## 第372页倒数第8行

$2\exp\left(-\frac{2c_ {\kappa,t}\left(\mathsfit{s},\mathsfit{a}\right)\varepsilon^2}{t_ \max^2}\right)=\frac{1}{\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}$

#### 改为

$2\exp\left(-\frac{2c_ {\kappa,t}\left(\mathsfit{s},\mathsfit{a}\right)\varepsilon^2}{g_ \max^2}\right)=\frac{1}{\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}$


## 第372页倒数第6行

$\Pr\left[\left|\sum\limits_ {\mathsfit{s'}}{p_{\kappa,t}\left(\mathsfit{s'}\middle\vert\mathsfit{s},\mathsfit{a}\right)v_ \ast\left(\mathsfit{s'}\right)}-\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{s},\mathsfit{a}\right)v_\ast\left(\mathsfit{s'}\right)}\right|
\ge{g_ \max}\sqrt{\frac{\ln 2\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}{c_ {\kappa,t}\left(\mathsfit{s},\mathsfit{a}\right)}}\right]$

#### 改为

$\Pr\left[\left|\sum\limits_ {\mathsfit{s'}}{p_{\kappa,t}\left(\mathsfit{s'}\middle\vert\mathsfit{s},\mathsfit{a}\right)v_ \ast\left(\mathsfit{s'}\right)}-\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{s},\mathsfit{a}\right)v_\ast\left(\mathsfit{s'}\right)}\right|
\ge{g_ \max}\sqrt{\frac{\ln 2\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}{2c_ {\kappa,t}\left(\mathsfit{s},\mathsfit{a}\right)}}\right]$

## 第372页倒数第4行

$\sqrt{\ln 2\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}\le 2\sqrt{\ln\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}$

#### 改为

$\sqrt{\frac{1}{2}\ln 2\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}\le 2\sqrt{\ln\left|\mathcal{S}\right|\left|\mathcal{A}\right|{k^2}t_ \max^2}$


## 第373页倒数第4行,第374页第2行,第374页第4行第9行第10行第11行第14行第15行第18行,第375页第5行第6行第10行。

$u_{\kappa,t}^{\left(v\right)}\left(\mathsfit{s'}\right)$

#### 改为

$u_{\kappa,t+1}^{\left(v\right)}\left(\mathsfit{s'}\right)$


## 第374页第6行

$q_ {\pi_ \kappa}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)=r\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)-\gamma\sum\limits_{\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)v_ {\pi_\kappa}\left(\mathsfit{s'}\right)}$

#### 改为

$q_ {\pi_ \kappa}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)=r\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)+\gamma\sum\limits_{\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)v_ {\pi_\kappa}\left(\mathsfit{s'}\right)}$


## 第374页第9-11行

$\quad=b_ {\kappa,t}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)+\gamma\left(\sum\limits_ {\mathsfit{s'}}{p_ {\kappa,t}\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)u_ {\kappa,t}^\left(v\right)\left(\mathsfit{s'}\right)}-\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)u_ {\kappa,t}^\left(v\right)\left(\mathsfit{s'}\right)}\right)$

$\quad=b_ {\kappa,t}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)+\gamma\left(\sum\limits_ {\mathsfit{s'}}{\left(p_ {\kappa,t}\left(\mathsfit{s'}\middle\vert{\mathsfit{S}_ {\kappa,t}},\mathsfit{A}_ {\kappa,t}\right)-p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)\right)u_ {\kappa,t}^\left(v\right)\left(\mathsfit{s'}\right)}\right)+$

$\quad\quad\gamma\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)\left(u_ {\kappa,t}^\left(v\right)\left(\mathsfit{s'}\right)-v_ {\pi_ {k\kappa}}\left(\mathsfit{s'}\right)\right)}$

#### 改为

$\quad=b_ {\kappa,t}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)+\gamma\left(\sum\limits_ {\mathsfit{s'}}{p_ {\kappa,t}\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)u_ {\kappa,t+1}^\left(v\right)\left(\mathsfit{s'}\right)}-\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)v_ {\pi_ \kappa}\left(\mathsfit{s'}\right)}\right)$

$\quad=b_ {\kappa,t}\left(\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)+\gamma\sum\limits_ {\mathsfit{s'}}{\left(p_ {\kappa,t}\left(\mathsfit{s'}\middle\vert{\mathsfit{S}_ {\kappa,t}},\mathsfit{A}_ {\kappa,t}\right)-p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)\right)u_ {\kappa,t+1}^\left(v\right)\left(\mathsfit{s'}\right)}+$

$\quad\quad\gamma\sum\limits_ {\mathsfit{s'}}{p\left(\mathsfit{s'}\middle\vert\mathsfit{S}_ {\kappa,t},\mathsfit{A}_ {\kappa,t}\right)\left(u_ {\kappa,t+1}^\left(v\right)\left(\mathsfit{s'}\right)-v_ {\pi_ \kappa}\left(\mathsfit{s'}\right)\right)}$

0 comments on commit d7e6304

Please sign in to comment.