Skip to content

Commit

Permalink
Merge pull request #29 from zhimin-z/Chapter-8-Supplement
Browse files Browse the repository at this point in the history
章节8的补充
  • Loading branch information
zhimin-z authored Mar 21, 2024
2 parents c3522e4 + 5d76ed6 commit 489e951
Showing 1 changed file with 122 additions and 4 deletions.
126 changes: 122 additions & 4 deletions docs/chapter8/chapter8.md
Original file line number Diff line number Diff line change
@@ -1,12 +1,13 @@
# 第8章:遗憾界

*Edit: Hao ZHAN*
*Edit: Hao ZHAN,赵志民*

---

本章的内容围绕学习理论中的遗憾(regret)概念展开(有的教材里也翻译为“悔” )。通常,我们使用超额风险(excess risk)来评估批量学习的分类器性能,而用遗憾来评估在线学习的分类器性能。二者的不同在于,前者衡量的是整个学习过程结束后所得到的分类器性能,可以理解为学习算法**最终输出的模型**与假设空间内**最优模型**的风险之差;而后者衡量的是算法运行过程中,所产生的**模型**与假设空间内**最优模型**的损失之差的****

本章内容较为清晰,需要补充的内容较少,我们只选择对其中的部分概念进行梳理。
本章的内容围绕学习理论中的遗憾(regret)概念展开(有的教材里也翻译为“悔” )。
通常,我们使用超额风险(excess risk)来评估批量学习的分类器性能,而用遗憾来评估在线学习的分类器性能。
二者的不同在于,前者衡量的是整个学习过程结束后所得到的分类器性能,可以理解为学习算法**最终输出的模型**与假设空间内**最优模型**的风险之差;
而后者衡量的是算法运行过程中,所产生的**模型**与假设空间内**最优模型**的损失之差的****



Expand All @@ -32,3 +33,120 @@ $$

由此,我们可以总结出二者之间的两个主要区别。一是超额风险引入了**期望**而遗憾没有;二是超额风险计算是一次性在所有数据上进行的计算,而遗憾是对多次损失的一个**求和**。同时,由于在线学习不依赖于任何分布假设,因此其适用于一系列样本并非 i.i.d ,或者才样子固定分布的情形。



## 2. 【定理补充】随机多臂赌博机遗憾界

**P172**中定理8.3给出了随机多臂赌博机的遗憾界,我们在此基础上对部分证明过程进行补充。

首先,(8.42)给出当$\overline{\mu}_*(p)+\sqrt{\frac{2\ln t}{p}}\le\overline{\mu}_i(q)+\sqrt{\frac{2\ln t}{q}}$成立时,必然有一个成立的三种可能情况。
但是这三种情况并不是互斥的,因此显得很不直观,这里把第二种情况做了细微调整,即:
$$
\overline{\mu}_*(p)+\sqrt{\frac{2\ln t}{p}}\le\mu_*,\mu_*\le\overline{\mu}_i(p)+\sqrt{\frac{2\ln t}{q}},\overline{\mu}_i(p)+\sqrt{\frac{2\ln t}{q}}\le\overline{\mu}_i(q)
$$
此时,构造(8.44)和(8.45)的逻辑就显得更为顺畅。
我们令$\ell=\lceil(2\ln T)/\Delta_i^2\rceil$,则(8.45)转化为:
$$
P(\mu_*\le\mu_i+\sqrt{\frac{2\ln t}{q}})=0,q\ge\ell
$$
代入(8.44),可得:
$$
\begin{aligned}
\mathbb{E}[n_i^T]&\le\lceil\frac{2\ln T}{\Delta_i^2}\rceil+2\sum_{t=1}^{T-1}\sum_{p=1}^{t-1}\sum_{q=\ell}^{t-1}t^{-4} \\
&\le\frac{2\ln T}{\Delta_i^2}+1+2\sum_{t=1}^{T-1}\sum_{p=1}^{t}\sum_{q=1}^{t}t^{-4} \\
&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}
\end{aligned}
$$
根据$p$-级数判别法,当$p=2\gt1$时,级数收敛,因此$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。
至于该级数的具体值,对定理的结论并没有影响,因此我们可以直接将其视为一个常数,然后带入后续的推导过程中。
不过这里出于证明完整性的考虑,我们对此进行简要说明。

$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T}t^{-2}$的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的同学可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)
此处给出另一种在微积分变换中更为常见的缩放方法,即:
$$
\begin{aligned}
\sum_{t=1}^{T-1}t^{-2}&\le1+\int_{1}^{T-1}\frac{1}{x^2}dx \\
&=1+(-\frac{1}{x})|_1^{T-1} \\
&=2-\frac{1}{T}
\end{aligned}
$$
对不等式两边同时取极限,可得:
$$
\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2
$$
代入(8.46),一样可以得到类似(8.47)的结论。

这里依旧沿用书中给出的$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$,代入(8.46)得到遗憾界(8.47),即:
$$
\mathbb{E}[regret]\le\sum_{i=1}^{K}\frac{2\ln T}{\Delta_i^2}+O(1)
$$

此时(8.46)变成:
$$
\mathbb{E}[n_i^T]\le\sum_{i\neq*}^K\frac{2\ln T}{\Delta_i}+(1+\frac{\pi^2}{3}){\Delta_i}=O(K\log T)
$$
观察(8.47)可知,求和公式中的每一项符合对钩函数的构造,即:
$$
f(x)=Ax+\frac{B}{x},x\gt0,A\gt0,B\gt0
$$
这里$x=\Delta_i,A=1+\frac{\pi^2}{3},B=2\ln T$,因此无论$\Delta_i$过大或过小时,都会导致遗憾界的上界变大。
另外,遗憾界跟摇臂的个数$K$呈线形关系,当$K$越大时,遗憾界也会越大。



## 3. 【概念补充】线性赌博机

**P176**的8.3.2节介绍了线性赌博机的概念,我们在此基础上对参数估计部分进行补充。
为了估计线性赌博机的参数,我们把原问题转化为了岭回归问题,即(8.52):
$$
f(w)=(Y-w^T X)^T(Y-w^T X)+\lambda w^T w
$$
为了求得最优解$w^*$,我们令$f'(w)=0$,可推导出(8.53):
$$
\begin{aligned}
&\frac{\partial f(w)}{\partial w}=-2X^T(Y-w^T X)+2\lambda w = 0 \\
\Rightarrow&X^TY = (X^TX + \lambda I)w \\
\Rightarrow&w^* = (X^TX + \lambda I)^{-1}X^TY
\end{aligned}
$$
相比于每次传入新数据$(x_t,y_t)$时从头计算$w_t$,这里巧妙地利用了Sherman-Morrison-Woodbury公式,继而在$O(d^2)$的时间复杂度内完成参数的更新,即(8.55)至(8.57)。
值得注意的是,Sherman-Morrison-Woodbury公式可以将任何形如$(A+uv^T)^{-1}$的矩阵逆转化为可逆矩阵$A$和列向量$u,v$之间的运算,有效地降低了计算量。



## 4. 【定理补充】凸赌博机的遗憾界

**P182**中定理8.5给出了凸赌博机的遗憾界,在证明的开始,作者就对$\eta,\alpha,\delta$的取值进行了限定。
我们可以发现这些取值不是很直观,证明给出的解释也比较分散,特别地,部分取值跟证明略有出入,因此我们在此对其进行补充。

对于步长$\eta$,我们在缩放(8.87)中 $\mathbb{E}[\sum_{t=1}^T\hat f_t(z_t)]-\min_{w\in(1-\alpha)\mathcal{W}}\sum_{t=1}^T\hat f_t(w)$ 时,想要为使用引理8.3创造条件,因此采用步长$\eta=\frac{\Lambda}{l'\sqrt{T}}$。
根据(8.89)的推导,我们可令$\Lambda=\Lambda_2$且$l'=\frac{dc}{\delta}$,此时,将$\eta=\frac{\Lambda_2}{(dc/\delta)\sqrt T}$带入到更新公式(8.76)中便可得到(8.88)。

对于缩减系数$\alpha$与扰动系数$\delta$,我们可以一同考虑这两个系数的取值。
观察(8.91)第一个不等式的形式,我们发现这是一个关于$\delta$的对钩函数:
$$
f(\delta)=A\delta+\frac{B}{\delta}+C
$$
假设$\alpha$的取值与$\delta$无关,那么:
$$
A=3lT,B=dc\Lambda_2\sqrt T,C=2\alpha cT
$$
令$f'(\delta)=0$,可得:
$$
\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_2}{3l}}
$$
此时,可得到$f(\delta)$的最小值:
$$
f(\delta^*)=O(T^{3/4})
$$
如果我们想要加速收敛,那么我们可以将$\alpha$的取值与$\delta$相关联。
从上面的结论可知,当迭代次数$T$足够大时,必然有$\delta\rightarrow0$。
因此,我们不妨取$\alpha=\frac{\delta}{\Lambda_1}$,代入(8.91)中并利用对钩函数$f(\delta)$的性质,可得:
$$
\begin{aligned}
&\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_1\Lambda_2}{3(l\Lambda_1+c)}} \\
&f(\delta^*)=O(T^{3/4})
\end{aligned}
$$
进一步地,我们可以发现,$\delta*$的取值并不唯一,这是因为(8.91)的第二个不等式缩放并非必需。
如果我们取$\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_1\Lambda_2}{3l\Lambda_1+2c}}$,亦可得到更紧致的遗憾界,并保证定理的结论不变。

0 comments on commit 489e951

Please sign in to comment.