Skip to content

Commit

Permalink
Epoch-GD的收敛率
Browse files Browse the repository at this point in the history
  • Loading branch information
zhimin-z committed Jun 29, 2023
1 parent e2b521b commit aa69193
Showing 1 changed file with 30 additions and 5 deletions.
35 changes: 30 additions & 5 deletions docs/chapter7/chapter7.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@ $$



## 2.【定理补充】凸函数确定优化
## 2.【定理补充】凸函数的确定优化

我们发现,书中给出的梯度下降算法将$T$轮迭代的均值作为输出而不是以$\omega_T$作为最终结果。
这是因为在凸函数的梯度下降时,我们设定的步长$\eta$是启发式的,因此每次迭代产生的$\omega'$无法保证是局部最优解。
Expand All @@ -46,7 +46,7 @@ $$



## 3.【定理补充】强凸函数确定优化
## 3.【定理补充】强凸函数的确定优化

**P142**中,在证明定理7.3时,对于(7.19)的讨论这里进行一些补充。
首先,如果目标函数满足$\lambda$-强凸且$\gamma$-光滑,那么根据第一章补充内容中关于强凸函数和光滑性的结论,我们有$\gamma\ge\lambda$。
Expand Down Expand Up @@ -77,9 +77,9 @@ $$



## 4.【定理补充】随机梯度下降
## 4.【定理补充】Epoch-GD的收敛率

**P150**引理7.2给出了随机梯度下降收敛率的上界,我们对其中的一部分推导进行必要补充
**P150**引理7.2给出了Epoch-GD外层循环收敛率的泛化上界,我们对其中部分推导进行必要补充

首先,(7.60)中第二个不等式的推导利用了Cauchy-Schwarz不等式(1.14),即$\|x^Ty\|\le\|x\|\|y\|$。
这里,我们令$x=\underbrace{[1,\cdots,1]}_{T}$,$y=\underbrace{[\|\omega_1-w^*\|,\cdots,\|\omega_T-w^*\|]}_{T}$,则有:
Expand All @@ -104,4 +104,29 @@ $$
第四个不等式利用了定理7.6的结论。

最后,(7.64)中第二个不等式的推导利用了开口向下的二次函数$f(x)=ax^2+bx+c,a\lt0$拥有最大值点$x_0=-\frac{b}{2a}$的事实。
我们令$x=\sqrt{A_T}$,然后取$a=-\frac{\lambda}{2},b=2\sqrt{4l^2\log\frac{m}{\delta}},c=0$,则易知$f(x)$的最大值为$\frac{8l^2}{\lambda}\log\frac{m}{\delta}$,于是便得到了(7.64)中的结论。
我们令$x=\sqrt{A_T}$,然后取$a=-\frac{\lambda}{2},b=2\sqrt{4l^2\ln\frac{m}{\delta}},c=0$,则易知$f(x)$的最大值为$\frac{8l^2}{\lambda}\ln\frac{m}{\delta}$,于是便得到了(7.64)中的结论。

进一步地,**P152**引理7.3利用数学归纳法给出了特定步长和迭代次数下Epoch-GD外层循环收敛率的泛化上界,是我们更便于在**P154**定理7.7中给出了Epoch-GD的收敛率,我们对后者的部分推导进行必要补充。

首先,观察(7.75)可以发现,Epoch-GD外层的迭代次数$k$需要满足$\frac{\alpha}{2}(2^k-1) \le T$,即$k=\lfloor \log_2(\frac{2T}{\alpha}+1)\rfloor$,于是才有了(7.66)中$k^{\dagger}$的构造。

其次,(7.77)的推导利用了函数$f(x)=(1-\frac{1}{x})^x$在$x=\frac{k^{\dagger}}{\delta}\gt1$时单调递增的事实,这里给出更严格的证明。

对函数$f(x)$两边取对数,得到:
$$
\ln f(x)=x\ln(1-\frac{1}{x})
$$
接着对两边分别求导,可得:
$$
\frac{f'(x)}{f(x)}=\ln(1-\frac{1}{x})+\frac{1}{x-1}
$$
易知当$x\gt1$时,$f(x)\gt0$,因此我们只需要关注等式右边在$x\gt1$时的符号。
令$g(x)=\ln(1-\frac{1}{x})+\frac{1}{x-1}$,则有:
$$
g'(x)=\frac{1}{x(x-1)^2}
$$
易知当$x\gt1$时,$g'(x)\lt0$,因此:
$$
g(x)\gt\lim_{x\rightarrow+\infty}g(x)=\lim_{x\rightarrow+\infty}\ln(1-\frac{1}{x})+\lim_{x\rightarrow+\infty}\frac{1}{x-1}=0
$$
综上,当$x\gt1$时,$\frac{f'(x)}{f(x)}=g(x)\gt0$,即$f'(x)\gt0$,因此$f(x)$在$x\gt1$时单调递增。

0 comments on commit aa69193

Please sign in to comment.