diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 3f50e65..a0e72c9 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -66,7 +66,7 @@ $$ $$ \langle x-y,y'-y\rangle \le 0 \\ \langle x'-y',y-y'\rangle \le 0 -$$ +$$ 将两个不等式相加可得: $$ \langle (x-x')+(y'-y),y'-y\rangle \le 0 @@ -674,9 +674,9 @@ $$ ## 定理 1: Jensen 不等式 对于任意凸函数 $f,$ 则有: -$$ +$$ f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)] -$$ +$$ 成立。 @@ -684,19 +684,19 @@ $$ $Proof.$ 记 $p(x)$ 为 $X$ 的概率密度函数。由 Taylor 公式及 $f$ 的凸性,$\exists \xi$ s.t. -$$ +$$ \begin{aligned} f(x) &=f(\mathbb{E}[X])+f^{\prime}(\mathbb{E}[X])(x-\mathbb{E}[X])+\frac{f^{\prime \prime}(\xi)}{2}(x-\mathbb{E}[X])^{2} \\ & \geq f(\mathbb{E}[X])+f^{\prime}(\mathbb{E}[X])(x-\mathbb{E}[X]) \end{aligned} -$$ +$$ 对上式取期望: -$$ +$$ \begin{aligned} \mathbb{E}[f(X)]=\int p(x) f(x) d x & \geq f(\mathbb{E}[X]) \int p(x) d x+f^{\prime}(\mathbb{E}[X]) \int p(x)(x-\mathbb{E}[X]) d x \\ &=f(\mathbb{E}[X]) \end{aligned} -$$ +$$ 原不等式得证。 @@ -704,21 +704,21 @@ $$ ## 定理 2: Hölder 不等式 $\forall p, q \in \mathbb{R}^{+}, \frac{1}{p}+\frac{1}{q}=1$,则有: -$$ +$$ \mathbb{E}[|X Y|] \leq\left(\mathbb{E}\left[|X|^p\right]\right)^{\frac{1}{p}}\left(\mathbb{E}\left[|Y|^q\right]\right)^{\frac{1}{q}} -$$ +$$ 成立。 $Proof.$ 记 $f(x), g(y)$ 分别为 $X,Y$ 的概率密度函数, -$$ +$$ M=\frac{|x|}{(\int_X|x|^pf(x)dx)^{\frac{1}{p}}}, N=\frac{|y|}{(\int_Y|y|^qg(y)dy)^{\frac{1}{q}}} -$$ +$$ 代入 Young 不等式: -$$ +$$ MN\leq \frac{1}{p}M^p+\frac{1}{q}N^q -$$ +$$ 对这个不等式两边同时取期望: $$ \begin{aligned} @@ -727,7 +727,7 @@ $$ &=\frac{1}{p}+\frac{1}{q}\\ &= 1 \end{aligned} -$$ +$$ 原不等式得证。 @@ -735,33 +735,33 @@ $$ ## 定理 3: Cauchy-Schwarz 不等式 特别的,$p = q = 2$ 时,Hölder不等式退化为 Cauchy-Schwarz 不等式: -$$ +$$ \mathbb{E}[|X Y|] \leq \sqrt{\mathbb{E}\left[X^{2}\right] \mathbb{E}\left[Y^{2}\right]} -$$ +$$ ## 定理 4: Lyapunov 不等式 $\forall 0\lt r \leq s$,有: -$$ +$$ \sqrt[r]{\mathbb{E}\left[|X|^{r}\right]} \leq \sqrt[s]{\mathbb{E}\left[|X|^{s}\right]} -$$ +$$ $Proof.$ 由Hölder不等式: $\forall p \geq 1:$ -$$ +$$ \begin{aligned} \mathbb{E}\left[|X|^{r}\right] &=\mathbb{E}\left[|X \times 1|^{r}\right] \\ & {\leq}\left(\mathbb{E}\left[\left(|X|^{r}\right)^p\right]\right)^{1 / p} \times 1 \\ &=\left(\mathbb{E}\left[|X|^{r p}\right]\right)^{1 / p} \end{aligned} -$$ +$$ 记 $s=r p \geq r,$ 则 : -$$ +$$ \mathbb{E}\left[|X|^{r}\right] \leq\left(\mathbb{E}\left[|X|^{s}\right]\right)^{r / s} -$$ +$$ 原不等式得证。 @@ -769,21 +769,21 @@ $$ ## 定理 5: Minkowski 不等式 $\forall p \geq 1,$ 有: -$$ +$$ \sqrt[p]{\mathbb{E}\left[|X+Y|^p\right]} \leq \sqrt[p]{\mathbb{E}\left[|X|^p\right]}+\sqrt[p]{\mathbb{E}\left[|Y|^p\right]} -$$ +$$ $Proof.$ 由三角不等式及Hölder不等式: -$$ +$$ \begin{aligned} \mathbb{E}\left[|X+Y|^p\right] & {\leq}\mathbb{E}\left[(|X|+|Y|)|X+Y|^{p-1}\right] \\ &= \mathbb{E}\left[|X||X+Y|^{p-1}\right]+\mathbb{E}\left[|Y||X+Y|^{p-1}\right] \\ & {\leq}\left(\mathbb{E}\left[|X|^p\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q}+\left(\mathbb{E}\left[|Y|^p\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q} \\ &= \left[\left(\mathbb{E}\left[|X|^p\right]\right)^{1 / p}+\left(\mathbb{E}\left[|Y|^p\right]\right)^{1 / p}\right] \frac{\mathbb{E}\left[|X+Y|^p\right]}{\left(\mathbb{E}\left[|X+Y|^p\right]\right)^{1 / p}} \end{aligned} -$$ +$$ 化简上式即得证。 @@ -791,21 +791,21 @@ $$ ## 定理 6: Bhatia-Davis 不等式 对 $X \in [a,b]$, 则有: -$$ +$$ \mathbb{V}[X] \leq (b - \mathbb{E}[X])(\mathbb{E}[X] - a) \leq \frac{(b-a)^2}{4} -$$ +$$ 成立。 $Proof.$ 因为 $a\leq X\leq b$,所以有: -$$ +$$ \begin{aligned} 0&\leq \mathbb{E}[(b-X)(X-a)] \\ &= -\mathbb{E}[X^2]-ab+(a+b)\mathbb{E}[X] \end{aligned} $$ 因此, -$$ +$$ \begin{aligned} \mathbb{V}[X] &= \mathbb{E}[X^2]-\mathbb{E}[X]^2 \\ &\leq -ab+(a+b)\mathbb{E}[X]-\mathbb{E}[X^2] \\ @@ -839,23 +839,23 @@ $$ ## 定理 8: Markov 不等式 若 $X \geq 0, \forall \varepsilon\gt 0,$ 有: -$$ +$$ P(X \geq \varepsilon) \leq \frac{\mathbb{E}[X]}{\varepsilon} -$$ +$$ $Proof.$ -$$ +$$ \mathbb{E}[X]=\int_{0}^{\infty} x p(x) d x \geq \int_{\varepsilon}^{\infty} x p(x) d x \geq \int_{\varepsilon}^{\infty} \varepsilon p(x) d x=\varepsilon P(X \geq \varepsilon) -$$ +$$ ## 定理 9: Chebyshev 不等式 $\forall \varepsilon\gt 0,$ 有: -$$ +$$ P(|X-\mathbb{E}[X]| \geq \varepsilon) \leq \frac{\mathbb{V}[X]}{\varepsilon^{2}} -$$ +$$ $Proof.$ @@ -869,24 +869,24 @@ $$ ## 定理 10: Cantelli 不等式 $\forall \varepsilon\gt 0,$ 有 : -$$ +$$ P(X-\mathbb{E}[X] \geq \varepsilon) \leq \frac{\mathbb{V}[X]}{\mathbb{V}[X]+\varepsilon^{2}} -$$ +$$ $Proof.$ 记 $Y=X-\mathbb{E}[X],$ 则对 $\forall \lambda \geq 0$ 有 : -$$ +$$ \begin{aligned} P(X-\mathbb{E}[X] \geq \varepsilon) &=P(Y+\lambda \geq \varepsilon+\lambda) \\ &=P\left((Y+\lambda)^{2} \geq(\varepsilon+\lambda)^{2}\right) \\ & \quad \leq \frac{\mathbb{E}\left[(Y+\lambda)^{2}\right]}{(\varepsilon+\lambda)^{2}}=\frac{\mathbb{V}[X]+\lambda^{2}}{(\varepsilon+\lambda)^{2}} \end{aligned} -$$ +$$ 通过求导可知,上式右端在 $\lambda=\frac{\mathrm{V}[X]}{\varepsilon}$ 时取得最小值 $\frac{\mathrm{V}[X]}{\mathrm{V}[X]+\varepsilon^{2}},$ 于是: -$$ +$$ P(X-\mathbb{E}[X] \geq \varepsilon) \leq \frac{\mathbb{V}[X]}{\mathbb{V}[X]+\varepsilon^{2}} -$$ +$$ 原不等式得证。 Note: Cantelli 不等式是 Chebyshev 不等式的加强版,也称单边 Chebyshev 不等式。 @@ -897,43 +897,43 @@ Note: Cantelli 不等式是 Chebyshev 不等式的加强版,也称单边 Cheby ## 定理 11: Chernoff 不等式(Chernoff 界) $\forall \lambda\gt 0, \varepsilon\gt 0,$ 有 : -$$ +$$ P(X \geq \varepsilon) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} -$$ +$$ $\forall \lambda\lt 0, \varepsilon\gt 0,$ 有 : -$$ +$$ P(X \leq \varepsilon) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} -$$ +$$ $Proof.$ 应用 Markov 不等式,有: -$$ +$$ P(X \geq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}}, \lambda\gt 0, \varepsilon\gt 0 $$ -$$ +$$ P(X \leq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}}, \lambda\lt 0, \varepsilon\gt 0 -$$ +$$ ## 定理 11: Chernoff 不等式 (乘积形式) -对m个独立同分布(i.i.d.)的随机变量$x_i \in [0, 1], i \in [m]$,令$X = \sum_{i=1}^m X_i$,$\mu>0$且$r\leq 1$ +对m个独立同分布的随机变量$x_i \in [0, 1], i \in [m]$,令$X = \sum_{i=1}^m X_i$,$\mu>0$且$r\leq 1$ 如果$\mathbb{E}[x_i]\leq \mu$对于所有$i\leq m$都成立,有: -$$ +$$ P(X \geq (1+r)\mu m) \leq e^{-\frac{r^2\mu m}{3}}, r \geq 0 -$$ -$$ +$$ +$$ P(X \leq (1-r)\mu m) \leq e^{-\frac{r^2\mu m}{2}}, r \geq 0 -$$ +$$ $Proof.$ 应用 Markov 不等式,有: -$$ +$$ P(X\geq (1+r)\mu m) = P((1+r)^X \geq (1+r)^{(1+r)\mu m}) \leq \frac{\mathbb{E}[(1+r)^X]}{(1+r)^{(1+r)\mu m}} -$$ +$$ 根据$x_i$的独立性可知: $$ \mathbb{E}[(1+r)^X] = \prod_{i=1}^m \mathbb{E}[(1+r)^{x_i}] \leq \prod_{i=1}^m \mathbb{E}[1+rx_i] \leq \prod_{i=1}^m 1+r\mu \leq e^{r\mu m} @@ -984,41 +984,41 @@ $$ ### 引理1 (Hoeffding 定理) 若$\mathbb{E}[X] = 0, X\in[a,b]$,则$\forall \lambda \in \mathbb{R}$有: -$$ +$$ \mathbb{E}[e^{\lambda X}] \leq \exp\left( \frac{\lambda^2(b-a)^2}{8} \right) -$$ +$$ $Proof.$ 由于$e^x$为凸函数,则显然$\forall x\in[a,b]$: -$$ +$$ e^{\lambda x} \leq \frac{b-x}{b-a}e^{\lambda a} + \frac{x-a}{b-a}e^{\lambda b} -$$ +$$ 对上式取期望有: -$$ +$$ \mathbb{E}[e^{\lambda X}] \leq \frac{b-\mathbb{E}[X]}{b-a}e^{\lambda a} + \frac{\mathbb{E}[X]-a}{b-a}e^{\lambda b} = \frac{be^{\lambda a} - ae^{\lambda b}}{b - a} -$$ +$$ 记$\theta = -\frac{a}{b-a} \gt 0, h = \lambda(b-a)$,则: -$$ +$$ \frac{be^{\lambda a} - ae^{\lambda b}}{b - a} = [1-\theta + \theta e^{h}]e^{-\theta h} = e^{\ln(1-\theta + \theta e^{h})}e^{-\theta h} = e^{\ln(1-\theta + \theta e^{h}) -\theta h} -$$ +$$ 记函数$\varphi(\theta, h) = \ln(1-\theta + \theta e^{h}) -\theta h$,注意到实际上$a$也是变量,因而$\theta$ 与$h$无关。考察关于$h$的偏导数: -$$ +$$ \frac{\partial \varphi}{\partial h} = \frac{\theta e^h}{1 - \theta + \theta e^h} - \theta -$$ +$$ 显然有:$\frac{\partial \varphi}{\partial h}|_{h=0^+} = 0$。同理使用链式法则可计算: -$$ +$$ \frac{\partial^2 \varphi}{\partial h^2} = \frac{\theta e^h(1 - \theta + \theta e^h) - \theta^2e^{2h}}{(1 - \theta + \theta e^h)^2} = \frac{\theta e^h}{1 - \theta + \theta e^h}(1- \frac{\theta e^h}{1 - \theta + \theta e^h}) \leq \frac{1}{4} -$$ +$$ 由泰勒公式可得: -$$ +$$ \varphi(\theta, h) \leq 0 + 0 + \frac{h^2}{8} = \frac{\lambda^2(b-a)^2}{8} -$$ +$$ 原不等式得证。 @@ -1026,25 +1026,25 @@ $$ ### Hoeffding 不等式 对 $m$ 个独立随机变量 $X_{i} \in\left[a_{i}, b_{i}\right],$ 令 $\bar{X}$ 为 $X_{i}$ 均值,则有: -$$ +$$ P(\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon) \leq \exp \left(-\frac{2 m^{2} \varepsilon^{2}}{\sum_{i=1}^{m}\left(b_{i}-a_{i}\right)^{2}}\right) -$$ +$$ $Proof.$ 由 Markov 不等式知, $\forall \lambda\gt 0$ : -$$ +$$ P(\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon)=P\left(e^{\lambda(\bar{X}-\mathbb{E}[\bar{X}])} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda(\bar{X}-\mathbb{E}[\bar{X}])}\right]}{e^{\lambda \varepsilon}} -$$ +$$ 由独立性及 Hoeffding 引理: -$$ +$$ \frac{\mathbb{E}\left[e^{\lambda(\bar{X}-\mathbb{E}[\bar{X}])}\right]}{e^{\lambda \varepsilon}}=e^{-\lambda \varepsilon} \prod_{i=1}^{m} \mathbb{E}\left[e^{\lambda\left(X_{i}-\mathbb{E}\left[X_{i}\right]\right) / m}\right] \leq e^{-\lambda \varepsilon} \prod_{i=1}^{m} \exp \left(\frac{\lambda^{2}\left(b_{i}-a_{i}\right)^{2}}{8 m^{2}}\right) -$$ +$$ 考察二次函数 $g(\lambda)=-\lambda \varepsilon+\frac{\lambda^{2}}{8 m^{2}} \sum_{i=1}^{m}\left(b_{i}-a_{i}\right)^{2},$ 容易可求得最小值 $-\frac{2 m^{2} \varepsilon^{2}}{\sum_{i=1}^{m}\left(b_{i}-a_{i}\right)^{2}}$ 于是: -$$ +$$ P((\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon)) \leq \exp (g(\lambda)) \leq \exp \left(-\frac{2 m^{2} \varepsilon^{2}}{\sum_{i=1}^{m}\left(b_{i}-a_{i}\right)^{2}}\right) -$$ +$$ 定理得证。 Note:注意这里没有限定随机变量同分布,下同。可以使用 Hoeffding 不等式解释集成学习的原理。 @@ -1056,9 +1056,9 @@ Note:注意这里没有限定随机变量同分布,下同。可以使用 Hoe 上述使用 Markov 不等式的技术称为 Chernoff 界的一般技巧,得到的界称之为 Chernoff Bound。其核心即是对其矩母函数进行控制。于是有定义: **定义1** (随机变量的次高斯性). 若一个期望为零的随机变量$X$其矩母函数满足,$\forall \lambda \in \mathbb{R}^+$: -$$ +$$ \mathbb{E}[e^{\lambda X}] \leq \frac{\sigma^2\lambda^2}{2} -$$ +$$ 则称$X$服从参数为$\sigma$的次高斯分布。 实际上 Hoeffding 引理中的随机变量$X$服从$\frac{(b-a)}{2}$的次高斯分布, Hoeffding 引理也是次高斯分布的直接体现。次高斯性还有一系列等价定义方式,这里不是本笔记讨论的重点。 @@ -1071,15 +1071,15 @@ $$ 显然,不是所有常见的随机变量都是次高斯的,例如指数分布。为此可以扩大定义: **定义2** (随机变量的次指数性). 若非负的随机变量$X$其矩母函数满足,$\forall \lambda \in (0,a)$: -$$ +$$ \mathbb{E}[e^{\lambda X}] \leq \frac{a}{a - \lambda} -$$ +$$ 则称$X$服从参数为$(\mathbb{V}[X], 1/a)$的次指数分布。 同样的,次高斯性还有一系列等价定义方式。一种不直观但是更常用的定义方式如下:$\exists (\sigma^2, b)$,s.t.$\forall |s| \lt 1/b$有: -$$ +$$ \mathbb{E}[e^{s(X−\mathbb{E}[X])}]\leq \exp \left( \frac{s^2\sigma^2}{2} \right) -$$ +$$ 常见的次指数分布包括:指数分布,Gamma 分布,以及**任何的有界随机变量**。 类似地,次指数分布也对加法是保持的:如果$X_1,X_2$分别是服从$(\sigma_1^2,b_1)$, $(\sigma_2^2,b_2)$的次指数分布,那么$X_1+X_2$是服从$(\sigma_1^2+\sigma_2^2, \max(b_1,b_2))$的次指数分布。 @@ -1091,26 +1091,26 @@ $$ ## 定理 14. McDiarmid 不等式 对 $m$ 个独立随机变量 $X_{i} \in \mathcal{X},$ 函数 $f$ 为 差有界的,则 $\forall \varepsilon\gt 0$ 有: -$$ +$$ P\left(f\left(X_{1}, \cdots, X_{m}\right)-\mathbb{E}\left[f\left(X_{1}, \cdots, X_{m}\right)\right] \geq \varepsilon\right) \leq \exp \left(-\frac{\varepsilon^{2}}{2 \sum_{i=1}^{m} c_{i}^{2}}\right) -$$ +$$ $Proof.$ 构造一个鞅差序列: -$$ +$$ D_j = \mathbb{E}[f(X)|X_1,\cdots,X_j] - \mathbb{E}[f(X)|X_1,\cdots,X_{j-1}] -$$ +$$ 容易验证: -$$ +$$ f(X) - \mathbb{E}[f(X)]=\sum_{i=1}^mD_i -$$ +$$ 且 $f$ 为差有界的,则满足 Azuma-Hoeffding 引理,代入则得到: -$$ +$$ P(f(X_1, \cdots, X_m) - \mathbb{E}[f(X_1, \cdots, X_m)] \geq \varepsilon) \leq \exp\left( -\frac{\varepsilon^2}{2\sum_{i=1}^mc_i^2} \right) -$$ +$$ 则原不等式得证。 @@ -1120,9 +1120,9 @@ $$ 对 $m$ 个独立随机变量 $X_{i},$ 令 $\bar{X}$ 为 $X_{i}$ 均值, 若 $\exists b\gt 0,$ s.t.$|X-\mathbb{E}[X]|\lt b$ 则有, -$$ +$$ P(\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon) \leq \exp \left(-\frac{m \varepsilon^{2}}{2\left(\sum_{i=1}^{m} \mathbb{V}\left[X_{i}\right] / m+b \varepsilon / 3\right)}\right) -$$ +$$ 成立。 Remark: Bernstein 不等式实际是 Hoeffding 不等式的加强版。对于个各随机变量独立的条件可以放宽为弱独立结论仍成立。 @@ -1130,15 +1130,15 @@ Remark: Bernstein 不等式实际是 Hoeffding 不等式的加强版。对于个 上述几个 Bernstein 类集中不等式,更多的是在非渐近观点下看到的大数定律的表现。也即是,这些不等式更多刻画了样本均值如何集中在总体均值的附近。 如果把样本均值看成是样本(数据点的函数),即令 $f\left(X_{1}, \cdots, X_{m}\right)=$ $\sum_{i=1}^{m} X_{i} / m,$ 那么 Bernstein 类不等式刻画了如下的概率: -$$ +$$ P\left(f\left(X_{1}, \cdots, X_{m}\right)-\mathbb{E}\left[f\left(X_{1}, \cdots, X_{m}\right)\right] \geq \varepsilon\right) -$$ +$$ 为考察在某个泛函上也具有类似 Bernstein 类集中不等式的形式,很显然 f 需要满足一些很好的性质。这类性质有很多,但是我们尝试在一个最常见的约束下进行尝试: **Definition 3** (差有界). 函数 $f: \mathcal{X}^{m} \rightarrow \mathbb{R}, \forall i, \exists c_{i}\lt \infty,$ s.t. -$$ +$$ \left|f\left(x_{1}, \cdots, x_{i}, \cdots, x_{m}\right)-f\left(x_{1}, \cdots, x_{i}^{\prime}, \cdots, x_{m}\right)\right| \leq c_{i} -$$ +$$ 则称 f 是差有界的。 为此,需要引入一些新的数学工具。 @@ -1151,42 +1151,42 @@ $$ 则称序列 $Z_i$为离散鞅。 **引理 2** (Azuma-Hoeffding 定理). 对于鞅 $Z_{i}, \mathbb{E}\left[Z_{i}\right]=\mu, Z_{1}=\mu_{\circ}$ 作鞅差序列 $X_{i}=Z_{i}-Z_{i-1}, \quad$ 且 $\left|X_{i}\right| \leq c_{i}$ 。 则 $\forall \varepsilon\gt 0$ 有: -$$ +$$ P\left(Z_{m}-\mu \geq \varepsilon\right)=P\left(\sum_{i=1}^{m} X_{i} \geq \varepsilon\right) \leq \exp \left(-\frac{\varepsilon^{2}}{2 \sum_{i=1}^{m} c_{i}^{2}}\right) -$$ +$$ $Proof.$ 首先,若 $\mathbb{E}[X \mid Y]=0,$ 则有 $\forall \lambda\gt 0:$ -$$ +$$ \mathbb{E}\left[e^{\lambda X} \mid Y\right] \leq \mathbb{E}\left[e^{\lambda X}\right] -$$ +$$ 于是,由恒等式$\mathbb{E}[\mathbb{E}[X \mid Y]]=\mathbb{E}[X]$及 Chernoff 一般性技巧 $\forall \lambda\gt 0$: -$$ +$$ \begin{aligned} P\left(Z_{m}-\mu\geq\varepsilon\right) &\geq e^{-\lambda \varepsilon} \mathbb{E}\left[e^{\lambda\left(Z_{m}-\mu\right)}\right] \\ & = e^{-\lambda \varepsilon} \mathbb{E}\left[\mathbb{E}\left[e^{\lambda\left(Z_{m}-\mu\right)} \mid \mathcal{F}_{m-1}\right]\right] \\ & = e^{-\lambda \varepsilon} \mathbb{E}\left[e^{\lambda\left(Z_{m-1}-\mu\right)}\mathbb{E}\left[e^{\lambda (Z_{m}-Z_{m-1})} \mid \mathcal{F}_{m-1}\right]\right] \end{aligned} -$$ +$$ 又因为 $\{X_{i}\}$ 为鞅差序列,则 $\mathbb{E}\left[X_{m} \mid \mathcal{F}_{m-1}\right]=0, \mathbb{E}\left[X_{i}\right]=0$ ,再结合不等式$\mathbb{E}\left[e^{\lambda X} \mid Y\right] \leq \mathbb{E}\left[e^{\lambda X}\right]$及 Hoeffding 引理,有: -$$ +$$ \begin{aligned} P\left(Z_{m}-\mu \geq \varepsilon\right) & \leq e^{-\lambda \varepsilon} \mathbb{E}\left[e^{\lambda\left(Z_{m-1}-\mu\right)}\right] \mathbb{E}\left[e^{\lambda X_{n}}\right] \\ & {\leq} e^{-\lambda \varepsilon} \mathbb{E}\left[e^{\lambda\left(Z_{m-1}-\mu\right)}\right] \exp \left(\frac{\lambda^{2} c_{m}^{2}}{2}\right) \end{aligned} -$$ +$$ 迭代上不等式可得: -$$ +$$ P\left(Z_{m}-\mu \geq \varepsilon\right) \leq e^{-\lambda \varepsilon} \prod_{i=1}^{m} \exp \left(\frac{\lambda^{2} c_{i}^{2}}{2}\right) -$$ +$$ 则显然当 $\lambda=\frac{\varepsilon}{\sum_{i=1}^{m} c_{i}^{2}}$ 时,上式右端取得极小值: -$$ +$$ P\left(Z_{m}-\mu \geq \varepsilon\right) \leq \exp \left(-\frac{\varepsilon^{2}}{2 \sum_{i=1}^{m} c_{i}^{2}}\right) -$$ +$$ 原不等式得证。 @@ -1194,13 +1194,13 @@ $$ ## 定理 16: Bernstein 不等式 首先,我们定义一下参数为$b \gt 0$的单边 Bernstein 条件(One-sided Bernstein's condition),即随机变量$X$满足: -$$ +$$ \mathbb{E} [e^{\lambda(X−EX)}] \leq \exp(\frac{\mathbb{V}[X]\lambda^2/2}{1 −b\lambda}), \forall \lambda ∈ [0,1/b) -$$ +$$ 若独立同分布的随机变量$X_1, \ldots, X_n \sim X$均满足单边 Bernstein 条件,这对于任意$\varepsilon \gt 0,\delta \in [0,1]$,有如下不等式成立: -$$ +$$ P(\frac{1}{n} \sum_{i=1}^{n}{X_i} - \mathbb{E}[X] \geq \varepsilon) \leq \exp \left(-\frac{n \varepsilon^{2}}{2(\mathbb{V}\left[X] + b \varepsilon\right)}\right) -$$ +$$ @@ -1376,9 +1376,9 @@ $$ ## 定理 18: Slud 不等式 若$X\sim B(m,p)$,则有: -$$ +$$ P(\frac{X}{m} \geq \frac{1}{2}) \geq \frac{1}{2}\left[1 - \sqrt{1-\exp\left(-\frac{m\varepsilon^{2}}{1-\varepsilon^{2}}\right)}\right] -$$ +$$ 其中$p = (1-\varepsilon)/2$。 $Proof.$ @@ -1411,38 +1411,38 @@ JL引理可以非常通俗地表达为:压缩N个向量只需要$O(\logN)$维 首先借用上述工具考察一个示例: ### $\chi_m^2$随机变量的集中度 若随机变量$Z\sim \chi_m^2$,则$\forall \varepsilon \in (0, 3)$有: -$$ +$$ P\left((1-\varepsilon) \leq \frac{Z}{m} \leq (1 + \varepsilon)\right) \leq \exp(-\frac{m\varepsilon^2}{6}) -$$ +$$ $Proof.$ 若$X\sim N(0,1)$,则显然$\forall \lambda \gt 0$: -$$ +$$ \mathbb{E}[e^{-\lambda X^2}] \leq 1 - \lambda\mathbb{E}[X^2] + \frac{\lambda^2}{2}\mathbb{E}[X^4] = 1 - \lambda + \frac{3}{2}\lambda^2 \leq e^{-\lambda + \frac{3}{2}\lambda^2} -$$ +$$ 类似地使用 Chernoff 一般性技巧,在$\lambda = \varepsilon/3$时可以证得左端不等式。 对于右端不等式,考察矩母函数$\forall \lambda \lt 1/2$: -$$ +$$ \mathbb{E}[e^{\lambda X^2}] = (1-2\lambda)^{-m/2} -$$ +$$ 再次使用 Chernoff 一般性技巧,取$\lambda = \varepsilon/6$即可得证。 Note: 实际上可以通过卡方分布的次指数性得到一个更强且更普适的界$\forall \varepsilon \in (0, 4)$: -$$ +$$ P\left((1-\varepsilon) \leq \frac{Z}{m} \leq (1 + \varepsilon)\right) \leq \exp(-\frac{m\varepsilon^2}{8}) -$$ +$$ 但和上面的结论没有本质区别。 这一结果实际上是高维情况下一个反直觉但常见的现象:这告诉我们标准的n维正态分布,随着n不断变大,这些点主要都分布在一个半径是$\sqrt{n}$的高维球面附近。 这一现象直接导致了一个更加深刻的结果。 ### Johnson-Lindenstrauss 引理 $\forall \varepsilon \in (0,1), n \in \mathbb{N}^+$,若正整数$k$满足: -$$ +$$ k\geq \frac{4\ln n}{\varepsilon^2/2 - \varepsilon^3/3} -$$ +$$ 那么对于任意$\mathbb{R}^d$空间中的$n$个点构成的集合$V$,始终存在一个映射$f:\mathbb{R}^d\to \mathbb{R}^k$,s.t. $\forall u,v \in V$,有: -$$ +$$ (1−\varepsilon)\|u−v\|_2^2\leq \|f(u)−f(v)\|_2^2≤(1+\varepsilon)\|u−v\|_2^2 -$$ +$$ 且该映射可以在多项式时间内被找到。 该定理的证明其所需前序知识超出了本笔记的讨论范围,详细证明可参考[论文](https://onlinelibrary.wiley.com/doi/pdf/10.1002/rsa.10073)。 @@ -1460,7 +1460,7 @@ $$ $Proof.$ 假设 $f,g$ 分别有相同的定义域 $D_f,D_g$。根据上确界的定义,对于每一个 $x \in D_f \cap D_g$,我们有 -$$ g(x) \leq \sup_{y \in D_g}g(y),$$ +$$g(x) \leq \sup_{y \in D_g}g(y),$$ 从而 $$f(x)+g(x) \leq f(x)+\sup_{y \in D_g} g(y).$$ 因为这对于每一个 $x \in D_f \cap D_g$ 都是成立的,我们可以在不等式的两边取上确界,得到: diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 474d45d..e82160d 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -1,6 +1,6 @@ # 第2章:可学性 -*Edit: 王茂霖,李一飞,Hao ZHAN* +*Edit: 王茂霖,李一飞,Hao ZHAN,赵志民* ------ ## 2.0 本章前言 @@ -51,18 +51,17 @@ $Y$:表示所有可能的标签或目标值的集合。$X$有时也被称为 例如,在一个简单的线性分类器中,假设空间可能包括所有可能的线性边界,每个线性边界都是一个假设。在更复杂的模型中,如神经网络,假设空间可能包括所有可能的网络结构和权重配置,这些构成了网络的能力来学习数据的非线性和复杂模式。 选择合适的假设空间是机器学习中的一个关键步骤,因为它直接影响到学习算法的性能和泛化能力。通常,假设空间的选择需要根据问题的性质、数据的特点以及所需的性能来决定。 -但在这里我们需要注意的是,此理解在机器学习上是适用的,但在现如今我们对于深度学习所有的理解,比如最新在深度学习中观察双下降现象(参考文献:[Deep Double Descent: Where Bigger Models and More Data Hurt](https://arxiv.org/abs/1912.02292)) +需要注意的是,这种理解适用于传统的机器学习,但在深度学习领域,我们观察到的现象更加复杂。 +例如,最新的研究中观察到的双下降现象(参考文献:[Deep Double Descent: Where Bigger Models and More Data Hurt](https://arxiv.org/abs/1912.02292)) 表明,对于深层神经网络的双下降机制,我们仍然需要深入理解这样的一个开放性问题。 -image.png - -现在对于深层神经网络的双下降机制仍的充分认识,仍是一个重要的开放性问题。 +![double_descent](imgs/double_descent.jpg) --- ### 2.1.2 基础假设 -我们首先假设【实例/样本】是独立且同分$(i.i.d.)$的,且其符合某种固定但未知的分布$\mathcal{D}$。 +我们首先假设【实例/样本】是独立且同分的,且其符合某种固定但未知的分布$\mathcal{D}$。 学习者会考虑一组固定的可能概念类 $\mathcal{H}$(称为假设集),这组概念不一定与目标的概念类 $\mathcal{C}$ 一致。学习者会收到根据 从$\mathcal{D}$中按照独立同分布抽取的样本集 $X = (x_1, . . , x_m)$ 以及标签集 $Y=(c(x_1), . , c(x_m))$,这些标签基于要学习的特定目标概念 $c \in \mathcal{C}$。 @@ -100,7 +99,7 @@ $$ 可能大家会注意到,在《机器学习理论导引》、《FOML》以及《UML》中,对于泛化误差的定义形式不尽相同。 > 比如在《机器学习理论导引》中泛化误差定义如下: -> 给定样本集 $D={(x_1,y_1),(x_2,y_2),...(x_m,y_m)},x_i \in \mathcal{X},y_i \in \mathcal{Y}=\{-1,+1\}$,而$\mathcal{D}$是 $\mathcal{X}\times\mathcal{Y}$的联合分布,$D \sim \mathcal{D^m}$,且为 i.i.d 的。 +> 给定样本集 $D={(x_1,y_1),(x_2,y_2),...(x_m,y_m)},x_i \in \mathcal{X},y_i \in \mathcal{Y}=\{-1,+1\}$,而$\mathcal{D}$是 $\mathcal{X}\times\mathcal{Y}$的联合分布,$D \sim \mathcal{D^m}$,且为独立同分布的。 > 令 $h \in \mathcal{H}$ 为 $\mathcal{X}到\mathcal{Y}$的映射,其泛化误差为 $$ E(h;\mathcal{D})={P}_{(x,y)\sim\mathcal{D}}\left(h(x)\neq y\right)= \mathbb{E}_{(x,y)\sim\mathcal{D}} \left[\mathbb{I}({h(x)\neq c(x)})\right], \tag{2.3} @@ -191,7 +190,10 @@ $$ - **概念的复杂度** -概念的表示越复杂,越有利于表征概念本身;概念的表示越简单,越不利于表征概念本身。由于在评判目标概念的复杂度时,需要考虑到最差的情况,因此人们往往将目光集中于最简单的概念表示上(此时最不利于了解概念)。由此,定义概念的复杂度 $size(c)$ 为所有表示方案中最简单的表示所对应的复杂度,即: $$ size(c) = min_{\mathcal{R}(\sigma)=c}{size(\sigma)} $$ +概念的表示越复杂,越有利于表征概念本身;概念的表示越简单,越不利于表征概念本身。由于在评判目标概念的复杂度时,需要考虑到最差的情况,因此人们往往将目光集中于最简单的概念表示上(此时最不利于了解概念)。由此,定义概念的复杂度 $size(c)$ 为所有表示方案中最简单的表示所对应的复杂度,即: +$$ +size(c) = min_{\mathcal{R}(\sigma)=c}{size(\sigma)} +$$ @@ -211,9 +213,12 @@ $$ - **样本复杂度定义** -**样本复杂度**由这样一个二元函数决定: $ \mathcal{m}_{\mathcal{H}}:(0,;1)^2\rightarrow\mathbb{N}$ ,其中,二元函数 $\mathcal{m}$ 的两个自变量分别是要求的精度 (accuracy) $\epsilon$ 和要求的置信度 (confidence) $\delta$ 。同样, $\mathcal{m}$ 也与假设空间$\mathcal{H}$ 有关系. +**样本复杂度**由这样一个二元函数决定: $\mathcal{m}_{\mathcal{H}}:(0,;1)^2\rightarrow\mathbb{N}$ ,其中,二元函数 $\mathcal{m}$ 的两个自变量分别是要求的精度 (accuracy) $\epsilon$ 和要求的置信度 (confidence) $\delta$ 。同样, $\mathcal{m}$ 也与假设空间$\mathcal{H}$ 有关系. -每个有限假设类都是PAC可学习且拥有样本复杂度: $$ \mathcal{m}_{\mathcal{H}}(\epsilon,\delta)\leq[\frac{\log(|H|/\delta)}{\epsilon}] $$ +每个有限假设类都是PAC可学习且拥有样本复杂度: +$$ +\mathcal{m}_{\mathcal{H}}(\epsilon,\delta)\leq[\frac{\log(|H|/\delta)}{\epsilon}] +$$ - **样本复杂度与数据复杂度$size(c)$区分** @@ -225,9 +230,11 @@ $$ **P30**中提到了布尔合取式的PAC可学问题,在此对该证明进行补充。 -布尔合取式是对所有布尔值的合取计算。例如,一个合取 $C_1$ 可以是 ${x}_1 \land {x}_2 \land \bar{x}_4$ 。对于这样的一个概念来说,所有满足(0,1,?,1)的样本都是正样本,而不满足(0,1,?,1)的样本均为负样本。当我们拥有足够的样本及其对应的标签时,我们就可以学习到类似 $C_1$ 这样的概念了。 +布尔合取式(conjunction, 或称合式子)由多个布尔文字(Boolean literals)通过逻辑与运算(AND)连接而成。 +例如,一个合取 $C_1$ 可以是 ${x}_1 \land {x}_2 \land \bar{x}_4$。对于这样的一个概念来说,所有满足(0,1,?,1)的样本都是正样本,而不满足(0,1,?,1)的样本均为负样本。 +当我们拥有足够的样本及其对应的标签时,我们就可以学习到类似 $C_1$ 这样的概念了。 -我们用一个更简单的案例来说明如何从样本中学习类似这样的概念。考虑一个新的概念 $C_2 = x_1 \land \bar{x}_3 $ ,此时我们有数据 +我们用一个更简单的案例来说明如何从样本中学习类似这样的概念。考虑一个新的概念 $C_2 = x_1 \land \bar{x}_3$ ,此时我们有数据 | X1 | X2 | X3 | y | | ---- | ---- | ---- | ---- | @@ -237,9 +244,16 @@ $$ | 1 | 1 | 0 | 1 | | + | ? | - | | -对于所有的 $y=1$,$x_1$都为1,因此在概念$C_2$ 中 $x_1$ 极有可能是 + 的;对于所有的 $y=1$,$x_3$都为0,因此在概念$C_2$ 中 $x_1$ 极有可能是 - 的;对于$x_2$,对应的y可能为0,也可能为1,因此判断 $x_2$ 与概念$C_2$ 无关。由此,得到 $C_2 = x_1 \land \bar{x}_3 $ 。 +对于所有的 $y=1$,$x_1$都为1,因此在概念$C_2$ 中 $x_1$ 极有可能是 + 的;对于所有的 $y=1$,$x_3$都为0,因此在概念$C_2$ 中 $x_1$ 极有可能是 - 的;对于$x_2$,对应的y可能为0,也可能为1,因此判断 $x_2$ 与概念$C_2$ 无关。 +由此,得到 $C_2 = x_1 \land \bar{x}_3$ 。 + +在PAC可学问题中,我们需要考虑$size(x)$和$size(c)$。 +$size(x)$是数据$x$的复杂度是数据的长度,即布尔向量$x$中变量的个数。对于一个有 $n$ 个变量的布尔向量,复杂度 $size(x)$为$n$。 +$size(c)$是目标概念 $c$ 的复杂度 $size(c)$ 是合取式中布尔文字(布尔变量及其否定)的个数。 +例如,考虑目标概念$c=(x_1 \land \bar{x_2} \land x_3 \land \bar{x_4})$。这个表达式由4个布尔文字组成,因此其复杂度$size(c)$为4。 + +[Kearns and Vazirani, 1994] 他们所要证明的就是 $C_n$ 是PAC可学的。 -而在这里,[Kearns and Vazirani, 1994] 他们所要证明的就是 $C_n$ 是PAC可学的。 #### 7.【案例补充】可知学习 @@ -258,6 +272,8 @@ $$ 每个不同的训练实例都会去掉一半的假设。例如,假设我们有 $x_1 = 0 , x_2 = 1$ ,输出为 0 ;这就删除了 $h5、h6、h7、h8、h13、h14、h15、h16$ 。这就是学习的一种方式。在布尔函数的情况下,为了得到一个单一的假说,我们需要看到所有的二维训练实例。如果我们得到的训练集只包含所有可能的实例中的一小部分子集——也就是说,如果我们只知道只有一小部分实例的输出应该是什么,那么解就不是唯一的。在看到N个例子之后,还有 $2^{2^d-N}$ 个可能的函数。 +例如,如果你有 𝑛 n 个布尔变量 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 x 1 ​ ,x 2 ​ ,…,x n ​ ,那么一个数据 𝑥 x 可以是这些变量的一个具体取值,例如 ( 1 , 0 , 1 , … , 0 ) (1,0,1,…,0)。 + ## 部分参考文献 @@ -273,7 +289,7 @@ $$ 可以分两个步骤定义学习的复杂性。考虑固定学习问题的计算复杂性(由三元组 $(Z, H, \mathcal{l})$ ——学习数据集 (domain set) ,基准假设类 (benchmark hypothesis class) 和 损失函数 确定)。然后,在第二步中,我们考虑一系列此类任务的复杂度变化情况。 -1. 给定一个函数$f:(0,1)^2→\mathbb{N}$ ,一个任务 $(Z, H, \mathcal{l})$ 和一个学习 算法 $\mathcal{A}$ ,我们说 $\mathcal{A}$ 能在 $O(f)$ 时间内解决学习任务,如果存在某个常数 c ,对于每个 Z 上的概率分布 D ,算法 $\mathcal{A}$ 基于从分布 D 中独立同分布 (i.i.d) 采样得到的样本,给定的 $\epsilon,;\delta \in (0,1) $ ,能够满足以下条件: +1. 给定一个函数$f:(0,1)^2→\mathbb{N}$ ,一个任务 $(Z, H, \mathcal{l})$ 和一个学习 算法 $\mathcal{A}$ ,我们说 $\mathcal{A}$ 能在 $O(f)$ 时间内解决学习任务,如果存在某个常数 c ,对于每个 Z 上的概率分布 D ,算法 $\mathcal{A}$ 基于从分布 D 中独立同分布采样得到的样本,给定的 $\epsilon,;\delta \in (0,1)$ ,能够满足以下条件: - A最多执行 $cf(\epsilon, \delta)$ 个运算后终止。 - 表示为 $h_A$ 的 $\mathcal{A}$ 的输出在最多使用 $cf(\epsilon, \delta)$ 个示例之后即可用于预测新标签。 - A的输出是 PAC (probably approximately correct) 的,即不超过 $\delta$ 的错误率使结果误差不超过 $\epsilon$。 diff --git a/docs/chapter2/imgs/double_descent.jpg b/docs/chapter2/imgs/double_descent.jpg new file mode 100644 index 0000000..79637fb Binary files /dev/null and b/docs/chapter2/imgs/double_descent.jpg differ diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md index 7b1683b..5e38f1e 100644 --- a/docs/chapter6/chapter6.md +++ b/docs/chapter6/chapter6.md @@ -29,7 +29,7 @@ $$ $$ 现在我们来证明经验风险是泛化风险的无偏估计: -首先这需要一些先验假设,我们假设所有的样本都是从一个未知的样本-标签空间$D$中独立同分布(I.i.d)采样的。由此,对于经验风险求期望: +首先这需要一些先验假设,我们假设所有的样本都是从一个未知的样本-标签空间$D$中独立同分布采样的。由此,对于经验风险求期望: $$ \begin{aligned} \mathbb{E}({\hat R(f)}) &=\mathbb{E}_{(\boldsymbol{x_i}, y_i) \sim \mathcal{D}}[{ \frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(y_{i} f\left(\boldsymbol{x}_{i}\right) \leqslant 0\right)}] \\ diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md index d83c667..c567950 100644 --- a/docs/chapter7/chapter7.md +++ b/docs/chapter7/chapter7.md @@ -95,7 +95,9 @@ $$e^{\theta x} = 1 + \theta x + x^2f(x) \leq 1+\theta x+x^2f(1) = 1 + \theta x + $$\mathbb{E} \left[\exp \left(\frac{\theta X_k}{K}\right) \bigg| \mathcal{F}_{k-1}\right] \leq 1 + \frac{\theta}{K} \mathbb{E} \left[X_k | \mathcal{F}_{k-1} \right] + \frac{g(\theta)}{K^2} \mathbb{E} \left[X_k^2 | \mathcal{F}_{k-1} \right]$$ 由于 $\{X_k\}$ 是一个鞅差序列,我们有 $\mathbb{E} \left[X_k | \mathcal{F}_{k-1} \right] = 0$,结合 $1+x \leq e^x, x \geq 0$,我们有: -$$ \mathbb{E} \left[\exp \left(\frac{\theta X_k}{K}\right) \bigg| \mathcal{F}_{k-1}\right] = 1 + \frac{g(\theta)}{K^2} \mathbb{E} \left[X_k^2 | \mathcal{F}_{k-1} \right] \leq \exp \left(g(\theta) \frac{\mathbb{E} [X_k^2|\mathcal{F}_{k-1}]}{K^2} \right) $$ +$$ +\mathbb{E} \left[\exp \left(\frac{\theta X_k}{K}\right) \bigg| \mathcal{F}_{k-1}\right] = 1 + \frac{g(\theta)}{K^2} \mathbb{E} \left[X_k^2 | \mathcal{F}_{k-1} \right] \leq \exp \left(g(\theta) \frac{\mathbb{E} [X_k^2|\mathcal{F}_{k-1}]}{K^2} \right) +$$ 考虑一个随机过程: $$Q_k = \exp \left(\theta \frac{S_k}{K} - g(\theta) \frac{\Sigma_k^2}{K^2}\right), \quad Q_0 = 1$$ diff --git a/docs/chapter8/chapter8.md b/docs/chapter8/chapter8.md index 8bbd3ff..4c3452b 100644 --- a/docs/chapter8/chapter8.md +++ b/docs/chapter8/chapter8.md @@ -31,7 +31,7 @@ $$ $$ 由于$w_t$的计算过程与样本$(x_t,y_t)$ 无关,而是与$(x_1,y_1)...(x_{t-1},y_{t-1})$ 有关,因此可以直接使用 $l(w,(x_t,y_t))$ 来衡量性能。 -由此,我们可以总结出二者之间的两个主要区别。一是超额风险引入了**期望**而遗憾没有;二是超额风险计算是一次性在所有数据上进行的计算,而遗憾是对多次损失的一个**求和**。同时,由于在线学习不依赖于任何分布假设,因此其适用于一系列样本并非 i.i.d ,或者才样子固定分布的情形。 +由此,我们可以总结出二者之间的两个主要区别。一是超额风险引入了**期望**而遗憾没有;二是超额风险计算是一次性在所有数据上进行的计算,而遗憾是对多次损失的一个**求和**。同时,由于在线学习不依赖于任何分布假设,因此其适用于一系列非独立同分布样本,或者才样子固定分布的情形。