diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 37d3005..084cb8e 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -5,11 +5,16 @@ --- 强大数定律表明:在样本数量足够多时,样本均值以概率1收敛于总体的期望值。集中不等式主要量化地研究随机变量与其期望的偏离程度,在机器学习理论中常用于考察经验误差与泛化误差的偏离程度,由此刻画学习模型对新数据的处理能力。集中不等式是学习理论的基本分析工具。本节将列出学习理论研究中常用的集中不等式及其简要证明。 - -记:X 和 Y 表示随机变量,$\mathbb{E}[X]$ 表示 X 的数学期望,$\mathbb{V}[X]$ 表示 X 的方差。 - - - + + + +# 常用不等式 + +记:X 和 Y 表示随机变量,$\mathbb{E}[X]$ 表示 X 的数学期望,$\mathbb{V}[X]$ 表示 X 的方差。 + +定理8到18统称为集中不等式 (Concentration Inequalities),提供了随机变量如何偏离某个值(通常是其期望值)的界限。 +经典概率论的大数定律指出,样本数量越多,则其算术平均值就有越高的机率接近期望值。 + ## 定理 1: Jensen 不等式 对于任意凸函数 $f,$ 则有: @@ -20,7 +25,7 @@ $$ -$Proof. $ +$Proof.$ 记 $p(x)$ 为 $X$ 的概率密度函数。由 Taylor 公式及 $f$ 的凸性,$\exists \xi$ s.t. $$ @@ -44,25 +49,28 @@ $$ $\forall p, q \in \mathbb{R}^{+}, \frac{1}{p}+\frac{1}{q}=1$,则有: $$ -\mathbb{E}[|X Y|] \leq\left(\mathbb{E}\left[|X|^{p}\right]\right)^{\frac{1}{p}}\left(\mathbb{E}\left[|Y|^{q}\right]\right)^{\frac{1}{q}} +\mathbb{E}[|X Y|] \leq\left(\mathbb{E}\left[|X|^p\right]\right)^{\frac{1}{p}}\left(\mathbb{E}\left[|Y|^q\right]\right)^{\frac{1}{q}} $$ 成立。 +$Proof.$ - -$Proof. $ - -记 $f(x), g(x)$ 分别为 $X,Y$ 的概率密度函数, -$$ -M=\left(\int|x|^{p} f(x) d x\right)^{\frac{1}{p}}, N=\left(\int|x|^{q} g(x) d x\right)^{\frac{1}{q}} +记 $f(x), g(y)$ 分别为 $X,Y$ 的概率密度函数, $$ -由杨氏不等式: +M=\frac{|x|}{(\int_X|x|^pf(x)dx)^{\frac{1}{p}}}, N=\frac{|y|}{(\int_Y|y|^qg(y)dy)^{\frac{1}{q}}} $$ -\frac{|X|}{M} \frac{|Y|}{N} \leq \frac{1}{p}\left(\frac{|X|}{M}\right)^{p}+\frac{1}{q}\left(\frac{|Y|}{N}\right)^{q} +代入 Young 不等式: $$ -对上式取期望: +MN\leq \frac{1}{p}M^p+\frac{1}{q}N^q $$ -\mathbb{E}\left[\frac{|X|}{M} \frac{|Y|}{N}\right] \leq \frac{1}{p M^{p}} \mathbb{E}\left[|X|^{p}\right]+\frac{1}{q N^{q}} \mathbb{E}\left[|Y|^{q}\right]=1 +对这个不等式两边同时取期望: +$$ +\begin{aligned} +\frac{\mathbb{E}[|XY|]}{\left(\mathbb{E}\left[|X|^p\right]\right)^{\frac{1}{p}}\left(\mathbb{E}\left[|Y|^q\right]\right)^{\frac{1}{q}}} &= \frac{\int_{XY}|xy|f(x)g(y)dxdy}{(\int_X|x|^pf(x)dx)^{\frac{1}{p}}(\int_Y|y|^qf(y)dy)^{\frac{1}{q}}}\\ +&\leq \frac{\int_X|x|^pf(x)dx}{p\int_X|x|^pf(x)dx} +\frac{\int_Y|y|^qg(y)dy}{q\int_Y|y|^pg(y)dy} \\ +&=\frac{1}{p}+\frac{1}{q}\\ +&= 1 +\end{aligned} $$ 原不等式得证。 @@ -70,7 +78,7 @@ $$ ## 定理 3: Cauchy-Schwarz 不等式 -特别的,$p = q = 2 $ 时,Hölder不等式退化为 Cauchy-Schwarz 不等式: +特别的,$p = q = 2$ 时,Hölder不等式退化为 Cauchy-Schwarz 不等式: $$ \mathbb{E}[|X Y|] \leq \sqrt{\mathbb{E}\left[X^{2}\right] \mathbb{E}\left[Y^{2}\right]} $$ @@ -90,7 +98,7 @@ $\forall p \geq 1:$ $$ \begin{aligned} \mathbb{E}\left[|X|^{r}\right] &=\mathbb{E}\left[|X \times 1|^{r}\right] \\ -& {\leq}\left(\mathbb{E}\left[\left(|X|^{r}\right)^{p}\right]\right)^{1 / p} \times 1 \\ +& {\leq}\left(\mathbb{E}\left[\left(|X|^{r}\right)^p\right]\right)^{1 / p} \times 1 \\ &=\left(\mathbb{E}\left[|X|^{r p}\right]\right)^{1 / p} \end{aligned} $$ @@ -106,7 +114,7 @@ $$ $\forall p \geq 1,$ 有: $$ -\sqrt[p]{\mathbb{E}\left[|X+Y|^{p}\right]} \leq \sqrt[p]{\mathbb{E}\left[|X|^{p}\right]}+\sqrt[p]{\mathbb{E}\left[|Y|^{p}\right]} +\sqrt[p]{\mathbb{E}\left[|X+Y|^p\right]} \leq \sqrt[p]{\mathbb{E}\left[|X|^p\right]}+\sqrt[p]{\mathbb{E}\left[|Y|^p\right]} $$ @@ -114,10 +122,10 @@ $Proof.$ 由三角不等式及Hölder不等式: $$ \begin{aligned} -\mathbb{E}\left[|X+Y|^{p}\right] & {\leq}\mathbb{E}\left[(|X|+|Y|)|X+Y|^{p-1}\right] \\ +\mathbb{E}\left[|X+Y|^p\right] & {\leq}\mathbb{E}\left[(|X|+|Y|)|X+Y|^{p-1}\right] \\ &= \mathbb{E}\left[|X||X+Y|^{p-1}\right]+\mathbb{E}\left[|Y||X+Y|^{p-1}\right] \\ -& {\leq}\left(\mathbb{E}\left[|X|^{p}\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q}+\left(\mathbb{E}\left[|Y|^{p}\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q} \\ -&= \left[\left(\mathbb{E}\left[|X|^{p}\right]\right)^{1 / p}+\left(\mathbb{E}\left[|Y|^{p}\right]\right)^{1 / p}\right] \frac{\mathbb{E}\left[|X+Y|^{p}\right]}{\left(\mathbb{E}\left[|X+Y|^{p}\right]\right)^{1 / p}} +& {\leq}\left(\mathbb{E}\left[|X|^p\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q}+\left(\mathbb{E}\left[|Y|^p\right]\right)^{1 / p}\left(\mathbb{E}\left[|X+Y|^{(p-1) q}\right]\right)^{1 / q} \\ +&= \left[\left(\mathbb{E}\left[|X|^p\right]\right)^{1 / p}+\left(\mathbb{E}\left[|Y|^p\right]\right)^{1 / p}\right] \frac{\mathbb{E}\left[|X+Y|^p\right]}{\left(\mathbb{E}\left[|X+Y|^p\right]\right)^{1 / p}} \end{aligned} $$ 化简上式即得证。 @@ -149,7 +157,7 @@ $$ \end{aligned} $$ -考虑算术-几何平均值不等式: +考虑 AM-GM 不等式: $$ xy \leq (\frac{x+y}{2})^2 $$ @@ -158,10 +166,16 @@ $$ ## 定理 7: Union Bound(Boole's)不等式 -$$ P\left(X\cup Y\right) \leq P(X) + P(Y) $$ +$$ +P\left(X\cup Y\right) \leq P(X) + P(Y) +$$ $Proof.$ -$$ P(X \cup Y) = P(X) + P(Y) - P(X \cap Y) \leq P(X) + P(Y) $$ + +根据概率的加法公式: +$$ +P(X \cup Y) = P(X) + P(Y) - P(X \cap Y) \leq P(X) + P(Y) +$$ 此处 $P(X \cap Y) \geq 0$. @@ -189,7 +203,10 @@ $$ $Proof.$ -取 $Y=(X-\mathbb{E}[X])^{2}$,则可以使用Markov 不等式证明。 +利用Markov 不等式,有: +$$ +P(|X-\mathbb{E}[X]| \geq \varepsilon) = P((X-\mathbb{E}[X])^2 \geq \varepsilon^{2}) \leq \frac{\mathbb{E}[(X-\mathbb{E}[X])^2]}{\varepsilon^{2}} = \frac{\mathbb{V}[X]}{\varepsilon^{2}} +$$ @@ -216,26 +233,69 @@ P(X-\mathbb{E}[X] \geq \varepsilon) \leq \frac{\mathbb{V}[X]}{\mathbb{V}[X]+\var $$ 原不等式得证。 -Note: Cantelli 不等式是 Chebyshev 不等式的加强,也称单边 Chebyshev 不等式。通过类似的构造,可以求得诸多比 Cantelli 不等式更严格的界。 +Note: Cantelli 不等式是 Chebyshev 不等式的加强版,也称单边 Chebyshev 不等式。 +通过类似的构造,我们可以求得诸多比 Cantelli 不等式更严格的上界。 -## 定理 11: Chernoff 不等式 +## 定理 11: Chernoff 不等式(Chernoff 界) $\forall \lambda\gt 0, \varepsilon\gt 0,$ 有 : $$ -P(X \geq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} +P(X \geq \varepsilon) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} $$ $\forall \lambda\lt 0, \varepsilon\gt 0,$ 有 : $$ -P(X \leq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} +P(X \leq \varepsilon) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}} $$ -$Proof. $ +$Proof.$ +应用 Markov 不等式,有: + +$$ +P(X \geq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}}, \lambda\gt 0, \varepsilon\gt 0 +$$ +$$ +P(X \leq \varepsilon)=P\left(e^{\lambda X} \geq e^{\lambda \varepsilon}\right) \leq \frac{\mathbb{E}\left[e^{\lambda X}\right]}{e^{\lambda \varepsilon}}, \lambda\lt 0, \varepsilon\gt 0 +$$ -取 $Y=e^{\lambda X},$ 应用 Markov 不等式即得证。 + +## 定理 11: Chernoff 不等式 (乘积形式) + +对m个独立同分布的随机变量$x_i \in [0, 1], i \in [m]$,令$X = \sum_{i=1}^m X_i$,$\mu>0$且$r\leq 1$ + +如果$\mathbb{E}[x_i]\leq \mu$对于所有$i\leq m$都成立,有: +$$ +P(X \geq (1+r)\mu m) \leq e^{-\frac{r^2\mu m}{3}}, r \geq 0 +$$ +$$ +P(X \leq (1-r)\mu m) \leq e^{-\frac{r^2\mu m}{2}}, r \geq 0 +$$ +$Proof.$ +应用 Markov 不等式,有: +$$ +P(X\geq (1+r)\mu m) = P((1+r)^X \geq (1+r)^{(1+r)\mu m}) \leq \frac{\mathbb{E}[(1+r)^X]}{(1+r)^{(1+r)\mu m}} +$$ +根据$x_i$的独立性可知: +$$ +\mathbb{E}[(1+r)^X] = \prod_{i=1}^m \mathbb{E}[(1+r)^{x_i}] \leq \prod_{i=1}^m \mathbb{E}[1+rx_i] \leq \prod_{i=1}^m 1+r\mu \leq e^{r\mu m} +$$ +第二步用到了$\forall x\in [0,1]$,都有$(1+r)^x\leq 1+rx$ + +第三步用到了$\forall i\leq m$,都有$\mathbb{E}[x_i]\leq \mu$ + +第四步用到了$\forall x\in [0,1]$,都有$1+x\leq e^x$ + +又因为$\forall r\in [0,1]$,有$\frac{e^r}{(1+r)^{1+r}}\leq e^{-\frac{r^2}{3}}$,综上: +$$ +P(X\geq (1+r)\mu m) \leq (\frac{e^{r}}{(1+r)^{(1+r)}})^{\mu m} \leq e^{-\frac{r^2\mu m}{3}} +$$ + +当我们把$r$替换成$-r$,根据之前的推导,且在最后一步利用$\forall r\in [0,1]$,有$\frac{e^r}{(1-r)^{1-r}}\leq e^{-\frac{r^2}{2}}$,我们可以得到第二个不等式的证明 + + ## 定理 12: Hoeffding 不等式 @@ -245,7 +305,7 @@ $$ \mathbb{E}[e^{\lambda X}] \leq \exp\left( \frac{\lambda^2(b-a)^2}{8} \right) $$ -$Proof. $ +$Proof.$ 由于$e^x$为凸函数,则显然$\forall x\in[a,b]$: $$ e^{\lambda x} \leq \frac{b-x}{b-a}e^{\lambda a} + \frac{x-a}{b-a}e^{\lambda b} @@ -287,7 +347,7 @@ $$ P(\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon) \leq \exp \left(-\frac{2 m^{2} \varepsilon^{2}}{\sum_{i=1}^{m}\left(b_{i}-a_{i}\right)^{2}}\right) $$ -$Proof. $ +$Proof.$ 由 Markov 不等式知, $\forall \lambda\gt 0$ : $$ @@ -353,7 +413,7 @@ P\left(f\left(X_{1}, \cdots, X_{m}\right)-\mathbb{E}\left[f\left(X_{1}, \cdots, $$ -$Proof. $ +$Proof.$ 构造一个鞅差序列: $$ @@ -382,7 +442,7 @@ P(\bar{X}-\mathbb{E}[\bar{X}] \geq \varepsilon) \leq \exp \left(-\frac{m \vareps $$ 成立。 -Remark: Bernstein 不等式实际是 Hoeffding 不等式的加强。对于个各随机变量独立的条件可以放宽为弱独立结论仍成立。 +Remark: Bernstein 不等式实际是 Hoeffding 不等式的加强版。对于个各随机变量独立的条件可以放宽为弱独立结论仍成立。 上述几个 Bernstein 类集中不等式,更多的是在非渐近观点下看到的大数定律的表现。也即是,这些不等式更多刻画了样本均值如何集中在总体均值的附近。 @@ -413,7 +473,7 @@ P\left(Z_{m}-\mu \geq \varepsilon\right)=P\left(\sum_{i=1}^{m} X_{i} \geq \varep $$ -$Proof. $ +$Proof.$ 首先,若 $\mathbb{E}[X \mid Y]=0,$ 则有 $\forall \lambda\gt 0:$ $$ @@ -462,10 +522,10 @@ $$ -$Proof. $ +$Proof.$ 令$Y_i = X_i - \mathbb{E}X_i$ 因此条件可以转化为 - $$ +$$ \mathbb{E}\left|Y_i\right|^{k} \leq k ! b^{k-2} \frac{\mathbb{V}\left[Y_{i}\right]}{2} $$ 首先利用泰勒展开的性质,我们证明引理: @@ -474,8 +534,8 @@ $$ \mathbb{E}e^{\lambda Y_i} \leq e^{\lambda \mathbb{E}Y_i + \frac{\mathbb{V}[Y_i]\lambda ^2}{2(1-\lambda b)}} \end{aligned} $$ -$Proof of lemma. $ - $$ +其中: +$$ \begin{aligned} \mathbb{E}e^{\lambda Y_i} &\leq \sum_{n=0}^\infty \frac{\mathbb{E}(\lambda Y_i)^n}{n!} \\&=1 + \lambda\mathbb{E}Y_i+\sum_{n=2}^\infty \frac{(\lambda)^n}{n!}\mathbb{E}(Y_i^n) @@ -523,7 +583,7 @@ P\left(Z_{m}-\mu\leq-\varepsilon\right) &\leq\exp\left(-\frac{\varepsilon^{2}}{2 \end{aligned} $$ -$Proof. $ +$Proof.$ 注意到Azuma不等式要求在鞍差序列上的对称界限,即$-c_i\leq Z_i-Z_{i-1}\leq c_i$。因此,如果已知的界限是非对称的,即$a_i\leq Z_i-Z_{i-1}\leq b_i$,那么为了使用Azuma不等式,我们需要选择$c_i=\max(|a_i|,|b_i|)$,这可能会浪费关于$X_t - X_{t-1}$的有界性的信息。然而,我们可以通过以下Azuma不等式的一般形式来解决这个问题。 @@ -620,15 +680,11 @@ $$ E[X_{n+1}|X_1,\ldots,X_n] \ge X_n,\quad n\in \mathbb N \end{aligned} $$ -这里给出一个区分下鞅和上鞅的记忆方法:“生活是一个上鞅:随着时间的推进,期望降低。” +这里给出一个区分下鞅和上鞅的记忆方法:“生活是一个上鞅:随着时间的推进,期望逐渐降低。” -# 拓展 - - - -## 定理 16: Slud 不等式 +## 定理 17: Slud 不等式 若$X\sim B(m,p)$,则有: $$ @@ -636,12 +692,16 @@ $$ $$ 其中$p = (1- \varepsilon)/2$。 -该定理的证明使用了正态分布的标准尾边界,其所需前序知识超出了本笔记的讨论范围。详细证明可以阅读Slud在1977年发表的[论文](https://projecteuclid.org/download/pdf_1/euclid.aop/1176995801)。 +该定理的证明使用了正态分布的标准尾边界,其所需前序知识超出了本笔记的讨论范围,详细证明可参考[论文](https://projecteuclid.org/download/pdf_1/euclid.aop/1176995801)。 -## 定理 17: Johnson-Lindenstrauss 引理 - +## 定理 18: Johnson-Lindenstrauss 引理 + +JL引理可以非常通俗地表达为:压缩N个向量只需要$O(logN)$维空间,且相对距离的误差可控制在一定范围内。 + + + 首先借用上述工具考察一个示例: ### $\chi_m^2$随机变量的集中度 若随机变量$Z\sim \chi_m^2$,则$\forall \varepsilon \in (0, 3)$有: @@ -649,7 +709,7 @@ $$ P\left((1-\varepsilon) \leq \frac{Z}{m} \leq (1 + \varepsilon)\right) \leq \exp(-\frac{m\varepsilon^2}{6}) $$ -$Proof. $ +$Proof.$ 若$X\sim N(0,1)$,则显然$\forall \lambda \gt 0$: $$ \mathbb{E}[e^{-\lambda X^2}] \leq 1 - \lambda\mathbb{E}[X^2] + \frac{\lambda^2}{2}\mathbb{E}[X^4] = 1 - \lambda + \frac{3}{2}\lambda^2 \leq e^{-\lambda + \frac{3}{2}\lambda^2} @@ -679,6 +739,679 @@ $$ $$ 且该映射可以在多项式时间内被找到。 -该定理的证明其所需前序知识超出了本笔记的讨论范围,详细证明及映射的构造可以阅读南京大学的一个[讲义](http://tcs.nju.edu.cn/wiki/index.php/%E9%9A%8F%E6%9C%BA%E7%AE%97%E6%B3%95_(Fall_2011)/Johnson-Lindenstrauss_定理)。 +该定理的证明其所需前序知识超出了本笔记的讨论范围,详细证明可参考[论文](https://onlinelibrary.wiley.com/doi/pdf/10.1002/rsa.10073)。 -该定理的适用性极其广泛,例如在稀疏感知领域直接导致了约束等距性条件 (RIP条件),即非凸的 $L_0$范数最小化问题与 $L_1$范数最小化问题等价性条件;在流形学习和优化理论中也有重要的应用。而其在学习理论中最重要的应用是对降维任务的估计。 \ No newline at end of file +该定理的适用性极其广泛,例如在稀疏感知领域直接导致了约束等距性条件 (RIP条件),即非凸的 $L_0$范数最小化问题与 $L_1$范数最小化问题等价性条件;在流形学习和优化理论中也有重要的应用。而其在学习理论中最重要的应用是对降维任务的估计。 + + + +## 定理 19: 上界不等式之加性公式 +若$sup(f)$和$sup(g)$分别为函数$f$和$g$的上界,则有: +$$ +sup(f+g)\le sup(f) + sup(g) +$$ + +$Proof.$ + +假设 $f,g$ 分别有相同的定义域 $D_f,D_g$。根据上确界的定义,对于每一个 $x \in D_f \cap D_g$,我们有 +$$ g(x) \leq \sup_{y \in D_g}g(y),$$ +从而 +$$f(x)+g(x) \leq f(x)+\sup_{y \in D_g} g(y).$$ +因为这对于每一个 $x \in D_f \cap D_g$ 都是成立的,我们可以在不等式的两边取上确界,得到: +$$\sup_{x \in D_f \cap D_g}(f(x)+g(x)) \leq \sup_{x \in D_f \cap D_g}f(x)+\sup_{y \in D_g} g(y)\leq \sup_{z \in D_f}f(z)+\sup_{y \in D_g} g(y).$$ +这里我们使用了$\sup_{x \in D_f \cap D_g}f(x) \leq \sup_{z \in D_f}f(z)$ since $D_f \cap D_g \subset D_f$. + +值得注意的是,该不等式在(4.33)中利用过两次,且原推导并没有用到Jensen不等式的任何性质。 + +另外,加性公式有几个常见的变形,例如: +$$ +sup(f-g) - sup(f-k)\le sup(k-g) +$$ +该不等式在(4.29)中出现过。 + + + +## 定理 20: 正态分布不等式 +若$X$是一个服从标准正态分布的随机变量,那么对于任意$u\ge 0$,有: +$$\mathbb{P}[X\le u]\le\frac{1}{2}\sqrt{1-e^{-\frac{2}{\pi}u^2}}$$ + +$Proof.$ + +令$G(u)=\mathbb{P}[X\le u]$,则有: +$$2G(u)=\int_{-u}^u(2\pi)^{-1/2}e^{-x^2/2}dx=\int_{-u}^u(2\pi)^{-1/2}e^{-y^2/2}dy$$ +因此: +$$2\pi[2G(u)]^2=\int_{-u}^u\int_{-u}^ue^{-(x^2+y^2)/2}dxdy$$ +让我们考虑更一般的积分形式: +$$2\pi[2G(u)]^2=\underset{R}{\int\int}e^{-(x^2+y^2)/2}dxdy$$ +此时$R$为任意面积为$4a^2$的区域,通过反证法易证,只有当$R$为以原点为中心的圆形区域$R_0$时,积分值最大: +$$R_0=\{(x,y):\pi(x^2+y^2)\le 4u^2\}$$ +此时,我们有: +$$ +\begin{aligned} +2\pi[2G(u)]^2&\le\underset{R_0}{\int\int}e^{-(x^2+y^2)/2}dxdy\\ +&=\int_0^{2\pi}\int_0^{2u\pi^{-1/2}}e^{-r^2/2}rdrd\varphi\\ +&=2\pi(1-e^{-2u^2/\pi}) +\end{aligned} +$$ +因此,我们有: +$$G(u)=\mathbb{P}[X\le u]\le\frac{1}{2}\sqrt{1-e^{-\frac{2}{\pi}u^2}}$$ +进一步,我们可以得到: +$$\mathbb{P}[X\ge u]\ge\frac{1}{2}(1-\sqrt{1-e^{-\frac{2}{\pi}u^2}})$$ + + + +## 定理 21: AM-GM 不等式 + +算术平均数和几何平均数的不等式,简称AM-GM不等式。该不等式指出非负实数序列的算术平均数大于等于该序列的几何平均数,当且仅当序列中的每个数相同时,等号成立。 +形式上,对于非负实数序列$\{x_n\}$,其算术平均值定义为: +$$ +A_n=\frac{1}{n}\sum_{i=1}^nx_i +$$ +其几何平均值定义为: +$$ +G_n=\sqrt[n]{\prod_{i=1}^nx_i} +$$ +则AM-GM 不等式成立: +$$ +A_n\ge G_n +$$ + +$Proof.$ + +我们可以通过Jensen不等式(1.11)来证明AM-GM不等式。首先,我们考虑函数$f(x)=-\ln x$,该函数是凸函数,因此有: +$$ +\frac{1}{n}\sum_{i=1}^n-\ln x_i\ge-\ln\left(\frac{1}{n}\sum_{i=1}^nx_i\right) +$$ +即: +$$ +\begin{aligned} +&\ln\left(\frac{1}{n}\sum_{i=1}^nx_i\right)\ge\frac{1}{n}\sum_{i=1}^n\ln x_i=\sum_{i=1}^n\ln x_i^{\frac{1}{n}}=\ln\sqrt[n]{\prod_{i=1}^nx_i}\\ + +\Rightarrow&\frac{1}{n}\sum_{i=1}^nx_i \le \sqrt[n]{\prod_{i=1}^nx_i} +\end{aligned} +$$ +当取$x_1=x_2=\cdots=x_n$时,等号成立。 +特别地,当$n=2$时,我们有: +$$ +\frac{x_1+x_2}{2}\ge\sqrt{x_1x_2} +$$ + + + +## 定理 22: Young 不等式 + +对于任意$a,b\ge 0, p.q\gt 1$,若$\frac{1}{p}+\frac{1}{q}=1$,则有: +$$ +ab\le\frac{a^p}{p}+\frac{b^q}{q} +$$ +当且仅当$a^p=b^q$时,等号成立。 + +$Proof.$ + +我们可以通过Jensen不等式(1.11)来证明Young不等式。 +首先,当$ab=0$时,该不等式显然成立。 +当$a,b\gt 0$时,我们令$t=1/p,1-t=1/q$,根据$ln(x)$的凹性,我们有: +$$ +\begin{aligned} +\ln(ta^p+(1-t)b^q)&\ge t\ln(a^p)+(1-t)\ln(b^q)\\ +&=\ln(a)+\ln(b)\\ +&=\ln(ab) +\end{aligned} +$$ +当且仅当$a^p=b^q$时,等号成立。 + + + +## 定理 23: 分离/支撑超平面定理 + +超平面(Hyperplane)是指$n$维线性空间中维度为$n-1$的子空间,它可以把线性空间分割成不相交的两部分。 +对于一个凸集,支撑超平面(Supporting Hyperplane)是与凸集边界切线的超平面,即它“支撑”了凸集,使得所有的凸集内的点都位于支撑超平面的一侧。 +凸集的支撑超平面也称为tac-planes或tac-hyperplanes。 + +分离超平面定理:如果有两个不相交的非空凸集,则存在一个超平面可以将它们完全分隔开。 +形式化来说,若$C,D$为非空凸集,且$C\cap D=\varnothing$,则存在一个超平面$a\neq0,b$,使得$\forall x\in C,a^Tx\le b$且$\forall x\in D,a^Tx\ge b$,即$inf_{x\in D}a^Tx\ge sup_{x\in C}a^Tx$。 + +支撑超平面定理:对于一个非空的凸集,在凸集的边界上存在至少一个点,该点可以找到一个支撑超平面。 +形式化来说,若$C$为非空凸集,则对于$\forall x_0\in\partial C$,则存在一个超平面$\{x|a^Tx=a^Tx_0,a\neq0\}$,使得$\forall x\in C,a^Tx\le a^Tx_0$。 + +两定理的证明其所需前序知识超出了本笔记的讨论范围,详细证明可参考[教材](https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf)。 + + + +# 常用概念 + + +## 1. 范数 + +在数学中,范数(norm)是一个函数,它为向量空间中的每个非零向量分配一个严格的正长度或大小。 +从几何上来说,范数是向量的长度或大小。例如,绝对值是实数集上的一个范数。 +另一方面,半范数(seminorm)可以为非零的向量赋予零长度。 + +向量空间上的半范数必须满足以下条件: +1. 半正定性(即非负性):任何向量的范数总是非负的,对于任意向量$v$,$\|v\| >= 0$。 +2. 可伸缩性(即齐次性):对于任意标量$a$和任何向量$v$,标量乘法$av$的范数等于标量的绝对值乘以向量的范数,即$\|av\| = |a|\|v\|$。 +3. 次可加性(即三角不等式):对于任何向量$v$和$w$,向量和$u=v+w$的范数小于或等于向量$v$和$w$的范数之和,即$\|v+w\| \leq \|v\| + \|w\|$。 + +范数是一个半范数加上额外性质:对于任何向量$v$,如果$\|v\|=0$,则$v$必须是零向量。 +换句话说,所有范数都是半范数,它可以将非零向量与零向量区分开来。 + +常用向量范数包括: +1. $\ell_0$范数:向量$x$中非零元素的个数,即$\|x\|_0=\sum_{i=1}^n \mathbb{I}(x_i\neq 0)$。 +2. $\ell_1$范数:向量$x$中各元素绝对值之和,即$\|x\|_1=\sum_{i=1}^n |x_i|$。 +3. $\ell_2$范数(即欧几里得范数):向量$x$各元素绝对值的平方和再开方,即$\|x\|_2=\sqrt{\sum_{i=1}^n x_i^2}$。 +4. $\ell_p$范数:向量$x$各元素绝对值的$p$次方和再开$p$次方,即$\|x\|_p=(\sum_{i=1}^n |x_i|^p)^{\frac{1}{p}}$。 +5. $\ell_\infty$范数(即极大范数):向量$x$中各元素绝对值的最大值,即$\|x\|_\infty=\max_{i=1,\cdots,n} |x_i|$。 +6. 加权范数:设$A$是$n$阶Hermite正定矩阵,则向量$x$的加权范数定义为$\|x\|_A=\sqrt{x^TAx}$。该类范数在本书8.3.2和8.4.2中经常被使用。 + + + +## 2. 凸集合 + +凸集(convex set)是向量空间(如欧几里得空间)的一个子集,在该集合中,对于集合内的任意两点,连接它们的线段完全位于该集合内。换句话说,如果一个集合包含连接集合内任意两点的线段上的所有点,则该集合是凸集。 + +更正式地说,考虑一个向量空间$\mathcal{V}$。如果对于该空间中的任意两点$x$和$y$,以及满足$\alpha\in[0,1]$的任意标量$\alpha$,点$\alpha x+(1-\alpha)y$也属于$\mathcal{D}$,那么集合$\mathcal{D}\subseteq\mathcal{V}$是凸集。 + +凸集合的这种性质叫做非扩张性(non-expansiveness),对于凸集内的任何两点,连接这两点的线段完全包含在集合内。这种性质使得凸集在许多数学环境中变得非常可预测,因此更容易处理。 +例如,如果你正在尝试在一个凸集内找到一个最小值或最大值(如在优化问题中),你可以确定没有局部最小值或最大值,只有一个全局值。这大大简化了搜索过程。 + +不仅凸集合具有非扩张性,映射到凸集的投影操作也是非扩张的,这意味着两点在凸集上的投影之间的距离小于或等于两点本身之间的距离。 +形式上,对于闭合凸集合$K\subseteq\mathbb{R}^D$,投影算子$\Pi:\mathbb{R}^D\rightarrow K$定义为: +$$ +\Pi(x)=\arg \min_{y\in K} \| x-y\|_2 +$$ +即将一个向量映射到最接近它的凸集合中的点。投影算子$\Pi$在$\ell_2$范式下是非扩张的,即对于任意$x,x'\in\mathbb{R}^D$,都有: +$$ +\| \Pi(x) - \Pi(x')\|_2 \leq \| x - x'\|_2, \forall x,x'\in \mathbb{R}^D. +$$ +该性质的证明如下: +让$y=\Pi(x)$,易知$x$和$K$在通过$y$的超平面$H=\{z\in\mathbb{R}^D:\langle z-y,x-y\rangle=0\}$的两侧。因此,对于$K$中的任意$u$,则有以下不等式成立: +$$ +\langle x-y,u-y\rangle \le 0 +$$ +同理,让$y'=\Pi(x')$,对于$K$中的任意$u'$,有以下不等式成立: +$$ +\langle x'-y',u'-y'\rangle \le 0 +$$ +此时,不妨令$u=y'$且$u'=y$,则有: +$$ +\langle x-y,y'-y\rangle \le 0 \\ +\langle x'-y',y-y'\rangle \le 0 +$$ +将两个不等式相加可得: +$$ +\langle (x-x')+(y'-y),y'-y\rangle \le 0 +$$ +根据 Cauchy-Schwarz 不等式(1.14),我们有: +$$ +\begin{aligned} +&\|y-y'\|_2^2 \le \langle x-x',y-y'\rangle \le \|x-x'\|_2\,\|y-y'\|_2\\ +\Rightarrow &\|y-y'\|_2 \le \|x-x'\|_2 \\ +\Rightarrow &\|\Pi(x) - \Pi(x')\|_2 \le \|x-x'\|_2 +\end{aligned} +$$ + +该性质在凸优化中经常被使用,因为这种投影映射可以将一个优化问题转化为一个凸优化问题。 +凸集合提供了一种良好的结构,可以实现高效的优化算法,并在许多情况下保证全局最优解。 + + + +## 2. 凸函数 + +凸函数(convex function)是定义在凸集上的实值函数,满足函数图像上任意两点间的线段位于或位于函数图像上方,即对于其定义域内的任意两个点 $x$ 和 $y$,以及满足$\alpha\in[0,1]$的任意标量$\alpha$,有以下不等式成立: +$$ +f(\alpha x + (1-\alpha)y) \leq \alpha f(x) + (1-\alpha) f(y) +$$ +这个不等式被称为凸性条件。 + +除了上述的线段定义法,凸函数还有几种等价的定义: +1. 一阶条件:如果一个定义在凸集上的函数 $f(x)$,对于其定义域内的任意两个点 $x$ 和 $y$,以下不等式成立: +$$ +f(y) ≥ f(x) + \nabla f(x)^T(y - x) +$$ +其中,$\nabla f(x)$ 表示函数 $f(x)$ 在点 x 处的梯度。几何上,这个条件表示函数的图像位于任意一点处的切线之上。 + +2. 二阶条件:如果函数 $f(x)$ 具有二次可微性,那么它是凸函数当且仅当其 Hessian 矩阵 $H_f$ 在其定义域内的所有点 $x$ 上都是半正定的(即矩阵的所有元素非负),半正定性保证了 Hessian 矩阵的所有特征值都是非负的。 +这里,Hessian 矩阵$H_f$是函数 $f(x)$ 的二阶偏导数构成的方阵: +$$ +\mathbf H_f= \begin{bmatrix} + \dfrac{\partial^2 f}{\partial x_1^2} & \dfrac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \dfrac{\partial^2 f}{\partial x_1\,\partial x_n} \\[2.2ex] + \dfrac{\partial^2 f}{\partial x_2\,\partial x_1} & \dfrac{\partial^2 f}{\partial x_2^2} & \cdots & \dfrac{\partial^2 f}{\partial x_2\,\partial x_n} \\[2.2ex] + \vdots & \vdots & \ddots & \vdots \\[2.2ex] + \dfrac{\partial^2 f}{\partial x_n\,\partial x_1} & \dfrac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \dfrac{\partial^2 f}{\partial x_n^2} +\end{bmatrix}. +$$ +其中,$x=[x_1,x_2,\cdots,x_n]$ + +3. Jensen不等式:如果函数$f(x)$是凸函数,则对于其定义域内的任意一组点${x_1, x_2, \cdots, x_n}$和归一化的非负权重${w_1, w_2, \cdots, w_n}$,即$\sum_{i=1}^n w_i=1$,则有: +$$ +f(\sum_{i=1}^n w_i x_i) ≤ \sum_{i=1}^n w_i f(x_i) +$$ + +4. 上凸集定义:凸函数与凸集合的概念紧密相连,函数$f$是凸函数当且仅当其上图集(epigraph)是一个凸集。 +上图集是位于函数图像上方的点的集合,定义为: +$$ +epi(f) = \{(x, y) | x ∈ dom(f),y ≥ f(x)\} +$$ +其中,$dom(f)$ 是函数$f$的定义域。 + +[comment]: <> (是否在此给出不同定义的等价性证明?) + +凸函数的一些特性包括: +1. 正比例性质:如果函数$f(x)$是凸函数,那么对于任何常数$\alpha\gt0$,函数$\alpha f(x)$也是凸函数。 +2. 正移位性质:如果函数$f(x)$是凸函数,那么对于任何常数$c\gt0$,那么函数$f(x)-c$也是凸函数。 +3. 加法性质:如果 $f(x)$ 和 $g(x)$ 都是凸函数,那么他们的和 $f(x)+g(x)$ 也是凸函数。 + + + +## 3. 凹函数 + +凹函数(concave function)的定义恰好与凸函数相反,即对于其定义域内的任意两个点 $x$ 和 $y$,以及满足$\alpha\in[0,1]$的任意标量$\alpha$,有以下不等式成立: +$$ +f(\alpha x + (1-\alpha)y) \geq \alpha f(x) + (1-\alpha) f(y) +$$ +这个不等式被称为凹性条件。 + +其他的定义与性质与凸函数类似,这里不再赘述。值得注意的是,若函数$f(x)$为凹函数,那么$-f(x)$为凹函数。 +我们因此可以将凹函数问题转化为凸函数问题,从而可以使用凸函数的性质来解决凹函数问题。 + + + +## 4. 强凸函数 + +对于定义在凸集上的函数$f(x)$,如果它满足以下性质,则称为强凸函数: +$$ +\forall x,y\in dom(f),\alpha\in[0,1],\exists \lambda\gt0\\ +f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)-\frac{\lambda}{2}\alpha(1-\alpha)||x-y||_2^2 +$$ +则称 $f(x)$ 为$\lambda$-强凸(strongly convex)函数,其中$\lambda$ 为强凸系数。 + +强凸函数的其他等价定义包括: + +1. Hessian 矩阵条件:如果一个两次可微的函数 $f(x)$ 的 Hessian 矩阵 $H_f$ 在凸集中的所有 $x$ 上都是正定的(即矩阵的所有元素为正),则它是强凸的。 + +2. 梯度条件:如果一个可微函数 $f(x)$ 是强凸的,那么存在一个正常数 $m$,使得对于凸集中的任意 $x,y$,有 $||\nabla f(x) - \nabla f(y)||_2 ≥ m ||x - y||_2$ 成立。这里,$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。 + +[comment]: <> (是否在此给出不同定义的等价性证明?) + +直观上,对强凸函数$f(x)$,可以在任意一点处构造一个二次函数作为其下界。这个性质使得优化算法更加高效,且具有类似**P90**中定理7.2的优良性质。 + +这里给出定理7.2的证明:根据强凸函数的定义,我们取$x=w,y=w^*$,然后两边除以$\alpha$可得: +$$ +\begin{aligned} +&\frac{f(\alpha w+(1-\alpha)w^*)}{\alpha}\leq f(w)+\frac{1-\alpha}{\alpha}f(w^*)-\frac{\lambda}{2}(1-\alpha)||w-w^*||_2^2\\ +\Rightarrow&\frac{\lambda}{2}(1-\alpha)||w-w^*||_2^2\le f(w)-f(w^*)-\frac{f(w^* +(w-w^*)\alpha)-f(w^*)}{\alpha} +\end{aligned} +$$ +令$\alpha\rightarrow 0^+$,则有: +$$ +\begin{aligned} +&lim_{\alpha\rightarrow 0^+}\frac{\lambda}{2}(1-\alpha)||w-w^*||_2^2\le f(w)-f(w^*)+lim_{\alpha\rightarrow 0^+}\frac{f(w^* +(w-w^*)\alpha)-f(w^*)}{\alpha}\\ +\Rightarrow&\frac{\lambda}{2}||w-w^*||_2^2\le f(w)-f(w^*)+lim_{\Delta\rightarrow 0^+}\frac{f(w^* +\Delta)-f(w^*)}{\Delta}(w-w^*)\\ +\Rightarrow&\frac{\lambda}{2}||w-w^*||_2^2\le f(w)-f(w^*)+\nabla f(w^*)^T(w-w^*) +\end{aligned} +$$ +其中$\Delta=(w-w^*)\alpha$ + +因为$w^*$为最优解,所以$\nabla f(w^*)=0$,因此有: +$$ +f(w)-f(w^*)\ge\frac{\lambda}{2}||w-w^*||_2^2 +$$ + + + +## 5. 指数凹函数 + +对于函数$f(x)$,若 $exp(f(x))$ 是凹函数,则称其为指数凹(exponentially concave)函数。注意到,当$exp(f(x))$ 是凹函数时,$f(x)$ 不一定是凹函数。 +如果函数$f(x)$是指数凹函数,则 $exp(-f(x))$ 一定是凸函数。因此,指数凹是一种弱于强凸性质,但强于凸性质的约束。 + +指数凹函数的一些特性包括: +1. 正比例性质:如果函数$f(x)$是指数凹函数,那么对于任何正常数$\alpha$,函数$\alpha f(x)$也是指数凹函数。 +2. 负移位性质:如果函数$f(x)$是指数凹函数且$c$是正常数,那么函数$f(x)-c$也是指数凹函数。 + +指数凹函数可以提供一种非常灵活和富有表现力的方式来建模各种现象,因为它可以捕捉到广泛的形状和行为。 +比如,在凸优化中使用指数凹函数可以使迭代优化算法(如梯度下降或牛顿法)更快地收敛。 +因此,在概率模型或存在不确定性的场景中,指数凹函数对于限制或量化不确定性非常重要。 + + + +## 6. 凸优化 + +凸优化(convex optimization)是优化领域的一个分支,它处理的问题是在凸函数的凸集上进行优化。凸优化涉及在满足一组凸约束条件的情况下,寻找凸目标函数的最小值。 + +凸优化问题的一般形式可以表示为: +$$ +\begin{aligned} +&min &f_0(x)\\ +&s.t. &f_i(x) \le 0,i\in[m]\\ +&&g_j(x) = 0,j\in[n] +\end{aligned} +$$ +其中,$f_0(x)$是凸目标函数,$f_i(x)$是凸不等式约束条件,$g_j(x)$是仿射等式约束条件。 + +凸优化具有一些有益的特性,使其成为一个被广泛研究和应用的领域: + +全局最优性:凸优化问题具有这样的性质,即任何局部最小值也是全局最小值。这个特性确保凸优化算法找到的解是给定凸集中的最佳解。 + +高效算法:凸优化具有高效的算法,可以在多项式时间内找到最优解或提供接近最优的解。这些算法基于凸目标函数和约束条件的凸性质。 + +广泛应用:凸优化在工程学、金融学、机器学习、运筹学和信号处理等各个领域有广泛的应用。它用于解决诸如投资组合优化、信号重构、资源分配和机器学习模型训练等问题。凸优化技术,如线性规划、二次规划和半定规划,构成了许多优化算法的基础,为以计算高效方式解决复杂优化问题提供了强大的工具。 + +我们在这里证明第一个性质,即凸函数任何局部最优解都是全局最优解。 + +假设$f(x)$是凸函数,$x^*$是$f$在凸集合$\mathcal{D}$中的局部最小解。因为凸集合的性质,对于任意$y$,$y-x^*$都是一个可行的方向。因此,我们总是可以选择一个足够小的$\alpha>0$,满足: +$$ +f(x^*)\leq f(x^*+\alpha(y-x^*)) +$$ +由$f$的凸函数性质可知: +$$ +f(x^*+\alpha(y-x^*))=f((1-\alpha)x^*+\alpha y)\leq (1-\alpha)f(x^*)+\alpha f(y) +$$ +结合以上两式,我们有: +$$ +\begin{aligned} +&f(x^*)\leq (1-\alpha)f(x^*)+\alpha f(y)\\ +\Leftrightarrow &f(x^*)\leq f(y) +\end{aligned} +$$ +因为$y$是凸集合$\mathcal{D}$中的任意点,所以$x^*$是全局最小解。 +对于$f(x)$的全局最大解,我们可以通过考虑函数$-f(x)$的局部最小解来得到类似结论。 + + + +## 7. 仿射 + +仿射变换(Affine transformation),又称仿射映射,是指在几何中,对一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。 +假如该线性映射被表示为一矩阵$A$,平移被表示为向量$\vec{b}$,则仿射映射$f$可被表示为: +$$ +\vec{y}=f(\vec{x})=A\vec{x}+\vec{b} +$$ +此处$A$被称为仿射变换矩阵或投射变换矩阵。 + +仿射变换具有以下性质: +1. 点之间的共线性:在同一条直线上的三个或更多的点(称为共线点)在变换后依然在同一条直线上(共线)。 +2. 直线的平行性:两条或以上的平行直线,在变换后依然平行。 +3. 集合的凸性:凸集合变换后依然是凸集合,且最初的极值点被映射到变换后的极值点集。 +4. 平行线段的长度比例恒定:两条由点$p_1,p_2,p_3,p_4$定义的平行线段,其长度比例在变换后保持不变,即$\frac{\overrightarrow{p_1p_2}}{\overrightarrow{p_3p_4}}=\frac{\overrightarrow{f(p_1)f(p_2)}}{\overrightarrow{f(p_3)f(p_4)}}$ +5. 质心位置恒定:不同质量的点组成集合的质心位置不变。 + +仿射集(affine set)是指欧氏空间$R^n$中具有以下性质的点集$S$,对任意$x,y\in S$,以及$\forall\lambda\in[0,1]$,有$(1-\lambda)x+\lambda y\in S$。 +易证,包含原点的仿射集$S$是$R^n$的子空间。 + +仿射集(affine hull/span)是所有包含集合$S$的仿射集的全体的交集,也是集合$S$中的元素的不断用直线连结后的元素全体。它是包含集合$S$的最小仿射集合,记为$aff(S)$,即: +$$ +aff(S) = \{\sum_{i=1}^k \alpha_i x_i|k>0,x_i\in S,\alpha_i\in R,\sum_{i=1}^k \alpha_i=1\} +$$ +仿射包具有以下性质: +1. aff(aff(S)) = aff(S) +2. aff(S+T) = aff(S) + aff(T) +3. 若$S$为有限维度,则aff(S)为闭集合。 + + + +## 8. Slater条件/定理 + +关于强对偶性的讨论,原书已有详细说明,故不再赘述。 +这里着重讨论下11页左下角附注提到的slater条件,即: + +存在一点$x\in relint(D)$,该点又叫做Slater向量,有: +$$ +\begin{aligned} +&f_i(x)\lt0,i\in[m]\\ +\end{aligned} +$$ +此处$D=\cap_0^m dom(f_i)$。 + +其中,$relint(D)$为$D$的相对内部,即其仿射包的内部所有点,即$relint(D)=int(aff(D))$。 + +相应地,当满足Slater条件且原始问题为凸优化问题时, +1. 强对偶性成立。 +2. 对偶最优解集合非空且有界。 + +这就是Slater定理。 + +$Proof.$ + +首先证明对偶间隙(Duality Gap)为零,即原始问题与对偶问题的目标函数值之差$p^*-d^*=0$。 +考虑集合$\mathcal{V}\subset\mathbb{R}^m\times\mathbb{R}$满足: +$$ +\mathcal{V}:=\{(u,w)\in\mathbb{R}^m\times\mathbb{R}:f_0(x)\le w,f_i(x)\le u_i,\forall i\in[m],\forall x\} +$$ +集合$\mathcal{V}$有以下几个性质: +1. 它是凸集合,由$f_i,i\in\{0\}\cup[m]$的凸性质可知。 +2. 若$(u,w)\in\mathcal{V}$,且$(u',w')\succeq(u,w)$,则$(u',w')\in\mathcal{V}$。 + +易证向量$(0,p^*)\notin int(\mathcal{V})$,否则一定存在$\epsilon>0$,使得$(0,p^*-\epsilon)\in int(\mathcal{V})$,这明显与$p^*$为最优解矛盾。 +因此,必有$(0,p^*)\in \partial\mathcal{V}$或$(0,p^*)\notin\mathcal{V}$。 +应用支撑超平面定理(定理23),我们可以得知,存在一个非零点$(\lambda,\lambda_0)\in\mathbb{R}^m\times\mathbb{R}$,满足以下条件: +$$ +\begin{equation} +(\lambda,\lambda_0)^T(u,w)=\lambda^Tu+\lambda_0w\ge\lambda_0p^*,\forall(u,w)\in\mathcal{V} +\end{equation} +$$ +在此情况下,必然有 $\lambda \succeq 0$ 和 $\lambda_0 \geq 0$。 +这是因为,如果在 $\lambda$ 和 $\lambda_0$ 的分量中出现任何负数,根据集合 $\mathcal{V}$ 的性质二,$(u, w)$ 的分量可以在集合 $\mathcal{V}$ 内取得任意大的值,从而导致式(1)不一定成立。 +因此,我们只需要考虑两种情况: +1. $\lambda_0=0$:此时根据(1),我们可知 +$$ +\begin{equation} +\inf_{(u,w)\in\mathcal{V}}\lambda^Tu=0 +\end{equation} +$$。 +另一方面,根据$\mathcal{V}$的定义,$\lambda\succeq0$且$\lambda\neq0$,可得: +$$ +\inf_{(u,w)\in\mathcal{V}}\lambda^Tu=\inf_{x}\sum_{i=1}^m\lambda_i f_i(x)\le\sum_{i=1}^m\lambda_i f_i(\bar{x})\lt0 +$$ +其中,$\bar{x}$是Slater向量,而最后一个不等式是依据Slater条件得出的。 +此结论刚好与(2)矛盾,因此$\lambda_0\neq0$。 + +2. $\lambda_0\gt0$:我们对(1)左右两边除以$\lambda_0$,有: +$$ +\inf_{(u,w)\in\mathcal{V}}\{\tilde\lambda^Tu+w\}\ge p^* +$$ +此处,$\tilde\lambda:=\frac{\lambda}{\lambda_0}\succeq0$。 + +考虑拉格朗日函数$L:\mathbb{R}^n\times\mathbb{R}^n\rightarrow\mathbb{R}$: +$$ +L(x,\tilde\lambda):=f_0(x)+\sum_{i=1}^m\tilde\lambda_if_i(x) +$$ +其对偶函数为: +$$ +g(\tilde\lambda):=\inf_{x}L(x,\tilde\lambda)\ge p^* +$$ +其对偶问题为: +$$ +\max_{\lambda}g(\lambda),\lambda\succeq0 +$$ +因此,我们可以得到:$d^* \geq p^*$。根据弱对偶性,我们知道 $d^* \leq p^*$,从而可以推断出 $d^* = p^*$。 + +其次证明对偶问题最优解集合非空且有界。对于任意对偶最优解$\tilde\lambda\succeq0$,有: +$$ +\begin{aligned} +d^*=g(\tilde\lambda)&=\inf_{x}\{f_0(x)+\sum_{i=1}^m\tilde\lambda_if_i(x)\}\\ +&\le f_0(\bar{x})+\sum_{i=1}^m\tilde\lambda_if_i(\bar{x}) \\ +&\le f_0(\bar{x})+\max_{i\in[m]}\{f_i(\bar{x})\}[\sum_{i=1}^m\tilde\lambda_i] +\end{aligned} +$$ +因此,我们有: +$$ +\min_{i\in[m]}\{-f_i(\bar{x})\}[\sum_{i=1}^m\tilde\lambda_i]\le f_0(\bar{x})-d^* +$$ +进而,有: +$$ +\|\tilde\lambda\|\le\sum_{i=1}^m\tilde\lambda_i\le\frac{f_0(\bar{x})-d^*}{\min_{i\in[m]}\{-f_i(\bar{x})\}}\lt\infty +$$ +其中,最后一个不等式是依据Slater条件得出的。 + + + +## 9. KKT条件 + +KKT条件(Karush-Kuhn-Tucker条件)在凸优化领域具有至关重要的地位。虽然在原书的第12至13页中对其进行了基本解释,但在这里我们将进行更为深刻的分析。 +在KKT条件中,符号$\lambda_i,i\in[m]$和$\mu_i,i\in[n]$被视为KKT乘数子。 +特别地,在$m=0$的情况下,也就是不等式约束条件不存在的情况下,KKT条件退化为拉格朗日条件。此时,KKT乘数子也被称为拉格朗日乘数子。 +下面给出KKT条件的证明: + +$Proof.$ + +首先,对于 $x^*,(\mu^*,\lambda^*)$ 满足KKT条件等价于它们构成一个纳什均衡。 +固定$(\mu^*,\lambda^*)$,并变化$x$,均衡等价于拉格朗日函数在$x^*$处的梯度为0,即主问题稳定性(Stationarity)。 +固定$x$,并变化$(\mu^*,\lambda^*)$,均衡等价于主问题约束(feasibility)和互补松弛条件。 +充分性: 解对 $x^*,(\mu^*,\lambda^*)$ 满足KKT条件,因此是一个纳什均衡,从而消除了对偶间隙。 +必要性: 任何解对 $x^*,(\mu^*,\lambda^*)$ 必然消除对偶间隙,因此它们必须构成一个纳什均衡,因此它们满足KKT条件。 + +这里对KKT和Slater条件进行区分: +1. KKT条件是一组用于确定约束优化问题中解的最优性的条件。它们通过将约束纳入条件,将无约束优化中将目标函数的梯度设为零的想法扩展到约束优化问题中。 +Slater条件是凸优化中用于确保强对偶性的特定约束条件,即主问题和对偶问题最优解的等价性。 +2. KKT条件包括对偶问题约束,互补松弛条件,主问题约束和稳定性。它们整合了目标和约束函数的梯度,以及KKT乘数子,以形成最优性条件。 +Slater条件要求存在一个严格可行点,即严格满足所有不等式约束的点。 +3. 当点满足KKT条件时,它表明了该问题的局部最优解。它们弥合了主问题和对偶问题之间的差距,对于分析和解决约束优化问题至关重要。 +当满足Slater条件时,它确保了凸优化问题中的强对偶性,这对于简化和解决这些问题至关重要。它不直接提供最优性条件,但为强对偶性铺平了道路,然后利用强对偶性来寻找最优解。 +4. KKT条件较为通用,适用于更广泛的优化问题类别,包括非凸问题。 +Slater条件特定于凸优化问题,用于确保这些问题中的强对偶性。 +5. 对于凸且可微问题,满足KKT条件意味着最优性和强对偶性。相反地,最优性和强对偶性意味着所有问题的KKT条件得到满足。 +当Slater条件成立时,KKT条件是最优解的充要条件,此时强对偶性成立。 + +KKT条件和Slater条件通常被归类为“正则条件”(regularity condition)或“约束资格”(constraint qualification)。 +这些条件为优化问题提供了一个结构化的框架,以便在约束的情况下分析和确定解的最优性。更多的正则条件详见[论文](https://link.springer.com/chapter/10.1007/BFb0120988)。 + + + +## 10. 连续性 + +连续性(continuity)表示该函数的在某处的变化不会突然中断或跳跃。 +形式上,如果函数$f(x)$在$x = a$处满足以下任意条件,则称其在该点连续: +1. 函数$f(x)$在$x = a$处有定义。 +2. 当$x$趋近于$a$时,$f(x)$的极限存在且等于$f(a)$。 + +连续性意味着输入的微小变化会导致输出的微小变化,如果一个函数在其定义域的每个点上都是连续的,那么它被称为连续函数。 + +Lipschitz连续性是连续性的一个更强的形式,它要求函数在变化速度方面有界。具体而言,如果存在一个正常数L,使得函数在任意两点处的函数值之间的绝对差小于等于L乘以这两点之间的距离,那么该函数被称为$L$-Lipschitz连续,即: +$$ +\forall x,y\in dom(f),\exists L>0\\ +||f(x)-f(y)||_2 \leq L||x-y||_2 +$$ +这里,$L$ 被称为Lipschitz常数,表示函数的最大变化率。如果$L$较大,函数可以快速变化,而较小的$L$表示更渐进的变化。 + +事实上,如果一个函数的导数有界,那么它一定是Lipschitz连续的;反之,如果一个可微函数是Lipschitz连续的,那么它的导数一定有界。这里给出证明: +1. 如果函数$f(x)$的导数有界,即存在常数$L\ge0$,使得对于任意$x$,有$|f'(x)|\leq L$。 +根据微分中值定理,对于任意$x\le y$,存在$c\in[x,y]$,使得: +$$ +\begin{aligned} +&\|f(x)-f(y)\|_2=\|f'(c)\|_2\|x-y\|_2\\ +\Rightarrow&\|f(x)-f(y)\|_2\le L \|x-y\|_2 +\end{aligned} +$$ +此时,函数是$L$-Lipschitz连续的。 + +2. 如果函数$f(x)$是$L$-Lipschitz连续的,即对于任意$x,y$,有 +$$ +\|f(x)-f(y)\|_2\le L\|x-y\|_2 +$$ +根据微分中值定理,对于任意$x\le y$,存在$c\in[x,y]$,使得: +$$ +\|f(x)-f(y)\|_2=\|f'(c)\|_2\|x-y\|_2 +$$ +不妨令$x\rightarrow y$,则$c\rightarrow y$,因为$f(y)$具有可微的性质,可得: +$$ +\|f'(y)\|_2=\|\lim_{x\rightarrow y}\frac{f(x)-f(y)}{x-y}\|_2=\lim_{x\rightarrow y}\frac{\|f(x)-f(y)\|_2}{\|x-y\|_2}\le\lim_{x\rightarrow y}L=L +$$ +因为$y$的任意性,所以函数的导数是有界的。 + +连续性关注函数图像中的跳跃或中断的缺失,而Lipschitz连续性关注函数的变化速度。因此,Lipschitz连续性是比连续性更严格的条件。 +一个连续函数不一定是Lipschitz连续的,因为连续性不要求函数的变化速度有界。然而,一个Lipschitz连续的函数必然是连续的,因为Lipschitz连续性蕴含着连续性。 + +Lipschitz连续性的性质在数学的各个领域中经常被应用,例如分析、优化和微分方程的研究。它在保证某些数学问题的解的存在性、唯一性和稳定性方面起着关键作用。 + + + +## 11. 光滑性 + +在数学分析中,函数的光滑性(smoothness)是通过函数在某个域(称为可微性类)上的连续导数的数量来衡量的属性。 +最基本的情况下,如果一个函数在每个点上都可导(因此连续),则可以认为它是光滑的。 + +在优化理论中,L-光滑函数是指具有$L$-Lipschitz连续性的函数,这意味着函数的梯度的幅度在其定义域中的任何地方都被L所限制。 +形式上,函数$f(x)$被称为$L$-光滑,则必须满足以下不等式: +$$ +\forall x,y\in dom(f),\exists L>0\\ +f(y) \le f(x) + \nabla f(x)(y-x) + \frac{L}{2}||y-x||_2^2 +$$ +这里,$L$被称为光滑系数。上式表明,对光滑函数$F(x)$,可以在任意一点处构造一个二次函数作为其上界。 + +如果一个函数的梯度是$L$-Lipschitz连续的,那么它就是L-光滑的。因此,L-光滑性是比连续性更强的条件。换句话说,所有L-光滑的函数都是连续的,但并非所有连续函数都是L-光滑的。 +光滑性关注导数的存在和规则性,而Lipschitz连续性关注限制函数的变化速度。Lipschitz连续性保证变化速度有界,而光滑性确保函数具有定义良好的导数。 + +L-光滑函数在优化中非常有用,因为它们可以加快梯度下降算法的收敛速度。此外,L-光滑性是许多优化算法的重要特性,包括随机梯度下降算法。 + + + +## 12. 次梯度 + +次梯度(subgradient)是凸函数导数的一种推广形式,某些凸函数在特定区域内导数可能并不存在,但我们依旧可以用次梯度来表示此区域内函数变化率的下界。 +形式上,对于凸函数 $f(x)$中任意点$x$, 在点$x_0$处的次梯度$c$必须满足以下不等式: +$$ +f(x)-f(x_0)\ge c(x-x_0) +$$ +根据微分中值定理的逆命题,我们可知$c$通常在$[a,b]$之间取值,其中$a,b$是函数$f(x)$在$x_0$处的左右导数,即: +$$ +a=\lim_{x\rightarrow x_0^-}\frac{f(x)-f(x_0)}{x-x_0},b=\lim_{x\rightarrow x_0^+}\frac{f(x)-f(x_0)}{x-x_0} +$$ +此时,次梯度$c$的集合$[a,b]$被称为次微分,即$\partial f(x_0)$。当$a=b$时,次梯度$c$退化为导数。 + +次梯度在机器学习领域得到了广泛的应用,特别是在训练支持向量机(SVM)和其他具有非可微损失函数的模型中。 +它们还构成了随机次梯度方法的基础,这些方法对于大规模的机器学习问题非常有效。 + + + +## 13. 对偶空间 + +线性泛函(linear form)是指由向量空间$V$到对应标量域$k$的线性映射,满足加法和数乘的性质,即对于任意向量 $x,y\in V$ 和标量 $\alpha\in k$,有: +$$ +\begin{aligned} +&f(x+y)=f(x)+f(y)\\ +&f(\alpha x)=\alpha f(x) +\end{aligned} +$$ +所有$V$到$k$的线性泛函构成的集合被称为$V$的对偶空间(dual space),记为$V^*=Hom_k(V,k)$,对偶空间中的元素被称为对偶向量。 + + + +## 14. 共轭函数 + +将函数变换成另一种函数,常常可以改变其域和属性,使得问题更简单或更易于分析。 +凸共轭是一种应用于函数的变换,可以将该函数转换为凸函数,从而可以使用凸函数的性质来解决原问题。 + +形式上,对于函数$f(x)$,其共轭函数$f^*(y)$定义为: +$$ +f^*(y)=\sup_{x\in dom(f)}(y^Tx-f(x)) +$$ +其中,$dom(f)$是函数$f(x)$的定义域。 + +共轭函数有一些有用的性质,包括: +1. 凸性:函数$f(x)$的共轭函数$f^*(y)$一定是凸函数。证明如下: +$$ +\begin{aligned} +f^*(\lambda y_1+(1-\lambda)y_2) &= \sup_{x\in dom(f)}\{x(\lambda y_1+(1-\lambda)y_2)-f(x)\}\\ +&\le\lambda\sup_{x\in dom(f)}\{xy_1-f(x)\}+(1-\lambda)\sup_{x\in dom(f)}\{xy_2-f(x)\}\\ +&=\lambda f^*(y_1)+(1-\lambda)f^*(y_2)\\ +\end{aligned} +$$ +其中的不等式缩放利用了本章定理19的内容。 + +2. 逆序性:对定义域中所有元素$x$,有$f(x)\le g(x)$,那么一定有$f^*(y)\ge g^*(y)$。证明如下: + +因为$f(x)\le g(x)$,有$xy-f(x)\ge xy-g(x)$。两边同时取上界,根据定义有: +$$ +f^*(y)=sup_{x\in dom(f)}\{xy-f(x)\}\ge sup_{x\in dom(f)}\{xy-g(x)\}=g^*(y) +$$ + +3. 极值变换:若$f$可微,则对于$\forall y$,则有: +$$ +f^*(y)\le f^*(\nabla f(x))=\nabla f^*(x)^Tx-f(x)=-[f(x)+\nabla f(x)^T(0-x)] +$$ +此性质即书中的(1.10),此处给出完整证明: + +为了在$f^*$的定义中找到上确界,我们对右侧$x$求导,并将其设置为零以找到极大值点: +$$ +\frac{d}{dx}(xy−f(x))=y−\nabla f(x)=0 +$$ +此时有$y=\nabla f(x)$,得证。 \ No newline at end of file