这部分大概过一下算法,AB针对无约束最优化问题,C对应约束最优化问题。
这部分内容是介绍梯度下降, 在NN中用到最多的是SGD, 为什么不介绍SGD?
SGD,S来自与样本的随机。DL中样本很多,通常会分Batch,每个Batch刷的过程就是SGD。实际上数据量小的时候,SGD和GD一样。所以数据的Shuffle就很重要。
在3Blue1Brown中有这样一段描述来说明对偶 $$ Duality\Leftrightarrow Natural-but-Surprising\ correspondence. $$
在约束最优化问题中,常常利用拉格朗日对偶性将原问题转化为对偶问题,通过求解对偶问题得到原始问题的解。
为什么要这么做在CH07中有说明这样做的优点,一是对偶问题往往更容易求解;二是自然引入核函数,进而推广到非线性分类问题
线性组合
在张成的基础上多了个线性无关的约束
注意这里稍微有点,绕。
向量空间的基的个数即向量空间的维数。
一个矩阵的零空间的维数称为矩阵的零度
秩-零度定理:设$A$为一$m\times n$矩阵,则$A$的秩与$A$的零度之和为$n$。
矩阵代表了一种线性变换。 矩阵$A$有四个基本子空间:列空间,行空间,零空间,$A$的转置零空间(左零空间) $$ R(A)={z\in \mathbf{R}^m|\exist x\in \mathbf{R}^n, z=Ax}=C(A) $$
这部分在Strang的书里有四个子空间的关系图,和书中给的差不多。
KL散度是非对称的,也不满足三角不等式,不是严格意义的距离度量。
狄利克雷分布属于指数族分布