机器学习线性代数常用知识汇总

1. 向量

1.1 基本概念

【向量（vector）】：一个同时具有大小和方向的几何对象。

【行向量（row vector）】：一个1×n的矩阵，即矩阵由一个含有n个元素的行所组成：

$x=\left [ x_1,x_2,...,x_n \right ]$

【列向量（column vector）】：一个m × 1的矩阵，即矩阵由一个包含m个元素的列组成：

$x=\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix}$

行向量的转置是一个列向量，反之亦然。

【向量的模】：向量的长度叫做向量的模。假设向量 v = (v1, v2, …, vn), 则v的模。记作：

$|\vec{v}|=\sqrt{v_1^2+v_2^2+...+v_n^2}$

【单位向量】：模为1的向量就是单位向量。

【向量的基（也称为基底）】：给定一个向量空间 V。 V的一组基B，是指V里面的可线性生成V的一个线性无关子集。B的元素称为基向量。

1.2 常见运算

向量常见的运算有：加法，减法，标量乘向量以及向量之间的乘法（叉乘、点乘）。

在机器学习中，我们需要重点看加法，标量乘向量和点乘。

设：存在两个n维度向量a = (a1, a2, …, an) 和 b = (b1, b2, …, bn)

1.2.1 向量加法

a + b = (a1 + b1, a2 + b2, …, an + bn)

1.2.2 向量乘以标量

设标量为k, 则 ka = (ka1, ka2, …, kan)

1.2.3 向量点乘

$\vec{a}\cdot \vec{b}=\sum_{i=1}^na_ib_i=a_1b_1+a_2b_2+...+a_mb_n$

1.3 向量性质

1.3.1 线性相关（linearly dependent）

假设V是在域K上的向量空间。V中的一组(m个)元素中，若有向量可用有限个其他向量的线性组合所表示，则称为线性相关，反之称为线性无关。

换言之，如果v1, v2, ..., vn 是V的向量，如果从域K 中有非全零的元素a1, a2, ..., an，适合 a1v1 + a2v2 + ... + anvn = 0, 则称它们为线性相关。

如果K中不存在这样的元素，那么v1, v2, ..., vn是线性无关或线性独立。

1.3.2 线性相关的几何意义

说向量组v1, v2, ... vm 线性相关，则：

当m = 1时，若v1 = 0，则只含有v1一个元素的向量组线性相关，否则，线性无关。

当m = 2时，如果 a1v1 + a2v2 = 0,则v1和v2线性相关，也就是说v1和v2的分量对应成比例，在几何意义上，v1和v2共线。否则，二者线性无关。

当m =3时， v1,v2,v3线性相关的几何意义是三者共面。

1.3.3 正交

若内积空间中两向量的内积为0，则称它们是正交的。正交是垂直这一直观概念的推广。

1.3.4 正交 vs 线性无关

正交的向量一定线性无关，线性无关的向量不一定正交。

2. 线性变换与线性函数

2.1 线性变换

在两个向量空间之间的一种保持向量加法和标量乘法的特殊映射，称为线性变换（或线性映射）。

2.2 线性函数

设 V 和 W 是在相同域 K 上的向量空间。法则 f : V → W 被称为是线性映射，如果对于 V 中任何两个向量 x 和 y 与 K 中任何标量 a，满足下列两个条件:

(1) 可加性： f(x+y) = f(x) + f(y) (2) 齐次性： f(ax) = af(x)

即其维持向量加法与标量乘法。

上述等价于要求对于任何向量 x1, ..., xm 和标量 a1, ..., am，下面方程成立：

$f(a_1x_1+\cdots +a_mx_m)=a_1f(x_1)+\cdots+a_mf(x_m)$

当上述的法则 f : V → W为函数时，就是**线性函数**。

比较直观的理解就是大部分一次函数，例如二维空间中的f(x)=ax+b，其中a,b为常数。

3. 矩阵

3.1 m x n 矩阵

3.1.1 定义

将一些元素排列成若干行，每行放上相同数量的元素，就是一个矩阵。

一个m×n的矩阵是一个由m行n列元素排列成的矩形阵列，矩阵里的元素可以是数字、符号或数学式。

3.1.2 矩阵的基本运算

最基本运算包括矩阵加（减）法，数乘和转置运算。

【1】矩阵加法：m×n矩阵A和B的和（差）：A±B为一个m×n矩阵，其中每个元素是A和B相应元素的和（差）: (A ± B)i,j = Ai,j ± Bi,j，其中1 ≤ i ≤ m , 1 ≤ j ≤ n.

【2】矩阵数乘：标量c与矩阵A的数乘：cA的每个元素是A的相应元素与c的乘积，(cA)i,j = cAi,j

【3】矩阵转置：m×n矩阵A的转置是一个n×m的矩阵，记为AT（或A'），其中的第i个行向量是原矩阵A的第i个列向量；或者说，转置矩阵AT第i行第j列的元素是原矩阵A第j行第i列的元素， (AT)i,j = Aj,i

【4】矩阵的乘法：两个矩阵的乘法仅当第一个矩阵A的列数和另一个矩阵B的行数相等时才能定义。如A是m×n矩阵和B是n×p矩阵，它们的乘积AB是一个m×p矩阵，它的一个元素

$[AB]{ij}=A{i,1}B_{1,j}+A_{i,2}B_{2,j}+\cdots+A_{i,n}B_{n,j}=\sum_{r=1}^nA_{i,r}B_{r,j}$

其中1 ≤ i ≤ m, 1 ≤ j ≤ p

3.1.3 矩阵运算的规律

[1] 矩阵的加法运算满足交换律：

A + B = B + A。

[2] 矩阵的转置和数乘运算满足分配律：

(A + B)T = AT + BT c(A + B) = cA + cB

并满足类似于结合律的规律： c(AT) = (cA)T.

[3] 矩阵的乘法满足结合律和对矩阵加法的分配律（左分配律和右分配律）：

• 结合律：(AB)C = A(BC), • 左分配律：(A + B)C = AC + BC, • 右分配律：C(A + B) = CA + CB.

[4] 矩阵的乘法与数乘运算之间也满足类似结合律的规律:

c(AB) = (cA)B = A(cB)

[5] 矩阵的乘法与转置之间则满足倒置的分配律：

(AB)T = BTAT

[6] 矩阵乘法不满足交换律。

一般来说，矩阵A及B的乘积AB存在，但BA不一定存在，即使存在，大多数时候AB ≠ BA。

3.1.4 矩阵与线性变换的关系

矩阵是线性变换的便利表达法。

以R^n表示所有长度为n的行向量的集合。每个m×n的矩阵A都代表了一个从R^n射到R^m的线性变换。

也就是说，对每个线性变换f: R^n -> R^m，都存在唯一m×n矩阵A使得对所有R^n中的元素x，f(x) = Ax。

3.1.5 相关基本概念

【矩阵的秩】：用初等行变换将矩阵A化为阶梯形矩阵, 则矩阵中非零行的个数就定义为这个矩阵的秩。

【列秩】：一个矩阵A的列秩是A的线性独立的纵列的最大数目。

【行秩】：一个矩阵A的行秩是A的线性独立的横行的最大数目。

行秩和列秩的关系：矩阵的列秩和行秩总是相等的。因此它们可以简单地称作矩阵A的秩。通常表示为r(A)，rk(A)或rank A。

【满秩矩阵（non-singular matrix）】:若矩阵秩等于行数，称为行满秩；若矩阵秩等于列数，称为列满秩。既是行满秩又是列满秩则为n阶矩阵即n阶方阵。

【子式】：设A为一个 m×n 的矩阵，k为一个介于1和m之间的整数，并且k≤n。A的一个k阶子式是在A中选取k行k列之后所产生的k2个交点组成的方块矩阵的行列式。

【余子式】：A的一个k阶余子式是A去掉了k行与k列之后得到的(m-k)×(n-k)矩阵的行列式。

NOTE: 在m=/=n的情况下，这样的行列式如何计算是没有定义的，仅仅在概念上存在。

【零矩阵】：即所有元素皆为0的矩阵。

NOTE：对称矩阵，对角矩阵，矩阵的对角化等都有针对mxn矩阵的一般定义，但是在应用的层面，我们不必进行这些一般性的讨论，而只需要关注其针对nxn阶方阵的情形即可，因此，大多数情况下，对于矩阵的性质和运算，我们集中关注方阵这一特例。

3.2 n x n方阵

方阵具备一些一般m x n矩阵(m =/= n) 所不具备的特征和属性，使得它们特别有用。而一些运算，如对角化等在方阵中比一般矩阵中多见而且更容易，因此，许多问题我们集中在方阵里讨论。

3.2.1 基本概念

【方阵】：在所有矩阵中，行和列相等的那类称为方阵。

【行列式】：将一个nxn的方阵A映射到一个标量，记作|A|或det(A)。虽然记作|A|，但其实一个矩阵的行列式有可能是负数，这里要注意和绝对值区别。

• 1阶矩阵的行列式：就是它本身。

• 2阶矩阵的行列式：

$\begin{vmatrix}
a_{1,1} & a_{1,2} \\
a_{2,1} & a_{2,2}
\end{vmatrix} = a_{1,1} a_{2,2}-a_{1,2} a_{2,1}$

• 3阶矩阵的行列式：

$\begin{vmatrix}
a_{1,1} & a_{1,2} & a_{1,3} \\
a_{2,1} & a_{2,2} & a_{2,3} \\
a_{3,1} & a_{3,2} & a_{3,3} \\
\end{vmatrix} = a_{1,1} a_{2,2} a_{3,3}+a_{1,2} a_{2,3} a_{3,1}+a_{1,3} a_{2,1} a_{3,2}-a_{1,3}a_{2,2} a_{3,1}-a_{1,1}a_{2,3} a_{3,2}-a_{1,2}a_{2,1} a_{3,3}$

【主子式】：设A是一个n阶方阵，I和J是集合{1,...,n}的一个k元子集，那么[A]I,J表示A的k阶子式。其中抽取的k行的行标是I中所有元素，k列的列标是J中所有元素。

如果I=J，那么称[A]I,J是A的主子式。

如果I=J={1,...,k}（所取的是左起前k列和上起前k行），那么相应的主子式被称为顺序主子式。一个n×n的方块矩阵有n个顺序主子式。

【余子式】：设A为一个 n阶方阵， A关于一个k阶子式的余子式，是A去掉了这个k阶子式所在的行与列之后得到的(n-k)×(n-k)矩阵的行列式，简称为A的k阶余子式。

A关于第i行第j列的余子式Mij是指A中去掉第i行第j列后得到的n−1阶子矩阵的行列式。有时可以简称为A的（i，j）余子式。记作Mij。

【余子矩阵】: n阶方阵A的余子矩阵是指将A的(i, j)代数余子式摆在第i行第j列所得到的矩阵，记为C。

Cij = (−1)^(i + j) Mij

【伴随矩阵】：上述余子矩阵C的转置矩阵，称为n阶方阵A的伴随矩阵。记作A*。

【单位矩阵】：单位矩阵（记作I）的对角线全是1而其他位置全是0。

【置换矩阵】：是一种系数只由0和1组成的方块矩阵。置换矩阵的每一行和每一列都恰好有一个1，其余的系数都是0。

3.2.2 逆矩阵，可逆矩阵，（非）奇异矩阵及可逆与其他概念的关系

【逆矩阵】：给定一个n阶方阵A，若存在一n 阶方阵B，使得AB=BA=I，其中I 为n 阶单位矩阵，则称A 是可逆的，且B 是A 的逆阵，记作 A^(-1)。

【可逆矩阵】：若n 阶方阵A 的逆阵存在，则称A 为非奇异方阵或可逆方阵。

可逆和满秩的关系：对n阶方阵而言，满秩等价于可逆。

可逆和伴随的关系：如果n阶方阵A可逆，那么它的逆矩阵和它的伴随矩阵之间只差一个系数。

$A^{-1}=\frac{A^* }{|A|}$

然而，伴随矩阵对不可逆的矩阵也有定义，并且不需要用到除法。

【奇异方阵】：若方块矩阵A满足条件|A|=0，则称A为奇异方阵，否则称为非奇异方阵。

可逆和非奇异方阵的关系：对于n阶方阵而言，非奇异等价于可逆矩阵。

3.2.3 对称矩阵、对角矩阵、可对角化和对角化

【对称矩阵】：对称矩阵是一个n阶方阵，其转置矩阵和自身相等：

$A=A^T$

对称矩阵中的右上至左下方向元素以主对角线（左上至右下）为轴对称。若将其写作A=（aij），则：aij = aji

方阵与对称的关系：对于任何方阵A，A + AT 都是对称矩阵。

【对角矩阵】: 是一个主对角线之外的元素皆为0的n阶方阵。对角线上的元素可以为0或其他值。

对角与对称的关系：对角矩阵都是对称矩阵。

【可对角化】：如果一个方块矩阵 A 相似于对角矩阵，也就是说，如果存在一个可逆矩阵 P 使得 P −1AP 是对角矩阵，则它就被称为可对角化的。

方阵可对角化充要条件：n x n方阵可进行对角化的充分必要条件是：

(1) n阶方阵存在n个线性无关的特征向量。

(2) 如果n阶方阵存在重复的特征值，每个特征值的线性无关的特征向量的个数恰好等于该特征值的重复次数

【对角化】：将可对角化的方阵A通过与转换矩阵P的运算，转换为对角矩阵的过程叫做对角化。

3.2.4 相似矩阵和相似变换

【相似矩阵】：两个系数域为K的n阶方阵A与B为域L上的相似矩阵当且仅当存在一个系数域为L的n×n的可逆矩阵P，使得:

$P^{-1}AP = B$

这时，称矩阵A与B“相似”。

【相似变换】：相似变换是矩阵之间的一种等价关系。也就是说满足：

反身性：任意矩阵都与其自身相似。
对称性：如果A和B相似，那么B也和A相似。
传递性：如果A和B相似，B和C相似，那么A也和C相似。

3.2.5 正交矩阵和正交变换

【正交矩阵】：一个n阶方阵Q，其元素为实数，而且行（列）向量为两两正交的单位向量，使得该矩阵的转置矩阵为其逆矩阵。

$Q^T = Q^{-q}\Leftrightarrow Q^TQ=QQ^T=I$

其中，I为单位矩阵。正交矩阵的行列式值必定为+1或-1

【正交变换】：Q为正交矩阵，而v为向量，则Qv称作正交变换。正交变换不改变向量的长度。

3.2.6 用正交阵对对称阵进行合同变换

对于n阶对称阵A，必存在正交阵P，使得：

$P^{-1}AP=P^TAP=\Lambda $

其中 Λ 为以A的n个特征值为对角元的对角阵。这种变换叫做合同变换。A和 Λ 互为合同矩阵。

3.3 实对称矩阵

3.3.1 定义

实对称矩阵是一个n阶方阵，其元素都为实数，且转置矩阵和自身相等：

A=A^T

3.3.2 实对称矩阵的性质

（1）实对称阵的特征值为实数，其特征向量可以取实向量。

（2）实对称矩阵都能对角化，且可用正交矩阵对其进行对角化。

（3）任意的 nxn 实对称矩阵都有 n 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。

故实对称矩阵 A 可被分解成:

$A=Q \Lambda Q^T$

其中 Q 为正交矩阵， Λ 为实对角矩阵。

（4）实对称矩阵不同特征值的特征向量正交。

3.3.3 正定、半正定、负定、半负定

对于一个n×n的实对称矩阵M, 当且仅当它对于所有非零实系数向量z都有：

	(全)	半
正定	$z^TMz>0$	$z^TMz\geqslant 0$
负定	$z^TMz>0$	$z^TMz\leqslant 0$

其中zT表示z的转置。

NOTE: 对于复数对称阵，也有同样概念，但此处不考虑。

4. 特征值和特征向量

4.1 定义

对于n x n方阵A，若标量λ和n维非0列向量v满足：

$Av=\lambda v$

那么称λ为A的特征值，v称为对应于特征值λ的特征向量。

4.2 几何意义

λ反映的是：特征向量v的长度在线性变换A下缩放的比例。

如果特征值为正，则表示v在经过线性变换的作用后方向也不变；如果特征值为负，说明方向会反转；如果特征值为0，则是表示缩回零点。但无论怎样，仍在同一条直线上。

4.3 相关概念

【特征空间】：n阶方阵A所有具有相同的特征值λ的特征向量和零向量一起，组成了一个向量空间，称为A的一个特征空间。

【几何重数】：这个特征空间如果是有限维的，那么它的维数叫做λ的几何重数。

【主特征向量】：模最大的特征值对应的特征向量是A的主特征向量。

【谱】：在有限维向量空间上，一个方阵A的其所有特征值的集合就是A的谱。

【标准正交基】：是元素两两正交的基。称基中的元素为基向量。

4.4 特征向量与系数方程

特征向量也可以看作是关于系数λ的方程：T(x) = λx 的非零解。

4.5 特征值的性质

n阶方阵A=（aij）有n个特征值（其中可能包括重复值）λ1， λ2， … λn，则有

（1）这n个特征值的和为A对角线上各个数的和： λ1 + λ2 + … + λn = a11 + a22 + … + ann

（2）这n个特征值的乘积为A的行列式：λ1λ2…λn = |A|

（3）不相等的特征值所对应的特征向量线性无关。

（4）如果一个n阶方阵有n个不同的特征值，那么矩阵必然存在相似矩阵。