跳至主要内容

特徵值與特徵向量 (Eigenvalues and Eigenvectors)

備註

本系列文章內容參考自經典教材 Elementary Linear Algebra (Pearson New International Edition)。本文對應章節:Ch5-1 Eigenvalues and Eigenvectors

前言:變換中不變的方向

當我們對向量空間施加一個線性變換時,大多數向量都會被「拉扯」、「旋轉」或「扭曲」,既改變長度又改變方向。然而,存在某些特殊方向的向量,它們在變換後只被縮放而方向保持不變(或恰好反向)。

這些「不被轉歪的方向」就是特徵向量 (Eigenvectors),而縮放的倍數就是特徵值 (Eigenvalues)

這個看似簡單的觀念卻是線性代數中最強大的工具之一,它揭示了矩陣的「本質行為」,並在物理、工程、資料科學等領域有廣泛應用。


特徵值與特徵向量的定義

基本定義

AA 為一個 n×nn \times n 的方陣。若存在一個非零向量 x\mathbf{x} 與一個純量 λ\lambda,使得:

Ax=λx\boxed{A\mathbf{x} = \lambda\mathbf{x}}

則稱 λ\lambda 為矩陣 AA特徵值 (Eigenvalue),而 x\mathbf{x} 為對應於 λ\lambda特徵向量 (Eigenvector)

重要提醒

特徵向量必須是非零向量。因為對任意純量 λ\lambda,零向量 0\mathbf{0} 都滿足 A0=λ0=0A\mathbf{0} = \lambda\mathbf{0} = \mathbf{0},這是平凡且沒有意義的情況。

幾何意義

從幾何角度來說,特徵向量是那些在線性變換 T(x)=AxT(\mathbf{x}) = A\mathbf{x} 下「方向不變」的向量。變換 AA 對這些向量的效果僅僅是沿著該方向進行縮放。

下圖展示了這個核心概念。注意觀察:大多數向量(如 v1,v2\mathbf{v}_1, \mathbf{v}_2)在變換後既改變了方向又改變了長度,但特徵向量 x\mathbf{x} 只被縮放,方向保持不變:

特徵向量的直覺


特徵值的唯一性

一個矩陣 AA 可以有多個不同的特徵值。然而,對於任何一個特定的特徵向量 x\mathbf{x},它只能「忠誠於」一個特徵值。

特徵值唯一性

為什麼特徵值對於特定向量是唯一的?

假設向量 x\mathbf{x} 同時是 λ1\lambda_1λ2\lambda_2 的特徵向量,則:

Ax=λ1xAx=λ2xA\mathbf{x} = \lambda_1 \mathbf{x} \quad \text{且} \quad A\mathbf{x} = \lambda_2 \mathbf{x}

由此得 λ1x=λ2x\lambda_1 \mathbf{x} = \lambda_2 \mathbf{x},即 (λ1λ2)x=0(\lambda_1 - \lambda_2)\mathbf{x} = \mathbf{0}

由於 x0\mathbf{x} \neq \mathbf{0}(特徵向量必須非零),因此 λ1=λ2\lambda_1 = \lambda_2

直覺理解

當我們對向量 x\mathbf{x} 施加變換 AA 時,輸出 AxA\mathbf{x} 是唯一確定的。既然輸出固定,而 Ax=λxA\mathbf{x} = \lambda \mathbf{x} 表示輸出必須是 x\mathbf{x} 的純量倍數,那麼這個縮放因子 λ\lambda 自然也是唯一的。

反過來:一個特徵值可對應無限多個特徵向量

雖然每個特徵向量只對應一個特徵值,但反過來,一個特徵值可以對應無限多個特徵向量

x\mathbf{x}λ\lambda 的特徵向量,則對於任意非零純量 cc,向量 cxc\mathbf{x} 也是 λ\lambda 的特徵向量:

A(cx)=c(Ax)=c(λx)=λ(cx)A(c\mathbf{x}) = c(A\mathbf{x}) = c(\lambda\mathbf{x}) = \lambda(c\mathbf{x})

換句話說,同方向上的所有非零向量都是相同特徵值的特徵向量。因此在描述特徵向量時,我們通常只給出一個「代表」,其他都是它的純量倍數。


特徵值的正負與幾何意義

特徵值 λ\lambda符號具有重要的幾何意義:

正負特徵值的幾何意義

特徵值類型幾何效果
λ>1\lambda > 1向量沿著該方向被拉伸
0<λ<10 < \lambda < 1向量沿著該方向被壓縮
λ<0\lambda < 0向量被翻轉到相反方向,同時可能伸縮
λ=1\lambda = 1向量在該方向完全不變
λ=0\lambda = 0向量被壓扁到零向量(維度塌縮)

如何求特徵值:特徵多項式

從定義到方程式

要找到 AA 的特徵值,我們從定義出發:

Ax=λxA\mathbf{x} = \lambda\mathbf{x}

將右邊改寫:Ax=λIxA\mathbf{x} = \lambda I\mathbf{x}(其中 II 是單位矩陣),然後移項:

AxλIx=0A\mathbf{x} - \lambda I\mathbf{x} = \mathbf{0} (AλI)x=0\colorbox{yellow}{$(A - \lambda I)\mathbf{x} = \mathbf{0}$}

這是一個齊次線性方程組。我們需要找到非平凡解(即 x0\mathbf{x} \neq \mathbf{0})。

非平凡解存在的條件

根據線性方程組的理論,齊次方程組 (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} 存在非平凡解的充要條件是:

det(AλI)=0\colorbox{yellow}{$\det(A - \lambda I) = 0$}

這是因為:若 det(AλI)0\det(A - \lambda I) \neq 0,則 (AλI)(A - \lambda I) 可逆,方程組只有平凡解 x=0\mathbf{x} = \mathbf{0}

換言之,我們需要 (AλI)(A - \lambda I) 的 column vectors 線性相依 (Linearly Dependent),這樣才有非零解存在。如果忘記了線性相依的概念,可以回顧 Ch1-7 線性獨立與線性相依

特徵多項式推導

特徵多項式與特徵方程式

det(AλI)\det(A - \lambda I) 展開後,會得到一個關於 λ\lambda 的多項式,稱為特徵多項式 (Characteristic Polynomial)

p(λ)=det(AλI)p(\lambda) = \det(A - \lambda I)

對於 n×nn \times n 矩陣,p(λ)p(\lambda)nn 次多項式。

p(λ)=0p(\lambda) = 0 所得的方程式稱為特徵方程式 (Characteristic Equation)

det(AλI)=0\colorbox{lightblue}{$\det(A - \lambda I) = 0$}

特徵方程式的就是矩陣 AA特徵值

根的個數

代數基本定理nn 次多項式在複數範圍內恰有 nn 個根。

所謂「計數重數 (counting multiplicity)」是指:當某個根重複出現時,每出現一次就計算一次。例如 (λ2)3=0(\lambda - 2)^3 = 0 有三重根 λ=2\lambda = 2,在「計數重數」的計算方式下要算作 3 個根。因此,n×nn \times n 矩陣在複數範圍內恰有 nn 個特徵值(計數重數)。

但若我們只考慮實數特徵值,則可能少於 nn 個,原因有二:

  1. 複數根:某些根可能是複數而非實數(例如 λ2+1=0\lambda^2 + 1 = 0 的根 ±i\pm i
  2. 重根:多個相同的根在計算「相異特徵值個數」時只算作一個

範例:計算特徵值與特徵向量

範例 1:2×2 矩陣

求矩陣 A=[4233]A = \begin{bmatrix} 4 & 2 \\ 3 & 3 \end{bmatrix} 的特徵值與特徵向量。

Step 1:建立特徵方程式

AλI=[4233]λ[1001]=[4λ233λ]A - \lambda I = \begin{bmatrix} 4 & 2 \\ 3 & 3 \end{bmatrix} - \lambda \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} 4-\lambda & 2 \\ 3 & 3-\lambda \end{bmatrix}

Step 2:計算行列式並令其為零

det(AλI)=(4λ)(3λ)(2)(3)=0\det(A - \lambda I) = (4-\lambda)(3-\lambda) - (2)(3) = 0 124λ3λ+λ26=012 - 4\lambda - 3\lambda + \lambda^2 - 6 = 0 λ27λ+6=0\lambda^2 - 7\lambda + 6 = 0 (λ1)(λ6)=0(\lambda - 1)(\lambda - 6) = 0

特徵值λ1=1\boxed{\lambda_1 = 1}λ2=6\boxed{\lambda_2 = 6}

Step 3:對每個特徵值,求對應的特徵向量

對於 λ1=1\lambda_1 = 1

(A1I)x=[3232]x=0(A - 1 \cdot I)\mathbf{x} = \begin{bmatrix} 3 & 2 \\ 3 & 2 \end{bmatrix}\mathbf{x} = \mathbf{0}

化簡後得 3x1+2x2=03x_1 + 2x_2 = 0,即 x1=23x2x_1 = -\frac{2}{3}x_2

x2=3x_2 = 3,則 x1=2x_1 = -2

特徵向量x1=[23]\mathbf{x}_1 = \begin{bmatrix} -2 \\ 3 \end{bmatrix}(或其任何非零純量倍數)

對於 λ2=6\lambda_2 = 6

(A6I)x=[2233]x=0(A - 6 \cdot I)\mathbf{x} = \begin{bmatrix} -2 & 2 \\ 3 & -3 \end{bmatrix}\mathbf{x} = \mathbf{0}

化簡後得 2x1+2x2=0-2x_1 + 2x_2 = 0,即 x1=x2x_1 = x_2

x1=x2=1x_1 = x_2 = 1

特徵向量x2=[11]\mathbf{x}_2 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}

範例 2:驗證特徵值與特徵向量

驗證 λ=4\lambda = 4 是否為 A=[1322]A = \begin{bmatrix} 1 & 3 \\ 2 & 2 \end{bmatrix} 的特徵值,並求對應的特徵向量。

驗證方法:檢查 det(A4I)=0\det(A - 4I) = 0 是否成立。

A4I=[143224]=[3322]A - 4I = \begin{bmatrix} 1-4 & 3 \\ 2 & 2-4 \end{bmatrix} = \begin{bmatrix} -3 & 3 \\ 2 & -2 \end{bmatrix} det(A4I)=(3)(2)(3)(2)=66=0\det(A - 4I) = (-3)(-2) - (3)(2) = 6 - 6 = 0 \quad \checkmark

因此 λ=4\lambda = 4 確實是特徵值。

求特徵向量:解 (A4I)x=0(A - 4I)\mathbf{x} = \mathbf{0}

[3322]x=0\begin{bmatrix} -3 & 3 \\ 2 & -2 \end{bmatrix}\mathbf{x} = \mathbf{0}

3x1+3x2=0-3x_1 + 3x_2 = 0,即 x1=x2x_1 = x_2

特徵向量x=[11]\mathbf{x} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}(或其非零純量倍數)


特徵空間 (Eigenspace)

定義

對於矩陣 AA 的一個特徵值 λ\lambda,所有對應於 λ\lambda 的特徵向量(加上零向量)所形成的集合,稱為 λ\lambda特徵空間 (Eigenspace),記作 EλE_\lambda

Eλ={xRn(AλI)x=0}\colorbox{yellow}{$E_\lambda = \{\mathbf{x} \in \mathbb{R}^n \mid (A - \lambda I)\mathbf{x} = \mathbf{0}\}$}

Eigenspace = Null Space

從定義可以看出,特徵空間 EλE_\lambda 正是矩陣 (AλI)(A - \lambda I)Null Space

Eλ=Null(AλI)\colorbox{lightblue}{$E_\lambda = \text{Null}(A - \lambda I)$}

特徵空間示意圖

Eigenspace 是一個空間!

我們算特徵向量時,是在解 (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0}。 這個方程式的解(eigenvectors)形成的集合,叫做 Null Space(或 Eigenspace)。

這是一個「子空間」(Subspace),而不僅僅是一個點:

  • 如果 Null Space 是一條線(維度 = 1),那整條線上的非零向量都是特徵向量
  • 如果 Null Space 是一個平面(維度 = 2),那整個平面上的非零向量都是特徵向量

這也解釋了為什麼特徵向量「不唯一」:任何純量倍數(甚至線性組合)都還是特徵向量!

Eigenspace 的維度與幾何重複度

特徵空間的維度(即 Null(AλI)\text{Null}(A - \lambda I) 的維度)稱為該特徵值的幾何重複度 (Geometric Multiplicity),記作 gm(λ)\text{gm}(\lambda)

由 Rank-Nullity 定理:

gm(λ)=dim(Eλ)=nullity(AλI)=nrank(AλI)\text{gm}(\lambda) = \dim(E_\lambda) = \text{nullity}(A - \lambda I) = n - \text{rank}(A - \lambda I)

幾何重複度的意義

幾何重複度告訴我們:對於這個特徵值 λ\lambda,我們能找到多少個線性獨立的特徵向量。

  • 如果 gm(λ)=1\text{gm}(\lambda) = 1,則 λ\lambda 對應的所有特徵向量都在同一條線上(彼此為純量倍數)
  • 如果 gm(λ)=2\text{gm}(\lambda) = 2,則能找到兩個線性獨立的特徵向量,它們張成一個平面

這個概念在後續的對角化 (Diagonalization) 中有關鍵作用:一個矩陣能否對角化,取決於每個特徵值的幾何重複度是否等於其代數重複度 (Algebraic Multiplicity)(即該根在特徵多項式中的重複次數)。

Null Space 複習

關於 Null Space 的詳細概念,請參考 Ch2-8 線性變換的組成與可逆性


特殊矩陣的特徵值

三角矩陣的特徵值

對於三角矩陣(上三角或下三角),其特徵值就是對角線元素

A=[a110a2200a33]特徵值為 a11,a22,a33A = \begin{bmatrix} a_{11} & * & * \\ 0 & a_{22} & * \\ 0 & 0 & a_{33} \end{bmatrix} \quad \Rightarrow \quad \text{特徵值為 } a_{11}, a_{22}, a_{33}

原因

AλI=[a11λ0a22λ00a33λ]A - \lambda I = \begin{bmatrix} a_{11}-\lambda & * & * \\ 0 & a_{22}-\lambda & * \\ 0 & 0 & a_{33}-\lambda \end{bmatrix}

三角矩陣的行列式等於對角線元素的乘積:

det(AλI)=(a11λ)(a22λ)(a33λ)=0\det(A - \lambda I) = (a_{11}-\lambda)(a_{22}-\lambda)(a_{33}-\lambda) = 0

因此特徵值為 λ=a11,a22,a33\lambda = a_{11}, a_{22}, a_{33}

對角矩陣的特徵值

對角矩陣 (Diagonal Matrix) 是指除了主對角線以外,所有元素都為零的方陣。它是三角矩陣的特例,因此其特徵值同樣是對角線元素。

例如,考慮以下 3×33 \times 3 對角矩陣:

D=[200050003]D = \begin{bmatrix} 2 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & -3 \end{bmatrix}

其特徵值為 λ1=2\lambda_1 = 2, λ2=5\lambda_2 = 5, λ3=3\lambda_3 = -3

而且,對應的特徵向量恰好是標準基向量 e1,e2,,en\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n

讓我們驗證標準基向量 e1=[100]\mathbf{e}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}λ1=2\lambda_1 = 2 的特徵向量:

De1=[200050003][100]=[200]=2[100]=2e1D\mathbf{e}_1 = \begin{bmatrix} 2 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & -3 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 2 \\ 0 \\ 0 \end{bmatrix} = 2\begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = 2\mathbf{e}_1

確實滿足 De1=λ1e1D\mathbf{e}_1 = \lambda_1 \mathbf{e}_1!同理,e2\mathbf{e}_2 對應 λ2=5\lambda_2 = 5e3\mathbf{e}_3 對應 λ3=3\lambda_3 = -3

這是因為對角矩陣的結構使得:乘以第 ii 個標準基向量時,只會「挽出」第 ii 個對角線元素


特徵值與矩陣性質的關係

當我們知道矩陣 AA 的特徵值後,可以推導出相關矩陣的特徵值:

矩陣特徵值
AAλ\lambda
AkA^k (k 為正整數)λk\lambda^k
A1A^{-1} (若 AA 可逆)1λ\frac{1}{\lambda}
A+cIA + cIλ+c\lambda + c
cAcAcλc\lambda

證明示例(AkA^k 的情況)

Ax=λxA\mathbf{x} = \lambda\mathbf{x},則:

A2x=A(Ax)=A(λx)=λ(Ax)=λ(λx)=λ2xA^2\mathbf{x} = A(A\mathbf{x}) = A(\lambda\mathbf{x}) = \lambda(A\mathbf{x}) = \lambda(\lambda\mathbf{x}) = \lambda^2\mathbf{x}

以此類推,Akx=λkxA^k\mathbf{x} = \lambda^k\mathbf{x}

特徵向量不變!

上述所有變換中,特徵向量保持不變,只是對應的特徵值改變了。

這也說明了為什麼 AA 可逆的條件是所有特徵值都非零,否則 A1A^{-1} 的特徵值 1λ\frac{1}{\lambda} 就無法定義。


補充:特徵值與行列式、跡的關係

對於 n×nn \times n 矩陣 AA,設其特徵值為 λ1,λ2,,λn\lambda_1, \lambda_2, \ldots, \lambda_n(計數重數),則特徵值與行列式、跡之間存在優美的關係。

行列式 (Determinant)

det(A)=λ1λ2λn\colorbox{yellow}{$\det(A) = \lambda_1 \cdot \lambda_2 \cdots \lambda_n$}

行列式等於所有特徵值的乘積

推導過程

特徵多項式為 p(λ)=det(AλI)p(\lambda) = \det(A - \lambda I)。由於特徵值 λ1,λ2,,λn\lambda_1, \lambda_2, \ldots, \lambda_n 是這個多項式的根,我們可以將其因式分解:

p(λ)=det(AλI)=(1)n(λλ1)(λλ2)(λλn)p(\lambda) = \det(A - \lambda I) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)

現在,令 λ=0\lambda = 0

p(0)=det(A0I)=det(A)p(0) = \det(A - 0 \cdot I) = \det(A)

另一方面,將 λ=0\lambda = 0 代入因式分解式:

p(0)=(1)n(0λ1)(0λ2)(0λn)=(1)n(λ1)(λ2)(λn)p(0) = (-1)^n (0 - \lambda_1)(0 - \lambda_2) \cdots (0 - \lambda_n) = (-1)^n \cdot (-\lambda_1)(-\lambda_2) \cdots (-\lambda_n) =(1)n(1)nλ1λ2λn=λ1λ2λn= (-1)^n \cdot (-1)^n \cdot \lambda_1 \lambda_2 \cdots \lambda_n = \lambda_1 \lambda_2 \cdots \lambda_n

因此 det(A)=λ1λ2λn\det(A) = \lambda_1 \cdot \lambda_2 \cdots \lambda_n

推論AA 可逆 \Leftrightarrow det(A)0\det(A) \neq 0 \Leftrightarrow 所有特徵值都非零。

跡 (Trace)

tr(A)=a11+a22++ann=λ1+λ2++λn\colorbox{yellow}{$\text{tr}(A) = a_{11} + a_{22} + \cdots + a_{nn} = \lambda_1 + \lambda_2 + \cdots + \lambda_n$}

矩陣的跡(對角線元素之和)等於所有特徵值的

推導過程

特徵多項式 p(λ)=det(AλI)p(\lambda) = \det(A - \lambda I) 是一個 nn 次多項式。將其展開:

p(λ)=(1)nλn+(1)n1(trA)λn1++det(A)p(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} (\text{tr}A) \lambda^{n-1} + \cdots + \det(A)

這可以通過展開 det(AλI)\det(A - \lambda I) 並收集 λn1\lambda^{n-1} 的係數得到。λn1\lambda^{n-1} 的係數來自於對角線元素 (a11λ)(a22λ)(annλ)(a_{11} - \lambda)(a_{22} - \lambda) \cdots (a_{nn} - \lambda) 的展開。

另一方面,從因式分解式:

p(λ)=(1)n(λλ1)(λλ2)(λλn)p(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)

展開後,λn1\lambda^{n-1} 的係數為 (1)n(1)(λ1+λ2++λn)=(1)n1(λ1+λ2++λn)(-1)^n \cdot (-1) \cdot (\lambda_1 + \lambda_2 + \cdots + \lambda_n) = (-1)^{n-1}(\lambda_1 + \lambda_2 + \cdots + \lambda_n)

比較兩者的 λn1\lambda^{n-1} 係數,得:

tr(A)=λ1+λ2++λn\text{tr}(A) = \lambda_1 + \lambda_2 + \cdots + \lambda_n
2×2 矩陣的快速計算

對於 2×22 \times 2 矩陣 A=[abcd]A = \begin{bmatrix} a & b \\ c & d \end{bmatrix}

  • λ1+λ2=tr(A)=a+d\lambda_1 + \lambda_2 = \text{tr}(A) = a + d
  • λ1λ2=det(A)=adbc\lambda_1 \cdot \lambda_2 = \det(A) = ad - bc

特徵多項式可直接寫為:

λ2(trA)λ+det(A)=0\lambda^2 - (\text{tr}A)\lambda + \det(A) = 0