特徵值與特徵向量 (Eigenvalues and Eigenvectors)
本系列文章內容參考自經典教材 Elementary Linear Algebra (Pearson New International Edition)。本文對應章節:Ch5-1 Eigenvalues and Eigenvectors。
前言:變換中不變的方向
當我們對向量空間施加一個線性變換時,大多數向量都會被「拉扯」、「旋轉」或「扭曲」,既改變長度又改變方向。然而,存在某些特殊方向的向量,它們在變換後只被縮放而方向保持不變(或恰好反向)。
這些「不被轉歪的方向」就是特徵向量 (Eigenvectors),而縮放的倍數就是特徵值 (Eigenvalues)。
這個看似簡單的觀念卻是線性代數中最強大的工具之一,它揭示了矩陣的「本質行為」,並在物理、工程、資料科學等領域有廣泛應用。
特徵值與特徵向量的定義
基本定義
設 A 為一個 n×n 的方陣。若存在一個非零向量 x 與一個純量 λ,使得:
Ax=λx
則稱 λ 為矩陣 A 的特徵值 (Eigenvalue),而 x 為對應於 λ 的特徵向量 (Eigenvector)。
特徵向量必須是非零向量。因為對任意純量 λ,零向量 0 都滿足 A0=λ0=0,這是平凡且沒有意義的情況。
幾何意義
從幾何角度來說,特徵向量是那些在線性變換 T(x)=Ax 下「方向不變」的向量。變換 A 對這些向量的效果僅僅是沿著該方向進行縮放。
下圖展示了這個核心概念。注意觀察:大多數向量(如 v1,v2)在變換後既改變了方向又改變了長度,但特徵向量 x 只被縮放,方向保持不變:

特徵值的唯一性
一個矩陣 A 可以有多個不同的特徵值。然而,對於任何一個特定的特徵向量 x,它只能「忠誠於」一個特徵值。

為什麼特徵值對於特定向量是唯一的?
假設向量 x 同時是 λ1 和 λ2 的特徵向量,則:
Ax=λ1x且Ax=λ2x
由此得 λ1x=λ2x,即 (λ1−λ2)x=0。
由於 x=0(特徵向量必須非零),因此 λ1=λ2。
當我們對向量 x 施加變換 A 時,輸出 Ax 是唯一確定的。既然輸出固定,而 Ax=λx 表示輸出必須是 x 的純量倍數,那麼這個縮放因子 λ 自然也是唯一的。
反過來:一個特徵值可對應無限多個特徵向量
雖然每個特徵向量只對應一個特徵值,但反過來,一個特徵值可以對應無限多個特徵向量。
若 x 是 λ 的特徵向量,則對於任意非零純量 c,向量 cx 也是 λ 的特徵向量:
A(cx)=c(Ax)=c(λx)=λ(cx)
換句話說,同方向上的所有非零向量都是相同特徵值的特徵向量。因此在描述特徵向量時,我們通常只給出一個「代表」,其他都是它的純量倍數。
特徵值的正負與幾何意義
特徵值 λ 的符號具有重要的幾何意義:

| 特徵值類型 | 幾何效果 |
|---|
| λ>1 | 向量沿著該方向被拉伸 |
| 0<λ<1 | 向量沿著該方向被壓縮 |
| λ<0 | 向量被翻轉到相反方向,同時可能伸縮 |
| λ=1 | 向量在該方向完全不變 |
| λ=0 | 向量被壓扁到零向量(維度塌縮) |
如何求特徵值:特徵多項式
從定義到方程式
要找到 A 的特徵值,我們從定義出發:
Ax=λx
將右邊改寫:Ax=λIx(其中 I 是單位矩陣),然後移項:
Ax−λIx=0
(A−λI)x=0
這是一個齊次線性方程組。我們需要找到非平凡解(即 x=0) 。
非平凡解存在的條件
根據線性方程組的理論,齊次方程組 (A−λI)x=0 存在非平凡解的充要條件是:
det(A−λI)=0
這是因為:若 det(A−λI)=0,則 (A−λI) 可逆,方程組只有平凡解 x=0。
換言之,我們需要 (A−λI) 的 column vectors 線性相依 (Linearly Dependent),這樣才有非零解存在。如果忘記了線性相依的概念,可以回顧 Ch1-7 線性獨立與線性相依。

特徵多項式與特徵方程式
將 det(A−λI) 展開後,會得到一個關於 λ 的多項式,稱為特徵多項式 (Characteristic Polynomial):
p(λ)=det(A−λI)
對於 n×n 矩陣,p(λ) 是 n 次多項式。
令 p(λ)=0 所得的方程式稱為特徵方程式 (Characteristic Equation):
det(A−λI)=0
特徵方程式的根就是矩陣 A 的特徵值。
由代數基本定理,n 次多項式在複數範圍內恰有 n 個根。
所謂「計數重數 (counting multiplicity)」是指:當某個根重複出現時,每出現一次就計算一次。例如 (λ−2)3=0 有三重根 λ=2,在「計數重數」的計算方式下要算作 3 個根。因此,n×n 矩陣在複數範圍內恰有 n 個特徵值(計數重數)。
但若我們只考慮實數特徵值,則可能少於 n 個,原因有二:
- 複數根:某些根可能是複數而非實數(例如 λ2+1=0 的根 ±i)
- 重根:多個相同的根在計算「相異特徵值個數」時只算作一個
範例:計算特徵值與特徵向量
範例 1:2×2 矩陣
求矩陣 A=[4323] 的特徵值與特徵向量。
Step 1:建立特徵方程式
A−λI=[4323]−λ[1001]=[4−λ323−λ]
Step 2:計算行列式並令其為零
det(A−λI)=(4−λ)(3−λ)−(2)(3)=0
12−4λ−3λ+λ2−6=0
λ2−7λ+6=0
(λ−1)(λ−6)=0
特徵值:λ1=1 與 λ2=6
Step 3:對每個特徵值,求對應的特徵向量
對於 λ1=1:
(A−1⋅I)x=[3322]x=0
化簡後得 3x1+2x2=0,即 x1=−32x2。
取 x2=3,則 x1=−2。
特徵向量:x1=[−23](或其任何非零純量倍數)
對於 λ2=6:
(A−6⋅I)x=[−232−3]x=0
化簡後得 −2x1+2x2=0,即 x1=x2。
取 x1=x2=1。
特徵向量:x2=[11]
範例 2:驗證特徵值與特徵向量
驗證 λ=4 是否為 A=[1232] 的特徵值,並求對應的特徵向量。
驗證方法:檢查 det(A−4I)=0 是否成立。
A−4I=[1−4232−4]=[−323−2]
det(A−4I)=(−3)(−2)−(3)(2)=6−6=0✓
因此 λ=4 確實是特徵值。
求特徵向量:解 (A−4I)x=0
[−323−2]x=0
得 −3x1+3x2=0,即 x1=x2。
特徵向量:x=[11](或其非零純量倍數)
特徵空間 (Eigenspace)
對於矩陣 A 的一個特徵值 λ,所有對應於 λ 的特徵向量(加上零向量)所形成的集合,稱為 λ 的特徵空間 (Eigenspace),記作 Eλ:
Eλ={x∈Rn∣(A−λI)x=0}
Eigenspace = Null Space
從定義可以看出,特徵空間 Eλ 正是矩陣 (A−λI) 的 Null Space:
Eλ=Null(A−λI)

我們算特徵向量時,是在解 (A−λI)x=0。
這個方程式的解(eigenvectors)形成的集合,叫做 Null Space(或 Eigenspace)。
這是一個「子空間」(Subspace),而不僅僅是一個點:
- 如果 Null Space 是一條線(維度 = 1),那整條線上的非零向量都是特徵向量
- 如果 Null Space 是一個平面(維度 = 2),那整個平面上的非零向量都是特徵向量
這也解釋了為什麼特徵向量「不唯一」:任何純量倍數(甚至線性組合)都還是特徵向量!
Eigenspace 的維度與幾何重複度
特徵空間的維度(即 Null(A−λI) 的維度)稱為該特徵值的幾何重複度 (Geometric Multiplicity),記作 gm(λ)。
由 Rank-Nullity 定理:
gm(λ)=dim(Eλ)=nullity(A−λI)=n−rank(A−λI)
幾何重複度的意義:
幾何重複度告訴我們:對於這個特徵值 λ,我們能找到多少個線性獨立的特徵向量。
- 如果 gm(λ)=1,則 λ 對應的所有特徵向量都在同一條線上(彼此為純量倍數)
- 如果 gm(λ)=2,則能找到兩個線性獨立的特徵向量,它們張成一個平面
這個概念在後續的對角化 (Diagonalization) 中有關鍵作用:一個矩陣能否對角化,取決於每個特徵值的幾何重複度是否等於其代數重複度 (Algebraic Multiplicity)(即該根在特徵多項式中的重複次數)。
特殊矩陣的特徵值
三角矩陣的特徵值
對於三角矩陣(上三角或下三角),其特徵值就是對角線元素。
A=a1100∗a220∗∗a33⇒特徵值為 a11,a22,a33
原因:
A−λI=a11−λ00∗a22−λ0∗∗a33−λ
三角矩陣的行列式等於對角線元素的乘積:
det(A−λI)=(a11−λ)(a22−λ)(a33−λ)=0
因此特徵值為 λ=a11,a22,a33。
對角矩陣的特徵值
對角矩陣 (Diagonal Matrix) 是指除了主對角線以外,所有元素都為零的方陣。它是三角矩陣的特例,因此其特徵值同樣是對角線元素。
例如,考慮以下 3×3 對角矩陣:
D=20005000−3
其特徵值為 λ1=2, λ2=5, λ3=−3。
而且,對應的特徵向量恰好是標準基向量 e1,e2,…,en:
讓我們驗證標準基向量 e1=100 是 λ1=2 的特徵向量:
De1=20005000−3100=200=2100=2e1
確實滿足 De1=λ1e1!同理,e2 對應 λ2=5,e3 對應 λ3=−3。
這是因為對角矩陣的結構使得:乘以第 i 個標準基向量時,只會「挽出」第 i 個對角線元素。
特徵值與矩陣性質的關係
當我們知道矩陣 A 的特徵值後,可以推導出相關矩陣的特徵值:
| 矩陣 | 特徵值 |
|---|
| A | λ |
| Ak (k 為正整數) | λk |
| A−1 (若 A 可逆) | λ1 |
| A+cI | λ+c |
| cA | cλ |
證明示例(Ak 的情況):
若 Ax=λx,則:
A2x=A(Ax)=A(λx)=λ(Ax)=λ(λx)=λ2x
以此類推,Akx=λkx。
上述所有 變換中,特徵向量保持不變,只是對應的特徵值改變了。
這也說明了為什麼 A 可逆的條件是所有特徵值都非零,否則 A−1 的特徵值 λ1 就無法定義。
補充:特徵值與行列式、跡的關係
對於 n×n 矩陣 A,設其特徵值為 λ1,λ2,…,λn(計數重數),則特徵值與行列式、跡之間存在優美的關係。
行列式 (Determinant)
det(A)=λ1⋅λ2⋯λn
行列式等於所有特徵值的乘積。
推導過程:
特徵多項式為 p(λ)=det(A−λI)。由於特徵值 λ1,λ2,…,λn 是這個多項式的根,我們可以將其因式分解:
p(λ)=det(A−λI)=(−1)n(λ−λ1)(λ−λ2)⋯(λ−λn)
現在,令 λ=0:
p(0)=det(A−0⋅I)=det(A)
另一方面,將 λ=0 代入因式分解式:
p(0)=(−1)n(0−λ1)(0−λ2)⋯(0−λn)=(−1)n⋅(−λ1)(−λ2)⋯(−λn)
=(−1)n⋅(−1)n⋅λ1λ2⋯λn=λ1λ2⋯λn
因此 det(A)=λ1⋅λ2⋯λn。
推論:A 可逆 ⇔ det(A)=0 ⇔ 所有特徵值都非零。
跡 (Trace)
tr(A)=a11+a22+⋯+ann=λ1+λ2+⋯+λn
矩陣的跡(對角線元素之和)等於所有特徵值的和。
推導過程:
特徵多項式 p(λ)=det(A−λI) 是一個 n 次多項式。將其展開:
p(λ)=(−1)nλn+(−1)n−1(trA)λn−1+⋯+det(A)
這可以通過展開 det(A−λI) 並收集 λn−1 的係數得到。λn−1 的係數來自於對角線元素 (a11−λ)(a22−λ)⋯(ann−λ) 的展開。
另一方面,從因式分解式:
p(λ)=(−1)n(λ−λ1)(λ−λ2)⋯(λ−λn)
展開後,λn−1 的係數為 (−1)n⋅(−1)⋅(λ1+λ2+⋯+λn)=(−1)n−1(λ1+λ2+⋯+λn)。
比較兩者的 λn−1 係數,得:
tr(A)=λ1+λ2+⋯+λn
對於 2×2 矩陣 A=[acbd]:
- λ1+λ2=tr(A)=a+d
- λ1⋅λ2=det(A)=ad−bc
特徵多項式可直接寫為:
λ2−(trA)λ+det(A)=0