跳至主要内容

矩陣對角化 (Diagonalization of Matrices)

備註

本系列文章內容參考自經典教材 Elementary Linear Algebra (Pearson New International Edition)。本文對應章節:Ch5-3 Diagonalization of Matrices

對角化的定義

基本定義

AA 為一個 n×nn \times n 的方陣。若存在一個可逆矩陣 PP 與一個對角矩陣 DD,使得:

A=PDP1\colorbox{yellow}{$A = PDP^{-1}$}

則稱矩陣 AA可對角化的 (Diagonalizable)

等價地,這個關係也可以寫成:

P1AP=DP^{-1}AP = D

這表示 AADD相似矩陣 (Similar Matrices)

與矩陣表示法的關聯

你可能注意到 A=PDP1A = PDP^{-1} 這個公式與我們在 Ch4-5 線性算子的矩陣表示法 學過的 [T]B=B1AB[T]_\mathcal{B} = B^{-1}AB 長得非常相似。事實上,它們是同一回事!

回顧那個公式的意義:[T]B[T]_\mathcal{B} 是線性算子 TT 在基底 B\mathcal{B} 下的矩陣表示,而 AA 是標準矩陣。

對角化正是這個概念的特例:當我們選擇的基底 B\mathcal{B} 恰好由特徵向量組成時,TT 在該基底下的矩陣表示 [T]B[T]_\mathcal{B} 就會是對角矩陣 DD

  • 公式 D=P1APD = P^{-1}AP 就是 [T]B=B1AB[T]_\mathcal{B} = B^{-1}AB
  • 基底矩陣 B=PB = P(Column 是特徵向量)
  • 新基底下的矩陣 [T]B=D[T]_\mathcal{B} = D(對角線是特徵值)

簡言之:對角化 = 找到特徵向量基底,使得線性算子的矩陣表示變成對角矩陣

對角化的結構

AA 可對角化時,矩陣 PPDD 有著特殊的結構:

  • DD 是對角矩陣:其對角線元素是 AA 的特徵值 λ1,λ2,,λn\lambda_1, \lambda_2, \ldots, \lambda_n
D=[λ1000λ2000λn]D = \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix}
  • PP 的 Column 是對應的特徵向量:第 ii 個 Column 是 λi\lambda_i 的特徵向量 xi\mathbf{x}_i
P=[x1x2xn]P = \begin{bmatrix} | & | & & | \\ \mathbf{x}_1 & \mathbf{x}_2 & \cdots & \mathbf{x}_n \\ | & | & & | \end{bmatrix}

對角化概念示意圖

特徵值與特徵向量的順序對應

DD 的對角線上的特徵值順序與 PP 中特徵向量的排列順序必須一致。也就是說,如果 DD 的第 ii 個對角元素是 λi\lambda_i,那麼 PP 的第 ii 個 Column 必須是 λi\lambda_i 對應的特徵向量。


為什麼 A = PDP⁻¹ 成立?

推導過程

讓我們從 AP=PDAP = PD 出發(這等價於 A=PDP1A = PDP^{-1},前提是 PP 可逆)。

P=[x1x2xn]P = [\mathbf{x}_1 | \mathbf{x}_2 | \cdots | \mathbf{x}_n],其中 xi\mathbf{x}_iλi\lambda_i 的特徵向量。則:

AP=A[x1x2xn]=[Ax1Ax2Axn]AP = A[\mathbf{x}_1 | \mathbf{x}_2 | \cdots | \mathbf{x}_n] = [A\mathbf{x}_1 | A\mathbf{x}_2 | \cdots | A\mathbf{x}_n]

由於 Axi=λixiA\mathbf{x}_i = \lambda_i \mathbf{x}_i(特徵值定義),所以:

AP=[λ1x1λ2x2λnxn]AP = [\lambda_1\mathbf{x}_1 | \lambda_2\mathbf{x}_2 | \cdots | \lambda_n\mathbf{x}_n]

另一方面:

PD=[x1x2xn][λ1λ2λn]=[λ1x1λ2x2λnxn]PD = [\mathbf{x}_1 | \mathbf{x}_2 | \cdots | \mathbf{x}_n] \begin{bmatrix} \lambda_1 & & \\ & \lambda_2 & \\ & & \ddots & \\ & & & \lambda_n \end{bmatrix} = [\lambda_1\mathbf{x}_1 | \lambda_2\mathbf{x}_2 | \cdots | \lambda_n\mathbf{x}_n]

因此 AP=PDAP = PD。若 PP 可逆(即這些特徵向量線性獨立),則可將兩邊右乘 P1P^{-1} 得到 A=PDP1A = PDP^{-1}

P 可逆的條件

PP 可逆的充要條件是:它的 nn 個 Column 向量(即 nn 個特徵向量)線性獨立

對角化的關鍵就在這裡:我們需要找到 nn 個線性獨立的特徵向量!


對角化的幾何意義

對角化的核心問題是:我們能否找到一組由特徵向量組成的基底?

為什麼需要 n 個線性獨立的特徵向量?

要建立矩陣 PP,我們需要 nn 個特徵向量排成 nn 個 Column。但更關鍵的是,PP 必須是可逆的,這樣才能計算 P1P^{-1},從而得到 A=PDP1A = PDP^{-1}

PP 可逆的條件是什麼?正是它的 nn 個 Column 向量線性獨立

用幾何語言來說:這 nn 個特徵向量必須能「撐開」整個 Rn\mathbb{R}^n 空間,形成一組基底

特徵向量是否能撐開空間

上圖對比了兩種情況:

  • 左圖(可對角化):存在兩個線性獨立的特徵向量 x1,x2\mathbf{x}_1, \mathbf{x}_2,它們的 Span 是整個 R2\mathbb{R}^2 平面,因此可以形成基底,PP 可逆
  • 右圖(不可對角化):只有一個特徵向量方向,無論如何縮放都只能得到一條線,無法「撐開」R2\mathbb{R}^2,因此無法形成 PP

對角矩陣的幾何意義:D 就是 [T]_B

還記得在 Ch4-5 我們學過:同一個線性算子 TT 在不同基底下會有不同的矩陣表示。如果標準矩陣是 AA,那麼在基底 B\mathcal{B} 下的矩陣表示是:

[T]B=PB1APB[T]_\mathcal{B} = P_\mathcal{B}^{-1} A P_\mathcal{B}

現在的關鍵洞察是:如果我們選擇的基底 B\mathcal{B} 恰好由特徵向量組成,那麼 [T]B[T]_\mathcal{B} 就變成了對角矩陣 DD

D=[T]B=P1AP\colorbox{yellow}{$D = [T]_\mathcal{B} = P^{-1}AP$}

換句話說:對角矩陣 DD 就是線性算子在特徵向量基底下的矩陣表示

對角矩陣是特徵向量基底下的算子

上圖展示:在特徵向量基底 B={x1,x2}\mathcal{B} = \{\mathbf{x}_1, \mathbf{x}_2\} 下,變換 TT 對每個基底向量的作用是沿著該方向縮放,即 T(x1)=λ1x1T(\mathbf{x}_1) = \lambda_1 \mathbf{x}_1T(x2)=λ2x2T(\mathbf{x}_2) = \lambda_2 \mathbf{x}_2。這就是對角矩陣 D=diag(λ1,λ2)D = \text{diag}(\lambda_1, \lambda_2) 的行為。

為什麼特徵向量基底讓矩陣變成對角?

這有一個非常自然的解釋:

在特徵向量基底 B={x1,x2,,xn}\mathcal{B} = \{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\} 下:

  • 基底向量 x1\mathbf{x}_1B\mathcal{B} 座標是 [x1]B=[100][\mathbf{x}_1]_\mathcal{B} = \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix}(第一個座標軸)
  • 變換後 T(x1)=Ax1=λ1x1T(\mathbf{x}_1) = A\mathbf{x}_1 = \lambda_1 \mathbf{x}_1
  • 所以 [T(x1)]B=[λ100][T(\mathbf{x}_1)]_\mathcal{B} = \begin{bmatrix} \lambda_1 \\ 0 \\ \vdots \\ 0 \end{bmatrix}(只在第一個座標軸上縮放 λ1\lambda_1 倍!)

對每個基底向量 xi\mathbf{x}_i 都是如此:變換後只是在第 ii 個座標軸上縮放 λi\lambda_i 倍,完全不影響其他座標。

這就是對角矩陣的特性:每個座標軸獨立縮放,互不干擾

對角化的直覺

我理解對角化的關鍵在於:特徵向量是線性變換「不會扭曲」的方向

如果我們有足夠多這種「不會扭曲的方向」(nn 個線性獨立的特徵向量),就能用它們作為新的座標系統。在這個座標系統下,變換只是沿著每個座標軸伸縮,行為變得最簡單,而這個簡化後的表示就是對角矩陣 DD

反過來,如果特徵向量不夠多,就表示有些方向必然會被「扭曲」,無法用純粹的縮放來描述,這時矩陣就無法對角化。


對角化的應用:計算矩陣的次方

對角化最強大的應用之一是快速計算矩陣的高次方

核心公式

A=PDP1A = PDP^{-1},則:

Ak=PDkP1\colorbox{yellow}{$A^k = PD^kP^{-1}$}

證明

Ak=(PDP1)(PDP1)(PDP1)=PD(P1P)D(P1P)DP1=PDkP1A^k = (PDP^{-1})(PDP^{-1}) \cdots (PDP^{-1}) = PD(P^{-1}P)D(P^{-1}P) \cdots DP^{-1} = PD^kP^{-1}

對角矩陣的次方極易計算

對角矩陣的 kk 次方只需將每個對角元素各自取 kk 次方:

Dk=[λ1k000λ2k000λnk]D^k = \begin{bmatrix} \lambda_1^k & 0 & \cdots & 0 \\ 0 & \lambda_2^k & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^k \end{bmatrix}

對角矩陣次方計算

範例:計算 A¹⁰⁰

A=[7241]A = \begin{bmatrix} 7 & 2 \\ -4 & 1 \end{bmatrix},求 A100A^{100}

Step 1:找特徵值

det(AλI)=(7λ)(1λ)+8=λ28λ+15=(λ3)(λ5)=0\det(A - \lambda I) = (7-\lambda)(1-\lambda) + 8 = \lambda^2 - 8\lambda + 15 = (\lambda - 3)(\lambda - 5) = 0

特徵值:λ1=3\lambda_1 = 3, λ2=5\lambda_2 = 5

Step 2:找特徵向量

對於 λ1=3\lambda_1 = 3

(A3I)x=[4242]x=0x1=[12](A - 3I)\mathbf{x} = \begin{bmatrix} 4 & 2 \\ -4 & -2 \end{bmatrix}\mathbf{x} = \mathbf{0} \Rightarrow \mathbf{x}_1 = \begin{bmatrix} 1 \\ -2 \end{bmatrix}

對於 λ2=5\lambda_2 = 5

(A5I)x=[2244]x=0x2=[11](A - 5I)\mathbf{x} = \begin{bmatrix} 2 & 2 \\ -4 & -4 \end{bmatrix}\mathbf{x} = \mathbf{0} \Rightarrow \mathbf{x}_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}

Step 3:建立 P 與 D

將特徵向量依序排列成 PP 的 Column,對應的特徵值依相同順序排列在 DD 的對角線上:

  • 第 1 個 Column 是 λ1=3\lambda_1 = 3 的特徵向量 x1=[12]\mathbf{x}_1 = \begin{bmatrix} 1 \\ -2 \end{bmatrix}
  • 第 2 個 Column 是 λ2=5\lambda_2 = 5 的特徵向量 x2=[11]\mathbf{x}_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}
P=[x1x2]=[1121],D=[λ100λ2]=[3005]P = \begin{bmatrix} \mathbf{x}_1 & \mathbf{x}_2 \end{bmatrix} = \begin{bmatrix} 1 & 1 \\ -2 & -1 \end{bmatrix}, \quad D = \begin{bmatrix} \lambda_1 & 0 \\ 0 & \lambda_2 \end{bmatrix} = \begin{bmatrix} 3 & 0 \\ 0 & 5 \end{bmatrix}

Step 4:計算 P⁻¹

P1=1(1)(1)(1)(2)[1121]=[1121]P^{-1} = \frac{1}{(-1)(-1) - (1)(-2)} \begin{bmatrix} -1 & -1 \\ 2 & 1 \end{bmatrix} = \begin{bmatrix} -1 & -1 \\ 2 & 1 \end{bmatrix}

Step 5:計算 A¹⁰⁰

A100=PD100P1=[1121][3100005100][1121]A^{100} = PD^{100}P^{-1} = \begin{bmatrix} 1 & 1 \\ -2 & -1 \end{bmatrix} \begin{bmatrix} 3^{100} & 0 \\ 0 & 5^{100} \end{bmatrix} \begin{bmatrix} -1 & -1 \\ 2 & 1 \end{bmatrix} =[251003100510031002310025100231005100]= \begin{bmatrix} 2 \cdot 5^{100} - 3^{100} & 5^{100} - 3^{100} \\ 2 \cdot 3^{100} - 2 \cdot 5^{100} & 2 \cdot 3^{100} - 5^{100} \end{bmatrix}
計算複雜度的巨大差異

如果直接計算 A100A^{100}(連乘 100 次),需要約 O(n3×100)O(n^3 \times 100) 次運算。

使用對角化後,主要成本在於:

  • 計算 P1P^{-1}O(n3)O(n^3)
  • 計算 D100D^{100}:只需 O(n)O(n)(每個對角元素獨立計算)
  • 兩次矩陣乘法:O(n3)O(n^3)

kk 很大時,對角化帶來的效率提升是巨大的!


可對角化的條件

不是所有矩陣都能對角化。以下是判斷矩陣是否可對角化的三個層次:

充分條件:n 個相異特徵值

定理:若 n×nn \times n 矩陣 AA 擁有 nn互不相同的特徵值,則 AA 必定可以對角化

原因:對應於不同特徵值的特徵向量必定線性獨立(這是一個重要定理)。因此,nn 個相異特徵值必產生 nn 個線性獨立的特徵向量。

注意

這只是充分條件,不是必要條件!即使有重複的特徵值,矩陣仍可能是可對角化的(只要幾何重根數等於代數重根數)。

充要條件:n 個線性獨立的特徵向量

定理:矩陣 AA 可對角化 \Leftrightarrow AA 擁有 nn線性獨立的特徵向量。

nn 個線性獨立的特徵向量構成 Rn\mathbb{R}^n 的一組基底

特徵向量要能「撐開」整個空間

我的理解是:對角化的本質是找到一組由特徵向量組成的基底。如果我們無法找到足夠的線性獨立特徵向量來「撐開」Rn\mathbb{R}^n 空間,矩陣就無法對角化。

因此我們需要檢查「特徵向量的總數是否等於 nn」,確保它們能形成一組完整的基底。

最嚴謹的判斷:代數重根數 = 幾何重根數

定理:矩陣 AA 可對角化 \Leftrightarrow 對於每一個特徵值 λi\lambda_i,其代數重根數等於幾何重根數am(λi)=gm(λi)對所有特徵值成立\text{am}(\lambda_i) = \text{gm}(\lambda_i) \quad \text{對所有特徵值成立}

回顧定義:

  • 代數重根數 am(λ)\text{am}(\lambda)λ\lambda 作為特徵多項式根的重數
  • 幾何重根數 gm(λ)\text{gm}(\lambda):特徵空間 Eλ=Null(AλI)E_\lambda = \text{Null}(A - \lambda I) 的維度

由於恆有 1gm(λ)am(λ)1 \leq \text{gm}(\lambda) \leq \text{am}(\lambda),可對角化的條件等價於:

i=1kgm(λi)=n\colorbox{lightblue}{$\sum_{i=1}^{k} \text{gm}(\lambda_i) = n$}

即所有特徵空間的維度總和等於 nn


對角化的步驟流程

對角化流程圖

完整對角化流程

給定 n×nn \times n 矩陣 AA

Step 1:計算特徵多項式 det(AλI)=0\det(A - \lambda I) = 0,求出所有特徵值 λ1,λ2,,λk\lambda_1, \lambda_2, \ldots, \lambda_k(及其代數重根數)

Step 2:對每個特徵值 λi\lambda_i,解 (AλiI)x=0(A - \lambda_i I)\mathbf{x} = \mathbf{0} 求出特徵空間 EλiE_{\lambda_i} 的一組基底

Step 3:檢查是否可對角化:

  • 若每個 gm(λi)=am(λi)\text{gm}(\lambda_i) = \text{am}(\lambda_i),則可對角化
  • 若某個 gm(λi)<am(λi)\text{gm}(\lambda_i) < \text{am}(\lambda_i),則不可對角化

Step 4:若可對角化:

  • 將所有特徵空間的基底向量合併,形成 P=[x1x2xn]P = [\mathbf{x}_1 | \mathbf{x}_2 | \cdots | \mathbf{x}_n]
  • 建立對角矩陣 DD,對角線元素為對應的特徵值

A=PDP1A = PDP^{-1}


不可對角化的矩陣:虧缺矩陣

定義

若矩陣 AA 存在某個特徵值 λ\lambda,使得:

gm(λ)<am(λ)\text{gm}(\lambda) < \text{am}(\lambda)

則稱 AA虧缺矩陣 (Defective Matrix)。虧缺矩陣無法對角化

經典範例

考慮矩陣:

A=[2102]A = \begin{bmatrix} 2 & 1 \\ 0 & 2 \end{bmatrix}

虧缺矩陣範例

分析

  1. 特徵多項式:(2λ)2=0(2 - \lambda)^2 = 0,故 λ=2\lambda = 2 是唯一特徵值,am(2)=2\text{am}(2) = 2

  2. 計算幾何重根數:

    A2I=[0100]A - 2I = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix}

    rank(A2I)=1\text{rank}(A - 2I) = 1,故 gm(2)=21=1\text{gm}(2) = 2 - 1 = 1

  3. 由於 gm(2)=12=am(2)\text{gm}(2) = 1 \neq 2 = \text{am}(2),此矩陣不可對角化

為什麼有些矩陣不能對角化?

虧缺矩陣的幾何意義是:變換 AA 對空間做了某種「剪切 (Shear)」效果,不僅僅是縮放。

以上面的例子來說,矩陣 A=[2102]A = \begin{bmatrix} 2 & 1 \\ 0 & 2 \end{bmatrix} 會把向量沿著 xx 軸方向「斜切」。只有一個方向(xx 軸)是真正被保持的特徵方向,另一個維度的「純粹縮放」行為不存在。

所以我們找不到兩個線性獨立的特徵向量,無法用對角矩陣來表達這種「帶有剪切」的變換。


重要定理:不同特徵值的特徵向量線性獨立

定理陳述

λ1,λ2,,λk\lambda_1, \lambda_2, \ldots, \lambda_k 是矩陣 AAkk相異特徵值,x1,x2,,xk\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_k 分別是對應的特徵向量。則 x1,x2,,xk\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_k 線性獨立

證明(數學歸納法)

Base casek=1k = 1 時,由於特徵向量 x10\mathbf{x}_1 \neq \mathbf{0},單一向量必線性獨立。

Inductive step:假設對於 k1k-1 個相異特徵值成立,考慮 kk 個的情況。

假設存在係數使得:

c1x1+c2x2++ckxk=0...(1)c_1\mathbf{x}_1 + c_2\mathbf{x}_2 + \cdots + c_k\mathbf{x}_k = \mathbf{0} \quad \text{...(1)}

對等式兩邊左乘 AA

c1λ1x1+c2λ2x2++ckλkxk=0...(2)c_1\lambda_1\mathbf{x}_1 + c_2\lambda_2\mathbf{x}_2 + \cdots + c_k\lambda_k\mathbf{x}_k = \mathbf{0} \quad \text{...(2)}

將 (1) 乘以 λk\lambda_k 後從 (2) 中減去:

c1(λ1λk)x1+c2(λ2λk)x2++ck1(λk1λk)xk1=0c_1(\lambda_1 - \lambda_k)\mathbf{x}_1 + c_2(\lambda_2 - \lambda_k)\mathbf{x}_2 + \cdots + c_{k-1}(\lambda_{k-1} - \lambda_k)\mathbf{x}_{k-1} = \mathbf{0}

由歸納假設,x1,,xk1\mathbf{x}_1, \ldots, \mathbf{x}_{k-1} 線性獨立,且因 λiλk\lambda_i \neq \lambda_ki<ki < k),故:

c1(λ1λk)=c2(λ2λk)==ck1(λk1λk)=0c_1(\lambda_1 - \lambda_k) = c_2(\lambda_2 - \lambda_k) = \cdots = c_{k-1}(\lambda_{k-1} - \lambda_k) = 0

因此 c1=c2==ck1=0c_1 = c_2 = \cdots = c_{k-1} = 0

代回 (1):ckxk=0c_k\mathbf{x}_k = \mathbf{0}。由於 xk0\mathbf{x}_k \neq \mathbf{0},故 ck=0c_k = 0

因此所有係數皆為零,x1,x2,,xk\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_k 線性獨立。\square

推論

此定理直接導出:n×nn \times n 矩陣有 nn 個相異特徵值,則它必定可對角化


範例:完整對角化流程

範例:對角化 3×3 矩陣

對角化矩陣 A=[100011002]A = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 0 & 2 \end{bmatrix}

Step 1:求特徵值

由於 AA 是上三角矩陣,特徵值就是對角線元素:

λ1=1(二重根),λ2=2(單根)\lambda_1 = 1 \text{(二重根)}, \quad \lambda_2 = 2 \text{(單根)}

所以 am(1)=2\text{am}(1) = 2, am(2)=1\text{am}(2) = 1

Step 2:求特徵向量

求特徵向量的核心問題是:對於每個特徵值 λ\lambda,解齊次線性方程組 (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0}

對於 λ=1\lambda = 1

子步驟 2.1:計算 AλIA - \lambda I

AI=[110001110021]=[000001001]A - I = \begin{bmatrix} 1-1 & 0 & 0 \\ 0 & 1-1 & 1 \\ 0 & 0 & 2-1 \end{bmatrix} = \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 1 \end{bmatrix}

子步驟 2.2:化簡為 RREF

[000001001]R3R2[000001000]交換[001000000]\begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 1 \end{bmatrix} \xrightarrow{R_3 - R_2} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix} \xrightarrow{\text{交換}} \begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix}

子步驟 2.3:將 RREF 轉換回方程式

RREF 的每一列代表一個方程式。把矩陣 [001000000]\begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix} 對應的增廣矩陣還原成方程組:

  • 第一列 [0,0,10][0, 0, 1 | 0]0x1+0x2+1x3=00 \cdot x_1 + 0 \cdot x_2 + 1 \cdot x_3 = 0x3=0x_3 = 0
  • 第二列和第三列都是 [0,0,00][0, 0, 0 | 0]:這是恆成立的 0=00 = 0,不提供任何資訊

結論:唯一的約束是 x3=0x_3 = 0,而 x1x_1x2x_2 完全沒有被約束。

子步驟 2.4:識別自由變數與寫出通解

在 RREF 中:

  • Pivot column(主元行):有 leading 1 的那些 column。這裡只有第 3 行有 leading 1
  • 自由變數:不在 pivot column 的變數可以「自由選擇」任意值。這裡 x1,x2x_1, x_2 是自由變數

既然 x1,x2x_1, x_2 可以自由取值,而 x3=0x_3 = 0 是固定的,通解就是:

x=[x1x20]其中 x1,x2R 任意\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ 0 \end{bmatrix} \quad \text{其中 } x_1, x_2 \in \mathbb{R} \text{ 任意}

子步驟 2.5:分離自由變數,找出基底向量

從子步驟 2.4 我們已經知道有 2 個自由變數(x1,x2x_1, x_2),所以解空間的維度 = 2。

但對角化不只需要知道「維度是多少」,還需要實際寫出基底向量來組成矩陣 PP。通解 [x1x20]\begin{bmatrix} x_1 \\ x_2 \\ 0 \end{bmatrix} 描述的是「無限多個向量的集合」,我們必須從中挑出具體的基底向量

標準做法是:把通解改寫成「固定向量的線性組合」,讓每個自由變數各自乘上一個固定向量:

x=[x1x20]=[x100]+[0x20]=x1[100]+x2[010]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ 0 \end{bmatrix} = \begin{bmatrix} x_1 \\ 0 \\ 0 \end{bmatrix} + \begin{bmatrix} 0 \\ x_2 \\ 0 \end{bmatrix} = x_1 \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} + x_2 \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}

這樣就能讀出:特徵空間 E1E_1 的基底是 [100]\begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}[010]\begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix},正是我們要放進矩陣 PP 的向量。

E1E_1 的基底:v1=[100]\mathbf{v}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}, v2=[010]\mathbf{v}_2 = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}

gm(1)=2=am(1)\text{gm}(1) = 2 = \text{am}(1)

特徵「向量」解出來卻是平面?

這是一個常見的誤解:很多人以為解特徵向量會得到「一個向量」,但實際上解齊次方程組 (AλI)x=0(A - \lambda I)\mathbf{x} = \mathbf{0} 得到的是一個子空間(特徵空間 EλE_\lambda)。

在這個例子中,λ=1\lambda = 1 的特徵空間 E1E_1 是一個二維平面(由 v1,v2\mathbf{v}_1, \mathbf{v}_2 張成),而不是單一向量。這個平面上的任何非零向量都是 λ=1\lambda = 1 的特徵向量!

特徵空間的維度(幾何重根數)告訴我們:

  • 維度 = 1:特徵向量都在同一條線上
  • 維度 = 2:特徵向量張成一個平面
  • 維度 = kk:特徵向量張成 kk 維子空間

對於 λ=2\lambda = 2

子步驟 2.1:計算 A2IA - 2I

A2I=[120001210022]=[100011000]A - 2I = \begin{bmatrix} 1-2 & 0 & 0 \\ 0 & 1-2 & 1 \\ 0 & 0 & 2-2 \end{bmatrix} = \begin{bmatrix} -1 & 0 & 0 \\ 0 & -1 & 1 \\ 0 & 0 & 0 \end{bmatrix}

子步驟 2.2:化簡為 RREF

[100011000]R1,R2[100011000]\begin{bmatrix} -1 & 0 & 0 \\ 0 & -1 & 1 \\ 0 & 0 & 0 \end{bmatrix} \xrightarrow{-R_1, -R_2} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & -1 \\ 0 & 0 & 0 \end{bmatrix}

子步驟 2.3:將 RREF 轉換回方程式

  • 第一列 [1,0,00][1, 0, 0 | 0]x1=0x_1 = 0
  • 第二列 [0,1,10][0, 1, -1 | 0]x2x3=0x_2 - x_3 = 0x2=x3x_2 = x_3
  • 第三列 [0,0,00][0, 0, 0 | 0]0=00 = 0(恆成立)

子步驟 2.4:識別自由變數與寫出通解

  • Pivot columns:第 1 行和第 2 行(有 leading 1)
  • 自由變數:x3x_3(第 3 行不是 pivot column)

既然 x3x_3 是自由的,設 x3=tx_3 = t(任意實數),則:

  • x2=x3=tx_2 = x_3 = t
  • x1=0x_1 = 0

通解:

x=[0tt]其中 tR 任意\mathbf{x} = \begin{bmatrix} 0 \\ t \\ t \end{bmatrix} \quad \text{其中 } t \in \mathbb{R} \text{ 任意}

子步驟 2.5:分離自由變數,找出基底向量

x=[0tt]=t[011]\mathbf{x} = \begin{bmatrix} 0 \\ t \\ t \end{bmatrix} = t \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix}

這告訴我們:解空間是由 [011]\begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix} 張成的一條線

E2E_2 的基底:v3=[011]\mathbf{v}_3 = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix}

gm(2)=1=am(2)\text{gm}(2) = 1 = \text{am}(2)

Step 3:建立 P 與 D

由於每個特徵值的 gm=am\text{gm} = \text{am},矩陣可對角化。

將所有特徵向量排成 PP 的 columns,對應的特徵值排成 DD 的對角線:

P=[v1v2v3]=[100011001],D=[100010002]P = \begin{bmatrix} | & | & | \\ \mathbf{v}_1 & \mathbf{v}_2 & \mathbf{v}_3 \\ | & | & | \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{bmatrix}, \quad D = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{bmatrix}

v1,v2\mathbf{v}_1, \mathbf{v}_2 對應 λ=1\lambda = 1v3\mathbf{v}_3 對應 λ=2\lambda = 2

A=PDP1A = PDP^{-1}