數論人生

數論是一門學科,也是我的人生。有人把酒論英雄,我用數字描天下。
正文

高觀點下的《線性代數》

(2022-02-16 12:30:43) 下一個

線性代數研究有限維的向量空間。這裏的向量是物理中的向量概念的推廣,它並不需要具有大小和方向,任何數學對象都可以稱之為向量;包括一個數或數組,一個矩陣或更高階的張量,一個函數或者一組函數,一個變換或者一個幾何體;隻有一般的集合沒有被當作向量,集合的集合是拓撲學的研究對象。關鍵要求是兩種線性運算:兩個向量的加法(滿足4條公理),一個向量與一個數量的乘法(滿足另外4條公理);數量來自於一個數域(兩種運算+8條公理),如實數域或複數域。正是加法與數乘,才被稱之為“線性運算”;兩個向量的乘法就是非線性的了。一個向量空間,又叫做線性空間,通常記為(V,F);其中V是所有向量的集合,F是所依附的數域。

一個空間的維數是一個幾何概念。按照人類的常識,一條線(不論曲直)是一維的,一個麵是二維的,一個立體是三維的;有人因此把一個點定義為0維的。人類是三維動物,四維及以上的空間無法想像;至於物理學中的四維時空,隻能表作為位置空間沿著時間軸(線)的平移。數學上,一個空間的維數是表示該空間所需要的獨立變量(數字化的)的個數;比如,四維時空中的一個點(事件)可以表為(ct, x, y, z):c是光速(常量),t是時刻,(x, y, z)是位置。維數可以是可數無窮大,甚至是連續基數,也可以是分數。

在一個n維空間裏,存在著n個線性無關的向量,構成此空間的一個基底。“線性無關”指的是,其中任何一個向量都不能用其它向量線性(運算)表示;“基底”則是一組向量,使得該空間中的任何一個向量,都可以用它們唯一地線性表出。基底有無數個;但是任何兩個基底都是等價的:可以互相唯一線性表示;也就是說,存在一個可逆的過渡矩陣。

實現向量之間線性表示的工具(手段)是線性方程組。它們有固定的解法,即Gauss消元法;通過以下三種同解變換把方程組變為階梯形:(1)一個方程乘以一個非零數,加到另一個方程;(2)一個方程的兩邊同除以一個非零數;(3)交換兩個方程的位置。最後的結果有三種可能:(1)無解,(2)恰好一個(組)解,(3)無窮多(組)解。解的結構具有迭加性:一個非奇次方程組的全部解,可以表示為一個特解,加上相對應的齊次方程組的全部解。一個齊次方程組的全部解形成一個向量空間,其維數等於變量個數減去係數矩陣的秩。

矩陣是線性表示的第二個工具,有時候甚至成了線性代數的特有方法—矩陣方法。矩陣就是把一些數排成行、列的形式,就像一個表格,有時又稱為一個二階張量。當我們需要記錄二維數據、表示兩個對象之間的關係時,都可以用矩陣。圖論中,頂點的關聯矩陣進行乘法時,可以得出各種長度的路線條數;隨機過程中的轉移矩陣進行乘法時,可以計算各種概率以及終極狀態。上述Gauss消元的過程,實際上並沒有對未知變量進行任何運算;把它門剔除,剩下係數和常數項,用兩個括符括起來,就得到了 “增廣矩陣” ,前麵部分(除常數列外)是 “係數矩陣” 。若是齊次方程組,全零的常數列沒有必要寫出。Gauss消元的過程,就成了對增廣矩陣進行三種行變換的過程,直到化成為階梯形;然後逐步代入(或從後往前繼續消元),便可求出所有的解。

同類型矩陣的加、減、數乘,是逐個按元素進行的。矩陣的乘法,來自於線性變換的代入運算,是用左邊矩陣的行去乘右邊矩陣的列(因此,左邊矩陣的列數必須等於右邊矩陣的行數)。這些運算滿足除乘法交換律之外的其它規律,如零矩陣、加法逆元、加法交換/結合律、乘法結合律、乘法對加法的分配律。乘法單位元隻對方陣(正方形矩陣)才有。方陣在乘法運算下的逆元,稱為其逆矩陣;不是正方形的矩陣,可以定以左逆或者右逆,但也要滿足一定條件才存在。方陣可逆的條件,可以用行列式或秩來描述。

n階方陣的行列式是方陣的一種度量:在n+1維空間裏,低一維的有向曲麵的麵積微元,可以用一個n階行列式來表示;在坐標變換下,n維幾何形體的體積微元,可以用Jacobi階行列式來表示。二維平麵上多邊形的麵積,可以用頂點座標的 “鞋帶” 公式算出;算法就是一種推廣了的行列式。三維空間中多麵體的體積,也有類似的公式。在線性代數中,行列式是從Gauss消元法推出的、各個變量的公共係數;按照階數n的不同,其計算具有一定的規律,也就是按照各項下標排列的逆序數分為奇排列或偶排列,在前麵冠以負號或正號;全部n! 個項相加,就得出了係數,進而有了Crammer法則。

按照這種辦法去計算行列式是不可能的,除非三角形行列式。幸運的是,它既可以進行行變換,也可以進行列變換。(1)交換兩行(列),行列式變號;(2)可以按行(列)提取公因數;(3)一行(列)乘以一個數加到另一行(列)上,其值不變。由此三種變換,就可以把任何一個行列式化為三角形的。一個行列式,還可以按照任一行(或列)進行Laplace展開,實現降階;更可以按照任意多行(列)展開,由此可以定義長方形矩陣的一種度量。

秩(Rank),是一個矩陣的第二種度量,與維數類似;它可以有多種定義的方法。一是通過行(列)的三種初等變換化為“等價標準形”:左上角是單位矩陣,其它位置都是0;那個單位矩陣的階數,便是此矩陣的秩。三種初等變換對應三種初等矩陣,進行行變換,等價於左乘相應的初等矩陣;列變換呢,右乘即可;這樣可以把行變換的過程記錄下來,隻要在原矩陣的右邊添加一個單位矩陣即可。第二種定義方式是,在其所有各階子行列式中,存在非零子行列式的最大階數。這種辦法,說起來都拗口,更不可能用於實際計算。

秩的第三種表述方法是,行向量組的極大無關組中向量的個數;也等於列向量組的極大無關組中向量的個數。這二者相等,是線性代數中的一個基本定理。一個矩陣的行向量的所有線性組合的集合,形成一個向量空間(滿足線性運算的封閉性);它的維數,就等於矩陣的秩。列空間亦是如此。正是因為有了維數的解釋,我們才能估計兩個矩陣的和與積的秩;比如,秩(A + B)≤ 秩(A)+ 秩(B);秩(AB)≤ 秩(A),秩(B),秩(AB)≥ 秩(A)+ 秩(B)-A和B的公共階數(A的列數=B的行數)。與齊次方程組的解空間相結合,我們可以推出,秩(AB)= 秩(B)的充分必要條件是,從ABX = 0,可以推出BX = 0。

有了秩的概念,就知道了矩陣可逆的條件。一個方陣可逆的充要條件是,它的秩等於階數(稱為滿秩);一個橫向長方形矩陣(m ×n, m < n)有右逆的充要條件是,它的秩等於行數m(也是滿秩);一個縱向長方形矩陣(m ×n, m > n)有左逆的充要條件是,它的秩等於列數n(也是滿秩)。一個可逆方陣的逆矩陣,可以用它的伴隨矩陣(Adjoint)表出,也就是所有n-1階子行列式帶上Laplace展開式中的符號(所謂的代數餘子式),形成一個n階方陣再轉置(行、列互換)。右逆或者左逆的表示,要用到更多的子式,或者一般的行(列)變換。

一個向量空間中的線性表示弄清楚了,它的結構也就確定了。接下來,要討論多個向量空間之間的關係了。首先,怎麽構造出不同的向量空間?也就是構造具有兩種運算的集合。數學中,構造集合的辦法有多種。一是子集,隻要滿足運算的封閉性即可;二是做兩個集合的交集或者並集。可以證明,兩個子空間的交集還是子空間;但是,並集就不是了。三是兩個子空間的和,也就是在每個子空間裏取一個向量,然後加起來,構成一個集合;這還是一個子空間。四是一組向量的生成空間:從一個已知空間裏取一組線性無關的向量,把它們的所有的線性組合構成一個集合;這也是一個子空間。第五是用Descartes乘積,也就是構造有序組;第六是利用等價關係構造商集,不過這種辦法並不出現在現性代數中,那是集合論的研究範疇。

兩個不同的向量空間之間的關係,我們用“映射”來探討。當兩個線性空間的維數相等時,可以構造一個一對一的滿射(雙射),而且還是線性的:L(au + bv) = aL(u) + bL(v),對所有的數量a, b,向量u, v。這兩個空間,被稱為是“同構的”(結構相同)。可以說,任何n維實空間都與Rn(歐幾裏德空間)同構。要把一個高維空間“映入”一個低維空間,可以作“正交投影”,但會發生信息丟失。低維到高維,自然要作“拓展“,也就是憑空想像”,引入一些分量。

線性變換可是一個好東西,既簡單又不失了本性。從一個n維空間V到自身的一個線性變換L,由它在一組基底下的表示唯一確定:設 {v1, v2, …, vn} 是V的一組基,則有L(v1, v2, …, vn) = (v1, v2, …, vn)A,A是V的定義數域F上的一個n×n方陣。最方便的情形是,A是對角矩陣。有不有V的另一組基{u1, u2, …, un},使得L在此基下的矩陣表示是對角型的呢?設(u1, u2, …, un) = (v1, v2, …, vn)P,P是一個可逆矩陣;則

L(u1, u2, …, un)= L(v1, v2, …, vn)P = (v1, v2, …, vn)AP = (u1, u2, …, un)D, D為對角矩陣。

也就是說,P-1AP = D. 為此,人們引進了相似矩陣的概念:如果存在一個可逆矩陣P,使得P-1AP = D,就稱A與D相似。如果D是對角型的,就說A可以被相似對角化。

可逆矩陣實為一些初等矩陣的乘積;相似變換就是在進行列變換的同時,把相應的逆變換也用到行上。但要通過相似變換進行對角化是不可能的,隻能通過倒推—解方程組Av = dv,這又引進了特征值與特征向量的概念:滿足此方程的d就叫特征值(eigenvalue),相應的非零解v就是一個對應的特征向量(eigenvector)。

齊次方程組(A-dI)v = 0 有非零解的充要條件是,行列式的det(A – dI) = 0;因此,特征值就是多項式det(A – xI)的根。可以證明,對應於不同特征值的特征向量是線性無關的。根據代數基本定理,n次多項式恰有n個根;如果都是單根的話,那就必然有n個線性無關的特征向量,A可以相似對角化。對於重數m > 1的特征根r,方程組(A – rI)v = 0的線性無關的解的個數為 n- 秩(A – rI); 可以證明,此數值(稱為r的幾何重數)不超過m.。如果對於每個特征值r,都有幾何重數等於代數重數,則矩陣A可以對角化。

如果某個特征值的幾何重數小於代數重數,則可以把A化為Jordan標準形。有此,任何常係數的線性微分方程組,就可以求解了。其實,一個函數的高階常係數微分方程,以及常係數的差分方程的特征值,還有線性算子的譜,都是矩陣的特征值。隻有在偏微分方程的求解中,沒有辦法用常量矩陣去表示,需要用全微分去構造輔助方程;愛因斯坦的引力場方程完全可解,隻是沒有人問過我。

一切運算都可以看作是某種變換。在一個幾何(拓撲)空間中,有兩種變換:等度(isometric)與連續(continuous)變換。等度變換要保持長度(甚至角度)不變;在歐氏空間Rn中,數學家們猜測,隻有平移、旋轉、反射三種,可一直沒能證明。直到二十世紀80年代才被MIT的一個學生證明了(她的名字我忘記了)。其實這隻不過是正交矩陣的另一種說法而已:A*AT = I, AT 是矩陣A的轉置。但是,我們先要定義向量的長度;這可以用範數或距離來定義,隻要滿足三條公理。要定義角度的概念,隻能引進內積(點積),而且隻能是在實數空間裏;在虛數空間裏,隻有正交的概念,因為一個角度不可能是虛數。

有了正交的概念,就可以計算一個向量到一個子空間的最短距離了:隻要作正交投影即可。由於Rn中距離的平方(由一個向量與自身的內積而來)是一個二次多項式,線性代數又研究起二次型來了;二次型還可以用實對稱距陣表示:XTAX。實對稱矩陣具有一些特殊性質,例如其特征值都是實數,對應不同特征值的特征向量互相正交;還可以證明,它一定可以在正交變換下對角化。這就從另一個方麵證明了,距離(內積)在正交變換之下保持不變。當然,最簡單的二次型自然是隻有平方項、沒有混合二次項的;我們還可以在合同變換(就是配平方)下,把實對稱矩陣對角化。

有了距離的概念,就可以定義極限了,從而定義變換的連續性,這是拓撲學的研究範疇了。再進一步,可以定義變化率的概念,這是分析學的研究範疇。隻有在有限維空間裏,我們才能有最短距離。愛因斯坦的引力場運動方程,就是短程線的方程;那個動力學方程,就是牛頓第二定律,用張量的形式表示出來而已。他的偉大之處,在於發現了時間的相對性,不是數學表述的形式。

[ 打印 ]
閱讀 ()評論 (14)
評論
大醬風度 回複 悄悄話 回複 'alanshou' 的評論 : 一個函數在某種微弱限製下,即可以展開為富力葉級數,也可以泰勒級數,似乎二者有某種關係。可以從根的性質入手研究一下?
深度思考 回複 悄悄話 寫的很好。想學線性代數,肯定不能靠讀這篇文章。但是想檢查自己學好了沒有,看看這篇,有沒有看不懂的就成了。:) 另外 independence,中文的線性代數書裏麵就是用的“無關”,沒人說“獨立”的。仔細想想可能前人翻譯的不準,但是咱也得follow啊。
務實小民 回複 悄悄話 回複 '誠信' 的評論 : 哈哈,在我心中,讀的懂的都是了不起的,讚!
誠信 回複 悄悄話
用兩天讀完, 邊讀邊思考。 通俗易懂, 言簡意賅。

寫的非常好, 文筆也很好, 高度概括性的總結, 而不是準確性。 毫無疑問, 曾是一個很好的線性代數老師。

Highly concise and precise summary, great.
alanshou 回複 悄悄話 當年大學學的,其實是線性方程,不是線性代數。
後來,在美國讀博士時,花業餘時間,仔細扣了一遍,北大出的線性代數。
才真正學會線性代數,其實,我的感覺,線性代數,真正講得,是一個空間的概念。
這個可以是三維物理空間,也可以是函數空間。
我們用到的很多物理和數學,都是用到函數空間的概念。

傅裏葉變換,就是三角函數為基函數,一個空間的變換。
而泰勒展開,就是以x^n為基函數的,空間變換。

線性代數,是非常重要的基礎。
沒有學懂,很多東西都學不好。


alanshou 回複 悄悄話 當年大學學的,其實是線性方程,不是線性代數。
後來,在美國讀博士時,花業餘時間,仔細扣了一遍,北大出的線性代數。
才真正學會線性代數,其實,我的感覺,線性代數,真正講得,是一個空間的概念。
這個可以是三維物理空間,也可以是函數空間。
我們用到的很多物理和數學,都是用到函數空間的概念。

傅裏葉變換,就是三角函數為基函數,一個空間的變換。
而泰勒展開,就是以x^n為基函數的,空間變換。

線性代數,是非常重要的基礎。
沒有學懂,很多東西都學不好。


大醬風度 回複 悄悄話 兩個向量內積表征它們的互相投影,正則化之後也是它們的相關度,如果是0,則互相獨立,1則完全相關。例如概率論中就用這個表示兩個隨機事件的相關程度。還有很多其它應用。
大醬風度 回複 悄悄話 回複 '歐洲聯盟' 的評論 :
謝謝回複。正如您所知,英文為"linearly independent". 準確翻譯是"獨立"而非"無關"。孩子independent 與父母,是獨立而非與父母無關。有些摳字眼了。但概念對於理解事物本質很重要。

我對特征值與特征向量的幾何理解。一個矩陣A乘以某向量u其作用一個是將其旋轉一個角度,另一個作用是改變其長度。特征向量表征一個方向,當A作用在該方向上之後,其方向不變(不變方向。特征向量隻有方向才有意義),對應的特征值則表示A對其的拉伸或縮小的比例,與其原來長短無關(非零向量)。這是幾何意義。特征向量物理意義則是能量極小的方向(此時A理解為某線性係統)。特征值則是對其方向上的能量的改變。當外界輸入能量在此方向上時候,所有能量都會集中在同一方向上。在工程上可為振型,應力或應變的主方向,三維物體轉動慣量的主軸方向等。

e^A 泰勒展開與e^x 類似,由此可定義三角函數與sinh,cosh 函數,微分,積分運算等。

文章非常好,學習了很多,對線性問題做了很好的概括。當然您是從數學角度來看這個問題的。
歐洲聯盟 回複 悄悄話 回複 '大醬風度' 的評論 : 我上學的時候,被教導的就是“線性無關”,“極大無關組”等。特征值與特征向量的幾何意義嘛,在線性變換中包含了。它們的物理意義,就是能量譜。
大醬風度 回複 悄悄話 總結的很好。很全麵。
有幾個小地方商榷一下。

"線性無關"提法不確切。確切說是"線性獨立"。因為從語義上即使兩個正交的向量也是有關係的,正交就是它們之間的關係。
文章開始說是有限維的,後來又提無窮維。
對特征值與特征向量的幾何意義沒有闡述。
對向量內積運算及其意義應該闡述。
對於三角函數,指數對數等初等函數運算沒有涉及
可以寫得更通俗更直觀一些,非數學專業或者沒有數學基礎的人很難看懂(雖然文章有很多知識含量)。
務實小民 回複 悄悄話 雖然也是工科畢業,當年也考了八十多分,現在全還給老師了。
還是點開看了一下,象看天書,但是”不明覺厲“!
順便看了一下,被閱讀 1736次。估計象我一樣好奇的還不少。難道看懂的會超過一半?文學城看博的可都是老人喔!
bakoma 回複 悄悄話 教了很多遍,居然看不懂了。原來綫性代數這麽高級啊?
6ba6 回複 悄悄話 總結得好!這麽一篇文章就把高等代數歸納了,矩陣的運算在線性規劃,投資理財組合很多應用。
白釘 回複 悄悄話 深似海,看不懂也讚。
登錄後才可評論.