原鄉人

直性直情直白天下,
求真求善求美人間。
個人資料
北美_原鄉人 (熱門博主)
  • 博客訪問:
正文

我在ChatGPT的花園裏挖呀挖

(2023-05-29 16:00:51) 下一個

人工智能AI模20多年前還隻醜小鴨,很長時間沒有被科學界學術界,尤其是統計界充分的認可和使用,雖然大部分的AI模也用了概率統計的一些基本方法。記得當時很多年美國統計學家協會(ASA)都不承認NNAI是統計專業領域的。97年我在當地醫學院工作,當時的老板拿了一筆研究經費,目的專用於介紹和引進新的數學統計模式給醫學院各係的研究人員。當時考慮的一個AI模就是最早被發明和使用的Neural Network(NN),都是計算機專業或者程序語言能力強的人自發研究創造的模。但我們和一些專家觀察和評估了使用及結果,最後NN模沒有被通過和采用, 而是推薦引進了Latent Class Model(LCM)

2000年後,一些大的統計軟件如SAS E-Miner都包括了NN模,但在實際應用中,尤其是科學研究發表的使用數據統計和定量分析的文章中,都幾乎很少被使用。主要的原因之一在於,比如NN模, 什麽線性、非線性的變量都能夠輸入,而數據處理的過程本身和方法論(methodlogy), 就像一個難以進行定量分析和描述的黑盒子,最後輸出的結果也很難給予解釋。常常被人暗下嘲笑為 garbage in and garbage out。

但過去的10多年來,醜小鴨終於變成了白天鵝。隨著計算機科學、人工智能科學和數據科學等的飛速發展,以及這些科學之間的交叉學科的不斷出現,更加速了人工智能模式的成熟應用和具體成果。AI模不僅僅在圖像處理、語言處理、機器學習、自動駕駛、影像分析、醫療診斷、以及戰場態勢感知、戰場決策、自動武器係統等,也在數據分析等等領域裏得到了較大的發展和應用,其結果和成果越來越讓人刮目相看。據說穀歌的象棋冠軍AlphaZero,就是類似於下圖的一種最高端的三層的深度學習的NN模。AlphaZero使用深度神經網絡和蒙特卡洛樹搜索算法的組合來評估位置並做出決定。

人工智能AI今非昔比啦。雖然對算法和模式程序的處理過程,結構和功能以及結果和方法論的解釋還是沒有那麽精確和完整。但結果和市場可以證明和說明一切。比如,我們和最大的幾家金融公司,從2017年開始就使AI的單層NN模,替代原來的數學統計模來做現金流的預測,精確度和顧客使用的滿意度都比過去的數學統計模好些。 到目前為止,全公司各個領域所使用的幾百個登記注冊的Models,有將近30%是AI模了。並且AI模已經和所有的統計模分別開來,主要由計算機專業和數據科學領域的專家進行管理。目前, 公司已經允許各個部門的100個R&D專業人員,測試使用和評估ChatGPT和其他的AI語言軟件。不久將會決定是否會購買和使用這些全新的AI工具。也有大公司已經在研究發展使用AI技術進行股市投資決定和風險管理。

玩了幾天ChatGPT的幾點初步感受

根據ChatGPT自己的介紹,它是一個由OpenAI開發的人工智能語言模型。它是基於GPT(生成性預訓練轉化器)架構並且已經在互聯網上的大量文本數據上進行了訓練,使其能夠生成連貫的、與上下文相關的反應。ChatGPT能夠理解並以對話方式生成文本,使其適用於回答問題、提供解釋、提供建議、參與討論等任務。它還可以處理廣泛的主題和領域,盡管它的反應是根據訓練數據中存在的模式和例子生成的,可能並不總是反映最新的信息。

第一,What? ChatGPT有一個大規模訓練得出來的數據集。雖然不知道它產生的內在結構和功能,但通過其的產品和結果可以推斷,它過在大量閱讀的基上,通過上深入淺出地總結出來的一個語言和知識濃縮為的精華數據集。總之而言,巧婦難為無米之炊,沒有好的食材,再好的廚師也難做出高超的美食出來。盡管偶爾可能也會出現"化腐朽為神奇"的小概率現象。

在美國的研究生院,學生上課經常被要求閱讀大量的書籍和文章,並能夠在最短的時間內抓住其重點要點,濃縮成為高度結構性的精華。比如,你讀了學術雜誌上一篇20頁的文章,歸納總結出了10個重點,首先,根據文章的內容來看,這些重點概括總結得很完整(completely exhaustive),沒有較大遺漏。同時,這些重點之間,在內容邏輯的同一層次上都是相對獨立, 互相不重複的(mutually exclusive)。現在的ChatGPT幾秒鍾就可以完成,而你即使有過速讀的訓練和一定的專業知識,也至少要花費半個小時以上。另據報道,微軟正在準備整合AI語言模Copilot到MS Office中,其中有一個功能可以快速地閱讀和總結任何輸入的文章。最後,10個重點總結出來了,不是雜亂無章的任意堆砌,還需要根據主題內容進行權重和排序。哪個排第一,那個排第10。這都需要make sense。

第二,How? 結構決定功能,從功能也可能反推結構。GhatGPT應該是一個根據語言概念的不同層次整合在一起的、隨機流動性(語言文字的多樣性和可互換性造成的)較強的一個動態結構體。訓練過的數據集肯定不是一大堆自然的語言概念的堆積。它的語言基本單元是已經是被總結上升到一定層次的類似神經元結構化的整體。

太陽底下無新事。ChatGPT雖然是剛剛出現的新事物,但它使用的人類思維的內在邏輯和方法肯定不是第一次出現的東西。可以推斷它的第一個語言邏輯算法的基本規則和方法,應該是子係思維方式,也就是每個事物和現象在語言概念上至少可以分3層,即從上至下分為:母係統(sup-system )、係統(system) 和子係(subsystem) 。在處理問題的時候,每個層次根據自己算法係統和整體算法係統的規則進行排列組合,生成最佳的回答。這也是NN類似於神經元結構的模式。以下圖中間三個層次就是子係思維方式的典型例子。

可以推斷ChatGPT的語言邏輯算法的方法自然是根據數據集的特點來進行的。每個問題從語言概念的點,處理到所有相關的線,再處理到所有相關的麵,就像人的神經元一樣,多線條的、多維多麵的不斷的進行相關性整合, 最後處理到整體回答。

同時,ChatGPT的結果可以看出來,它的算法和邏輯依舊繼承和使用了人類的一些思維和知識建構的基本方法,諸如歸納推理(button up)和演繹推理(top down)發散性思維和聚斂性思維;還有"天下文章一大抄",概括、總結也是一種創造的至理名言。當然,戲人人會變,各有巧妙不同。每個的AI軟件也都是有自己的特點和特色。

第三,Why? 由於訓練時使用的數據集包括了網絡上最廣泛的信息資源,也就是最大範圍的數據庫。所以海納百川, 有容乃大,不僅僅最後回答的判斷處理根據ChatGPT自己的回答就是:"在生成反應時,ChatGPT使用概率分布來確定上下文中不同單詞或單詞序列的可能性。它根據它從訓練數據中學到的模式計算條件概率。然後,該模型從這些分布中取樣,考慮到上下文和不同單詞或短語出現的概率,生成一個響應。"總之,ChatGPT生成的回答應該都是人類社會和知識中的大概率事件和現象。不僅從商業層次考慮,ChatGPT性質上也應該適用於最大多數和普遍的國家和人群。並且, 從商品和產品最終的目的來看,應該遵循於服務最廣大人民群眾的利益。所以社會中的極端份子會比較失望的。比如, 你問一些極端的問題,中美戰爭,FG或者台獨,得到的回答都是很中性, 並且比較客觀的。

最後感受:ChatGPT和人類思維工具的發展都有著一個同樣的規律,即工具越先進越發達,人類主體的主觀能動作用越重要。這不僅是充分認識和掌握工具的功能特點,知道如何正確充分的使用它, 還必須要有正確的觀念和理論指導和引導你得出正確的問題。ChatGPT也是如此,一言以蔽之,你的問題決定了你會得到的回答的質量和好壞,也決定了這個工具的能夠提供的功能和質量的高低。對此有人總結出,提出問題比解決問題更重要。同時,你的知識積累和能力也最終決定了你是不是識貨,還是視而不見,擦肩而過,無法真正的使用和利用好AI工具產生的結果。

以下就是幾點具體的經驗和感受,包括了一些有意思的例子。

ChatGPT訓練過程中使用的數據庫有多大?

天下文章一大抄,ChatGPT抄的是天下的文章,不僅僅局限於有名有姓的一兩處的文章。ChatGPT的訓練並不是基於特定的數據庫,而是通過對大規模互聯網文本數據進行訓練。OpenAl使用了廣泛的互聯網文本數據集,包括維基百科、網頁文章、論壇帖子、新體來說聞文章等等。需要注意的是,ChatGPT的訓練數據是通過對大量的互聯網文本進行自監督學習來實現的這意味著ChatGPT在生成回複而不是針對特定數據庫或特定領域的數據集進行有監督訓練。

關於具體數據集的大小,OpenAI並沒有公開透露詳細的信息。由於訓練過程涉及龐大的計算資源和時間,以及數據使用權等方麵的限製,具體的數據集規模和組成是OpenAI內部管理和決策的內容。

但當你察覺到所問的問題回答的文不對題,或者有錯誤,那麽自然而然的原因就是因為數據集沒有足夠的數據和知識的支持。比如,我問中國中醫關於"腎氣的理論和概念",ChatGPT回答的比較完美周全。

但我又問中國中醫關於"濕氣的理論和概念",顯然基本概念回答錯誤。因為中醫的關於濕和濕氣的理論,在一開始就區分於通常物理學概念上的水和濕,而是一個包含生理、病理、生態環境和人的整體性的一個形而上的概念。隻怪ChatGPT有關中文和中醫的書讀得不夠多,知識積累的不夠全吧。

ChatGPT的數據更新的時間框架是什麽?

作為一個人工智能語言模型,ChatGPT回應是(As of May 2023): "基於互聯網和其他文本來源的訓練處理,我的知識截止日期2021年9月。這意味著我的反應反映了截至該時間的信息和事件,我無法獲得該時間點之後的實時或更新信息"。比如,我試問了一段上兩個月剛剛出來,在中國國內轟動一時的女幼兒園老師的歌詞。顯然ChatGPT沒有料,但判斷正確是一個與文學相關聯的問題,從而瞎湊出了下麵4段挺有意思的白話詩。顯然應該記住,目前為止ChatGPT數據集和任何現在的時差是20個月。也就是說,當你問任何發生在剛剛過去20個月時間內的東西時,預期可能得不到正確的答案。

至於ChatGPT可以用應用於預測股市? 下麵是它自己的回答,當然不否認,華爾街一直有自己的預測股市的軟件,其數據的更新也是每天的、甚至即時的。

ChatGPT回答問題時的道德判斷價值判斷係統是什麽?

ChatGPT沒有內置的道德判斷或價值判斷係統。作為一個語言模型,ChatGPT是通過預訓練和微調過程學習生成文本回複的能力。它並沒有內置對道德或價值問題的明確判斷能力,也不能提供完全準確或權威的道德觀點。當回答問題時,ChatGPT會盡力生成相關和合理的回複,但回複的內容可能是基於訓練數據中的模式和潛在偏見。由於它的訓練數據是從互聯網收集的大規模文本中得出的,並未針對特定的道德框架或價值體係進行篩選,因此回複可能受到文本數據的限製和傾向性

ChatGPT使用任何數學統計的模式嗎?

是的,太陽底下無新事。ChatGPT說,它在其訓練和生成過程中利用了數學和統計模式。它是基於一種稱為變形器(transformer)的深度學習架構(deep learning architecture),這是一種神經網絡模型(neural network model)。變形器使用數學運算,如矩陣乘法和非線性激活函數,來處理和轉換輸入數據。

在訓練階段,ChatGPT通過一個稱為梯度下降(gradient descent)的過程優化其模型參數,學習訓練數據中的統計模式。這涉及到計算梯度和更新模型權重(model weights),以最小化生成的輸出和訓練數據的目標輸出之間的差異。

在生成反應時,ChatGPT使用概率分布來確定上下文中不同單詞或單詞序列的可能性。它根據它從訓練數據中學到的模式計算條件概率。然後,該模型從這些分布中取樣,考慮到上下文和不同單詞或短語出現的概率,生成一個響應。

總之,數學和統計模式是ChatGPT使用的底層深度學習架構和訓練過程的基本組成部分。這些模式使模型能夠從數據中學習,並根據學到的統計關聯生成反應。

一個做高深點學問的例子之一: 因果關係的概念和理論?

ChatGPT在不到1分鍾內就提供了七個有關因果關係的理論。我比較了維基百科的幾個有關的概念和理論的專題。ChatGPT的回答不僅是比較完整,也高度的精練。當然,由於概括程度太高,每個理論都隻是蜻蜓點水,點到為止。比如,結構方程模型(SEM),在過去的20多年中,大量的應用在社會科學、經濟學等領域內,也有大量的SEM因果關係定量分析和統計的教科書、文獻和資料可以查詢。以下是ChatGPT的回答。

因果關係是各個領域的一個基本概念,包括哲學、科學和統計。有幾種關於因果關係的理論和觀點,試圖解釋因果之間的關係。下麵是幾個與因果關係有關的突出概念和理論:

規律性理論: 根據規律性理論,因果關係是基於事件的規律性或模式。它認為,一個原因是一個事件,它的後麵是一個具有高度規律性或頻率的特定效果。這一理論強調對因果之間重複關聯的經驗觀察。

反事實理論: 因果關係的反事實理論從反事實條件的角度來定義因果關係。它指出,一個原因是一個事件,如果它沒有發生,效果就不會發生。這一理論通過考慮假設的替代方案和評估結果的差異來探索因果關係。

概率性因果關係: 概率因果關係承認,因果關係往往是概率性的,而不是決定性的。它表明,一個原因增加了一個結果發生的概率,但並不保證它。這一理論考慮了原因和結果之間的可能性或統計學關聯。

機械式因果關係: 機械性因果關係理論著重於理解因果機製或過程,解釋一個原因如何導致一個結果。它強調識別潛在的機製、相互作用和介導因果關係的中介因素。

代理和幹預主義理論: 代理理論強調有意的代理人或行動者在因果關係中的作用。他們認為,因果關係涉及代理人的有意行動或幹預。幹預主義理論認為,原因是改變事件進程並產生特定效果的幹預。

結構方程模型(SEM): 結構方程模型是一個統計框架,結合測量模型和結構模型來估計變量之間的因果關係。它使用定向路徑表示因果關係,並允許測試關於因果效應的假設。

貝葉斯的因果推斷: 因果推斷的貝葉斯方法使用概率模型和貝葉斯統計學來推理因果關係。這些方法結合先驗知識、觀察到的數據和因果假設來估計因果效應和評估不確定性。

值得注意的是,因果關係是一個複雜的、哲學上的概念。不同的學科可能采用不同的視角和理論來研究因果關係。理論或框架的選擇取決於背景、研究問題和被調查的因果關係的性質。

一個做高深點學問的例子之二: 馬克思的理論對今天仍然有用?

ChatGPT: 卡爾-馬克思的理論今天仍然具有影響力並被廣泛討論,特別是在社會學、經濟學和政治學領域。雖然對馬克思理論的相關性和適用性的意見可能不同,但以下是一些需要考慮的要點:

經濟分析: 馬克思對資本主義的批判和他對經濟體係的分析仍然有影響力。他的概念,如階級鬥爭、勞動價值論、異化和剝削,為理解經濟動態和不平等提供了洞察力。在討論收入不平等、全球化和財富分配時,馬克思對勞動和資本之間關係的關注仍然具有現實意義。

社會不平等: 馬克思對社會階層及其對社會的影響的強調在今天仍然是相關的。他的框架強調了植根於資本主義製度的結構性不平等,使人們注意到財富和權力集中在少數人手中的情況。關於收入不平等、社會流動性和社會分層的討論經常包含馬克思的思想和觀點。

政治經濟學: 馬克思對政治經濟學的分析研究了經濟體係、權力動態和政治結構之間的關係。他的曆史唯物主義理論認為,經濟條件決定社會發展,為理解曆史和政治變化提供了一個視角。馬克思主義關於國家、帝國主義和資本主義在塑造政治機構方麵的作用的觀點,繼續為政治科學的辯論提供參考。

社會運動和行動主義: 馬克思的思想在曆史上影響了社會運動和活動。他對集體行動、勞工權利和工人運動的關注,激發了各種倡導社會正義、工人權利和平等的社會和政治運動。馬克思主義框架繼續塑造活動家團體和組織的分析和戰略。

批評和不斷發展的解釋: 馬克思的理論也麵臨批評,並隨著時間的推移被重新解釋。學者和思想家對決定論、曆史唯物主義和馬克思主義社會主義模式的可行性等方麵進行了批評。此外,馬克思的思想已經被改編和重構,以應對不斷變化的社會、經濟和政治背景。

值得注意的是,雖然馬克思的理論提供了寶貴的見解,但它們並非沒有局限性。對他的作品存在著不同的解釋和改編,具體思想的相關性可能因背景和學科而異。參與馬克思的理論涉及批判性分析,考慮其他觀點,並了解其曆史和知識背景。

一個幫助專業領域的具體例子: Python, R and SAS Coding & Modeling Help

對於統計建模和分析、AI和數據科學領域,尤其對於做研究或者自學的人來說,ChatGPT提供了很好的谘詢工具和專門問題的解答。下麵是Python和R的兩個建模的簡單例子。至於ChatGPT可以提供多少深和多廣的建模和程序語言方麵谘詢和幫助,還需要有具體的大量的使用才能夠清楚了解。

最後, 當下紅透半邊天的英偉達CEO黃仁勳,在台大的畢業典禮上致辭說,AI正在重塑電腦產業,鼓勵大家都必須學會善於用AI工具。心動不如行動,感興趣的人趕快注冊一個開挖吧。無論你到小小的花園裏,還是到大大的花園裏挖呀挖呀挖,最後都會得到收獲和結果的!


Reference Link: 

ChatGPT Link:
https://chat.openai.com/

[ 打印 ]
閱讀 ()評論 (7)
評論
北美_原鄉人 回複 悄悄話 回複 '二胡一刀' 的評論 : 是的,我也碰到了至少有30%以上的問題回答的不正確。工具就是工具,不能夠變成主人。真正的聰明、具有一定知識積累,並且語言詞匯量大能夠寫東西的人, 不會花太多時間在ChatGPT上。
北美_原鄉人 回複 悄悄話 回複 'BeijingGirl1' 的評論 : 是啊,至今為止,人工智能領域的理論和概念都相對來講不成熟,並且不太容易被一般人所理解。但不能否認,生活和實踐永遠是長青的,理論永遠是灰色的。效果、成果和結果出了一大堆了,但還講不清楚怎麽弄出來的?謝謝留言!
二胡一刀 回複 悄悄話 我試用了幾次CHATGPT,並不令人滿意。都不是複雜的問題,要不就是給了不全麵的答案,追問幾次才給出了所有答案,要不就是給了錯誤答案,直到我告訴它我的正確答案來源它才承認自己搞錯了。。。
BeijingGirl1 回複 悄悄話 非常好的一篇 ChatGPT 文, 提綱挈領,高瞻遠矚, 讚。 看起來它可能取代各種搜索。 如果有一天, 它能自己生成新的計算和歸納方法,那就代替人類了。 我常想這家夥的數據庫是什麽樣的, 它的更新是怎麽進行的...
Nightrose_us 回複 悄悄話 樓主三層feed forward神經網絡可不是最高端的。現在的大語言模型都幾十上百個billions的參數
6ba6 回複 悄悄話 樓主所提的問題馬上被收入數據倉庫,越多人提問越準,不斷循環比較
voiceofme 回複 悄悄話 對HOW, 想當然的比較多。
登錄後才可評論.