GPT的前世今生

2023年7月13日

GPT的人生哲學。用亞里士多德的觀點,認為任何一個系統都有自己的第一性原理,這是一個根本的命題或假設,不能缺少,也不能被違背。GPT的革命不僅僅是生產力的革命。今天的GPT與過去的AI有很大的不同,今天我們與GPT聊天時,常常有一種強烈的感覺,認為它是一個人,而且是一個非常聰明、正在進化的人。

大模型的迅猛發展讓AI走在歷史性的奇點,未來究竟走向何方?為什麼AGI的路上,非大模型不可?要探究未來,首先要回溯過去。太陽底下從來沒有新鮮事,今天大語言模型壓縮即智能的思想,早已寫在1948年香农的信息論,而今天的大模型只是做工程化的實踐。今天ChatGPT的勝利,是概率論的勝利,也是貝葉斯定理的勝利。只有回歸原理的洞悉,才能預見未來的進化路徑。

從AI的發展歷程來看,模型和算法是其不斷成長的核心驅動力。什麼是語言模型,語言模型如何一步步走到今天,方法演進的過程中解決了什麼問題,又帶來了哪些新的問題。細看語言模型的演進,你會發現今天大語言模型GPT的勝利,是刻在偶然中的必然。

近日,李志飛在混沌大會上發表演講,以“一”思維的方式探求本質,將語言模型的過去、現在和未來徐徐鋪展,透過歷史的脈搏,抽絲剝繭地梳理了語言模型的前世今生——我們從哪裡來,我們是誰,我們要到哪裡去?我們在扪心扣問這一答案時,也在思考今日人類所處的位置。

GPT這麼努力,就是為了增加對next token預測的確定性,為了熵減; 而人類這麼努力,是為了對抗熵增,增加對未來的確定性,也是為了熵減;大模型本質上在追求的底層邏輯,也是人類遵循的“第一性原理”,並不斷進行實踐。如果未來的智能體能夠通過建模視頻等多模態的無監督方式學習,將會非常高效。假如它們能夠跟物理世界直接交互,從Agent到多Agent互動,它們將能夠比人類學習更多,並且進化速度更快。

“今天的GPT還是山頂洞人,還非常的孤獨,但在未來的世界Agent一定是無處不在的,多Agent互動會改變一切。”李志飛表示。而未來會如何博弈,還取決於GPT擁有怎樣的世界觀、價值觀和人生觀,它僅僅是世界的倒影,還是有了自主意識?如果這些智能體變得比人類更聰明,將會發生什麼?

Matt Ridley在其著作《理性樂觀派•人類經濟進步史》中提到:始於十多萬年前的交換和專業分工習慣,創造出了以加速趨勢改善現狀的集體大腦,澎湃的創新能力更讓人類戰勝了很多在當時看來難以躲過的災禍。對於人類的未來,是理性樂觀,還是如辛頓般隱憂——假設青蛙創造了人類,那麼你認為現在誰會佔據主動權,是人,還是青蛙?

以下為演講內容梳理。

過去的語言模型ChatGPT的出現,讓「語言模型」突然走到台前,成為一個全民爆火的詞彙,而10年前「語言模型」是只有自然語言處理某一細分研究方向的人才會學習的內容,它作為一個後台系統存在,並不為大眾所熟知。但其實,早在大語言模型GPT出現之前,人們每天都在大量接觸和使用著語言模型。比如輸入法,當我們輸入一個詞,如何給出對下一個詞的合理建議,就是語言模型的典型應用之一。比如搜索,當我們在搜索框輸入文字的時候,會得到一些搜索建議,其應用的也是語言模型。甚至使用Google Translate、語音助手時,其背後的語音識別系統都會用到語言模型。語言模型可謂無處不在。

那麼什麼是語言模型?如同物理模型是對物理世界的建模,用以理解和描述物理世界的本質;語言模型則是對語言世界的建模,通過構建詞彙或短語之間的關聯性,來理解和描述人類語言的本質。比如在物理世界中,經典的物理模型——牛頓第二定律,F=MA,是用一種非常量化和形式化的方法來描述力的作用效果。同樣地,語言模型也具有量化和形式化表示的特性。

語言模型主要用來做什麼?簡單來說,語言模型主要做三件事。一是判斷一句話是否符合人類語言習慣。如果將一句話拋給語言模型,它會判斷這句話是否符合中文或英文的使用習慣。如大家寫郵件時,所遇到的語法糾錯提示,其用到的就是語言模型。二是預測下一個詞,賦能語言應用。比如只給出一句話的前幾個字,語言模型就可以根據語言規律來預測後面的字是什麼,如輸入法和今天的ChatGPT,就是基於語言模型預測下一個詞的應用。三是作為打分函數對多個候選答案進行打分排序。語言模型廣泛用於語音識別、機器翻譯、OCR等任務中,將幾種候選的語句結果,交給語言模型來打分排序,語言模型則會系統性地給出一個最優的答案。其中,語音識別、機器翻譯是語言模型用得最高級、最複雜的地方,因為系統有指數級多的答案,對答案打分需要用到複雜的動態規劃算法。

举兩個例子。如果語音識別模型給出兩個可能的結果,分別為“你的賬單分六期來還”和“你的賬單分六七來還”,這時候語言模型要做的事情,就是選擇其中一個正確選項。顯然它會選第一個,因為更加符合人類自然語言習慣。如果機器翻譯將一句英文翻譯為中文,得到“我在晚上8點的時候完成了工作”和“我完成了工作在晚上8點”兩種不同的翻譯結果。其中第二種是按照英文語序進行翻譯的,而第一種是重新打亂順序翻譯的,很顯然它選擇第一個作為更優的答案,這就是語言模型的價值所在。

語言詞彙的世界浩瀚如海,從量化的角度表達,語言模型是一種用於計算「一段文本」可能性的概率模型。把一段文本看作是一串時間軸上的單詞序列,語言模型的任務即計算該文絡語言模型中,最具代表性的是RNN(Recurrent Neural Network)語言模型和Transformer語言模型。RNN語言模型的特點是可以處理任意長度的序列,並且可以捕捉到長距離的語義依賴關係。然而,RNN語言模型的缺點是訓練過程中容易出現梯度消失或梯度爆炸的問題,並且無法平行化計算,訓練效率低。

為了解決RNN語言模型的問題,研究者提出了Transformer語言模型。Transformer語言模型的特點是使用自注意力機制(Self-Attention Mechanism)來捕捉序列中的依賴關係,並且可以平行化計算,訓練效率高。Transformer語言模型的代表作是Google的BERT(Bidirectional Encoder Representations from Transformers)和OpenAI的GPT(Generative Pretrained Transformer)。

BERT模型的特點是同時考慮了上下文信息,從而能夠更好地理解語義。然而,BERT模型的缺點是無法生成新的文本,只能用於文本分類、實體識別等下游任務。

相比之下,GPT模型的特點是可以生成新的文本,並且可以直接與人進行對話。GPT模型的缺點是只考慮了前文信息,忽略了後文信息。然而,這並不影響GPT模型在生成新文本和與人對話方面的表現。

總的來說,語言模型的發展歷程是一個從簡單到複雜,從統計到深度學習的過程。隨著技術的進步,語言模型的性能也在不斷提升,對人類語言的理解也越來越深入。然而,語言模型仍然面臨著許多挑戰,例如如何處理多語言、多模態的數據,如何理解和生成更複雜的語義結構等。這些問題的解決需要我們不斷探索和創新。