Open AI 首席技術官Ilya Sutskever-GPT是壓縮是壓縮全世界的知識後的湧現

2023年5月10日

在黃仁勳與Ilya Sutskever的爐邊談話中，詳細討論了 GPT-4 及其前身，包括 ChatGPT。這種生成式人工智能模型雖然只有幾個月的歷史，但已經是歷史上最受歡迎的計算機應用程序。他們的談話涉及深度神經網絡的功能、局限性和內部工作原理。在3月的英偉達GTC 2023會議中，英偉達創始人兼CEO黃仁勳與OpenAI聯合創始人及首席科學家伊爾亞-蘇茨克維（Ilya Sutskever）展開了一次“爐邊談話”。

黃仁勳和Sutskever均為AI領域舉足輕重的人物，也是AlphaFounder的典型代表。黃仁勳的NVIDIA成為了AI領域的算力底座，幾乎所有AI的計算都離不開NVIDIA的GPU，Sutskever在很早之前就與Krizhevsky、Hinton共同發表橫空出世的關於AlexNet的論文，並且一手推動了GPT大模型和ChatGPT的出現。

黃仁勳表示：“AI 正迎來有史以來最輝煌的時刻。新的 AI 技術和迅速蔓延的應用正在改變科學和各行各業，並為成千上萬的新公司開闢新的疆域。這將是我們迄今為止最重要的一次 GTC。”

黃仁勳與Ilya Sutskever的爐邊談話中，詳細討論了 GPT-4 及其前身，包括 ChatGPT。這種生成式人工智能模型雖然只有幾個月的歷史，但已經是歷史上最受歡迎的計算機應用程序。他們的談話涉及深度神經網絡的功能、局限性和內部工作原理。“與ChatGPT相比，GPT-4標誌著“在許多方面都有相當大的改進”，Sutskever說，“在未來的某個版本中，使用者可能會得到一個圖表”來回應查詢，指出新模型可以讀取圖像和文本。

神經網絡與 GPT“有一種誤解，認為ChatGPT是一個大型語言模型，但有一個圍繞它的系統，”黃仁勳說。

Sutskever表示，OpenAI使用兩個級別的訓練。第一階段的重點是準確預測序列中的下一個單詞。在這裡，“神經網絡學習的是產生文本的過程的一些表示，這是世界的投影，”他說。第二個“是我們向神經網絡傳達我們想要的東西的地方，包括護欄......因此，它變得更加可靠和精確，“他補充說。AI大爆炸雖然他今天處於現代人工智能的漩渦中心，但Sutskever也參與了它的創建。

2012年，他是第一批展示在海量數據集上訓練的深度神經網絡力量的人之一。在一次學術競賽中，他與人工智能先驅Geoff Hinton和Alex Krizhevsky一起展示的AlexNet模型識別圖像的速度比人類更快。

黃仁勳將他們的工作稱為人工智能的大爆炸。

結果“以如此大的優勢打破了記錄，很明顯這裡存在不連續性，”黃仁勳說。

算力大爆發：增長一百萬倍這一突破的一部分來自團隊使用 GPU 應用於其模型的並行處理。

“ImageNet 數據集和卷積神經網絡非常適合 GPU，這使得訓練前所未有的東西變得非常快，”Sutskever 說。

早期的工作在多倫多大學實驗室的幾個GeForce GTX 580 GPU上運行。如今，Microsoft Azure雲服務中數以萬計的最新NVIDIA A100和H100 Tensor Core GPU在ChatGPT等模型上進行訓練和推理。

黃仁勛說。「計算機科學界沒有人會相信當時完成的計算會大一百萬倍。

「我有一個非常強烈的信念,越大越好,OpenAI的目標是擴大規模,」Sutskever說。

AI的未來當被問及GPT-4是否具有推理能力時,Sutskever表示該術語很難定義,並且該功能可能仍在地平線上。

「我們將繼續看到那些讓我們震驚的系統,它們能做什麼,」他說。「前沿在於可靠性,達到我們可以信任它能做什麼的地步,如果它不知道什麼,它就會這麼說,」他補充說。

「你的作品令人難以置信...真的很了不起,「黃仁勛在閉幕式上說,「這是博士之外對大型語言模型技術狀態的最好的描述之一。」

附邊爐談話精華下面是兩人邊爐談話的精華整理。

黃仁勛:最近ChatGPT的熱潮將人工智慧又站在了世界的「風口浪尖」,OpenAI公司也受到行業的關注,你也成為了整個行業最為引人注目的年輕工程師、最為頂尖的科學家。我的第一個問題是,你最初關注和聚焦人工智慧領域的出發點是什麼?有想過會取得目前如此巨大的成功嗎?

Sutskever:非常感謝對我的盛情邀請。人工智慧通過不斷的深度學習,給我們的世界帶來了巨大的變化。對於我個人來說,其實主要是兩方面:

首先,我關注在人工智慧深度學習方面的初心,是我們人類對於各種問題,都有一定的直覺性的理解。對於人類意識的定義,以及我們人類的智力是如何完成這樣的預判,這是我特別感興趣的地方。

第二,在2002年到2003年期間,當時的我認為「學習」這件事,是只有人類才能完成的任務,計算機是無法做到的。所以我當時冒出一個想法:如果能夠讓計算機去不斷學習,或許會帶來人工智慧行業的改變。

很幸運的是,當時我正在上大學,我研究的專業剛好是研究神經網絡學習方向。神經網絡是在AI方面的一個非常重要的進步,我們關注如何通過神經網絡去研究深度學習,以及神經網絡如何像人類的大腦那樣工作,這樣的邏輯如何反映在計算機的工作方式上。當時的我其實並不清楚研究這個領域會帶來怎樣的職業工作路徑,只是覺得這會是一個長期而言比較有前景的行業。

黃仁勛:在您最開始接觸神經網絡研究方向時,那個時候的神經網絡的規模是多大?

Sutskever:那個時候神經網絡還沒有討論到規模的概念,只有幾百個神經單元,甚至當時的我都沒想過,居然能發展到現在如此之多的神經單元、以及如此多的CPU的單位。當時我們啟動了一個數學實驗室,基於經費預算有限,我們先開始只做了各種各樣不同的實驗,並收集了各種不同的問題去測試準確度。我們都從一點一滴很小的積累,去培訓神經網絡。這也是最開始實現的第一個生成式AI模式的雛形。

黃仁勛:早在2012年之前,你就在神經網絡領域有所建樹,你是在什麼時間點開始覺得計算機視覺以及神經網絡和人工智慧是未來方向的?

Sutskever:在2012年之前大概兩年左右,我逐漸意識到深度學習會獲得很多關注,這不僅僅是我的直覺,其背後有一套非常紮實的理論基礎。如果計算機的神經網絡足夠深、規模足夠大,它就能夠解決一些深層次的硬核內容問題,關鍵是需要神經網絡兼備深度和規模,這意味著我們必須有足夠大的資料庫和算力。

我們在優化數據模型上付出很多努力,我們的一個同事基於「秒」做出了神經網絡的反饋,用戶可以不斷培訓神經網絡,這能讓神經網絡的規模更大、獲得更多數據。有的人覺得這樣的數據集大到不可想象,如果當時的算力能夠處理這麼大的數據,那麼一定能觸發一場革命。

黃仁勛:我們第一次相遇的時候,也是我們對未來的展望真正有所交集的時候。你當時告訴我說,GPU會影響接下來幾代人的生活,你的直覺認為GPU可能會對深度學習的培訓有所幫助。能不能告訴我,你是在什麼時候意識到這一點的?

Sutskever:我們在多倫多實驗室中第一次嘗試使用GPU訓練深度學習的時候,並不清楚到底如何使用GPU、如何讓GPU獲得真正的關注。隨著我們獲得越來越多的數據集,我們也越來越清楚傳統的模型會帶來的優勢。我們希望能夠加速數據處理的過程,訓練過去科學家從來沒有訓練過的內容。

黃仁勳:放在當下來看,當時你去矽谷到 Open AI上班、擔任 Open AI的首席科學家,你認為最重要的工作時什麼?我覺得 Open AI在不同的時間點有不同的工作關注焦點,ChatGPT是「AI界的iPhone時刻」,你是如何達到這樣的轉變時刻的?

Sutskever:最開始我們也不太清楚如何開展整個項目,而且,我們現在所得出的結論,和當時使用的邏輯完全不同。用戶現在已經有這麼好用的 ChatGPT工具,來幫助大家創造出非常好的藝術效果和文本效果。但在2015年、2016年的時候,我們還不敢想像能達到當下的程度。當時我們大部分同事來自谷歌的 DeepMind,他們有從業經驗,但相對而言思想比較狹窄、受到束縛,當時我們內部做了100多次不同的實驗和對比。

那時我想出一個特別令自己激動的想法,就是讓機器具備一種不受監督的學習能力,雖然今天我們認為這是理所當然的,你可以用自然語言模型訓練所有內容。但在2016年,不受監督的學習能力仍舊是沒有被解決的問題,也沒有任何科學家有過相關的經驗和洞見。我覺得「數據壓縮」是技術上的瓶頸,這個詞並不常見,但實際上 ChatGPT確實壓縮了我們的訓練數據集。但最後我們還是找到了數學模型,通過不斷訓練讓我們壓縮數據,這其實是對數據集的挑戰。這是令我感動特別激動的一個想法,這個想法在 Open AI上獲得了成果。

其實這樣一些成果,可能並不會在機器學習之外深受歡迎,但是我想說的是,我工作取得的成果是訓練了神經網絡。

我們希望能夠去訓練神經網絡預測下一個單詞。我認為下一個神經元的單位會和我們的整個視覺神經網絡密切相關的,這個很有趣,這個和我們驗證的方法是一致的。它再次重新證明了,下一個字符的預測、下一個數據的預測能夠幫助我們去發掘現有數據的邏輯,這個就是 ChatGPT訓練的邏輯。

黃仁勛:擴大數據規模是幫助我們提高AI能力的表現,更多的數據、更大的數據集能夠幫助生成式AI獲得更好的結果。你覺得 GPT-1、GPT-2、GPT-3的演變過程,是否符合摩爾定律?

Sutskever:OpenAI的目標之一是解決擴大數據集的問題,但我們剛開始面臨的問題,如何提升數據的高精準度,讓模型能夠實現精準預測非常重要。我們當時在做 Open AI項目的時候,希望它能實時做一些策略性遊戲,比如競爭性的體育遊戲,它必須足夠快、足夠聰明,還要和其它隊競賽。作為一個 AI模型,它其實不斷重複這樣一個基於人類反饋的強化學習過程。

黃仁勳:你是如何精準調控給予人類反饋的強化學習的?是不是有其它附屬系統,給 ChatGPT一定的知識背景來支持 ChatGPT的表現?

Sutskever:我可以給大家解釋一下,我們的工作原理是不斷訓練神經網絡體系,讓神經網絡去預測下一個單詞。基於過去我們收集的文本,ChatGPT不僅僅是表面上的自我學習,我們希望它能夠在當下預測的單詞和過去的單詞之間達成一定的邏輯上的一致。過去的文本,其實是用於投射到接下來的單詞的預測上。

從神經網絡來看,它更像是根據世界的不同方面,根據人們的希望、夢想和動機得出一個結論。但我們的模型還沒有達到預期的效果,比如我們從網上隨便摘幾個句子做前言,在此基礎上,不需要做額外的訓練就能讓 ChatGPT寫出一篇符合邏輯的論文。我們不是簡單地根據人類經驗完成 AI學習,而是要根據人類反饋進行強化學習。人類的反饋很重要,越多的反饋能使 AI更可靠。

黃仁勳:你可以給 AI指示,讓 AI做某些事情,但是你能不能讓 AI不做某些事情?比如說告訴 AI界限在哪裡?

Sutskever：可以的。我覺得第二個階段的訓練序列，就是和AI、神經網路去進行交流，我們對AI訓練得越多，AI的精準度越高，就會越來越符合我們的意圖。我們不斷地提高AI的忠誠度和準確度，它就會變得越來越可靠，越來越精準，而且越來越符合人類社會的邏輯。

黃仁勳：ChatGPT在幾個月之前就問世了，並且也是人類歷史上增長最為迅速的軟體和應用。很多人都會給出各種不同的解釋，有人會說它是目前為止使用方式最簡單的應用。比如說它的交互模式非常簡單，它超越了所有人的預期。人們也不需要去學習如何使用ChatGPT，只要給ChatGPT下命令，提出各種不同的提示就可以。如果你的提示不夠清楚的話，ChatGPT也會進一步把你的提示做得比較清晰，然後回顧並且問你是不是想要這個？這樣一個深度學習的過程讓我特別驚艷。

我們在幾天之前看到了GPT-4的表現，它在很多領域的表現非常讓人震驚，它能夠通過SAT考試、律師協會的律師執業資格考試，而且能夠達到很高的人類水平。我想問的就是，GPT-4有什麼樣的改善？並且你認為接下來它會幫助人們在哪些方面、領域有更多的改善？

Sutskever：GPT-4基於過去ChatGPT的性能，做了很多改善。我們對GPT-4的訓練大概是從6-8個月之前開始的，GPT -4和之前版本GPT最重要的區別，就是GPT-4是基於更精確的精準度去預測下一個單詞的，因為有更好的神經網路幫助預測。

比如說你自己在讀一篇推理小說，小說中有各種不同的人物和情節，有密室、有謎團，你在讀推理小說的過程中完全不清楚接下來會發生什麼。通過小說不同的人物和情節，你預測兇手有幾種可能性，GPT-4所做的內容就像一本推理小說一樣。

黃仁勳：很多人都會說深度學習會帶來推理，但是深度學習並不會帶來學習。語言模型是如何學習到推理和邏輯的？有一些任務，ChatGPT和GPT-3不夠擅長，而GPT-4更擅長。GPT-4現在還有什麼樣缺陷，可以在接下來的版本上更進一鞏固嗎？

Sutskever：現在的ChatGPT可以更精確地的定義邏輯和推理，通過更好的邏輯和推理在接下來的解密的過程中獲得更好的答案。神經網絡或許會面臨一些挑戰，比如讓神經網絡去打破固有的思維模式，這就意味著我們要思考神經網絡到底可以走多遠，簡而言之，神經網絡的潛力有多大。

我們認為GPT的推理確實還沒有達到我們之前預期的水平，如果我們更進一步擴大數據庫，保持過去的商業運轉模型，它的推理的能力會進一步提高，我對這個比較有信心。

黃仁勳：還有一點特別有意思，就是你去問ChatGPT一個問題，它會基於過去的知識和經驗告訴你這個問題的答案，這個也是基於它對過去知識和數據庫的總結，以及基於對你的了解提供的答案，並且展現一定的邏輯性。我覺得ChatGPT有一種自然而然的屬性，它能夠不斷去理解。

Sutskever：是的，神經網絡確實有這些能力，但是有時候不太靠譜，這也是神經網絡接下來面臨的最大障礙。在很多情況下，神經網絡會比較誇張、會出很多的錯誤，甚至出一些人類根本做不出來的錯誤。現在我們需要更多的研究來解決這些“不可靠性”。

現在GPT-4的模型已經被公開發布了，它其實沒有追蹤數據模型的能力，它的能力是基於文本去預測下一個單詞，所以是有局限性的。我覺得有些人可能會讓GPT-4去找出某些數據的來源，然後會對數據來源做更深入地調查。

總體而言，儘管GPT-4並不支持內部的數據收集，它肯定會在持續的數據深入挖掘之中變得更加精確。GPT-4已經能夠從圖片中進行學習，並且根據圖片和內容的輸入進行反饋。

黃仁勳：多模態學習如何加深GPT-4對於世界的理解？為什麼多模態學習定義了GPT和OpenAI？

Sutskever：多模態非常有意思。

第一，多模態在視覺和圖像識別上特別有用。因為整個世界是由圖片形成的，人們也是視覺動物，動物也是視覺動物，人腦1/3的灰質都是用來處理圖像的，GPT-4也能夠去理解這些圖像。

第二，透過圖片或文字對世界的理解是一樣的，這也是我們的一個論證。對於一個人而言，我們作為一個人可能一生之中只會說10億個詞。

黃仁勳：我腦海中閃過10億個詞的畫面，居然有這麼多詞？

Sutskever：是的，我們可以計算一下人一生的時間有多久，以及一秒能處理多少詞，如果再減去這個人生命中睡覺的時間，就能算出一生處理了多少單詞。人和神經網絡不同之處，就是有些過去對於文本而言的話，如果我們有一個十億級的詞彙無法理解的話，可以用萬億級的詞彙來理解。我們對於世界的知識和信息，可以透過文本慢慢滲透給AI的神經網絡。如你加上視覺圖片等更多的元素，神經網絡可以更精確地學習。

黃仁勳：對於文本和圖片方面的深度學習，如果我們想要人工智能去理解其背後的邏輯，甚至誇張的說，是理解這個世界的基本原理——比如我們人類日常一句話的表達方式，比如說有一個詞其實有兩種含義，聲音的高低變化，其實都代表著兩種不同的語氣。在說話的語言和語調方面，會不會對AI去理解文本有一定幫助呢？

Sutskever：是的，你說的這類場景非常重要。對於語音和語調，包括聲音的大小和語氣，都非常重要的信息來源。

黃仁勳：GPT-4在哪些內容上比GPT-3做出了更多的進步，可以舉個例子嗎？

Sutskever：比如說在一些數學競賽上（像高中數學競賽），很多問題是需要圖表來解答的。GPT-3.5對於圖表的解讀做得特別差，而GPT-4只需要文本就可以解讀，準確率有很大的提升。

黃仁勳：你之前提到，AI能夠生成各種不同的文本來去訓練另外一個AI。比如說，在所有的語言之中一共有20萬兆不同的語言計數單位去培訓語言模型，那麼這個語言模型的培訓到底是什麼樣的？AI是否可生成出只屬於AI的數據來去自我培訓？這樣的形式看起來是一個閉環的模型，就像我們人類通過自己不斷地去學習外部的世界、通過自我反思、通過解決問題來去訓練我們自己的大腦。你怎麼看這樣一個合成生成過程，以及AI的自我學習和自我培訓呢？

Sutskever：我不會低估這個部分已經存在的數據，甚至我認為這裡面存在的數據要比我們意識到的數據更多。

黃仁勳：是的，這也是我們在不斷展望的未來中去思考的事情，相信總有一天，AI能夠自己去生成內容、進行自我學習，並且可以自我改善。你是否可以總結一下我們現在處於什麼樣的發展階段？以及在不遠的將來，我們的生成式AI能夠達到什麼樣的情況？對於大語言模型，它的未來是什麼？

Sutskever：對我來說，預測未來是很困難的。我們能做的就是把這件事，持續做下去，我們將會讓大家看到更多令人感到驚艷版本的系統。我們希望能夠去提高數據的可靠度，讓系統真正能夠獲得人們的信任。如果讓生成式的AI去總結某一些文本，然後得出一個結論。目前AI在解讀這個文本過程中，還沒有完全去驗證文本的真實性以及文本所說的信息的來源，這一點是很重要

Sutskever：對我來說，預測未來是很困難的。我們能做的就是持續進行這項工作，我們將讓大家看到更多驚艷版本的系統。我們希望能提高數據的可靠度，讓系統真正能贏得人們的信任。如果讓生成式的AI去總結某些文本，然後得出一個結論。目前AI在解讀這個文本過程中，還未完全去驗證文本的真實性及其信息來源，這點是很重要的。我們接下來的展望，就是讓神經網絡必須認識到所有數據來源的真實性，以及認識到每一個使用者的需求。

黃仁勳：這種技術希望能展現給人們更多的可靠性。我還有最後一個問題，你覺得第一次使用ChatGPT-4的時候，有哪些性能讓你覺得驚艷和震撼？

Sutskever：對比之前的ChatGPT版本，神經網絡只會回答問題，有時會誤解問題，回答上不夠理想。但是GPT-4基本上已不再誤解問題，能以更快的方式去解決問題，能處理複雜的艱難任務，這對我來說特別有意義。例如，很多人發現ChatGPT能寫詩，如它可以寫押頭韻的詩，也能寫押尾韻的詩。並且它能解釋笑話，理解笑話背後的意義。簡而言之，就是它的可靠性更強了。

我在這個行業從事已有二十多年了，令我感到“驚艷”的特點，就是它存在的意義，可以為人類帶來幫助。它從最初的不起眼的工作領域慢慢成長，變得越來越強。同一個神經網絡，透過兩種不同的方式來訓練，能變得越來越強大。我也經常會發出疑問和感嘆：這些神經網絡是如何成長得如此迅速的？我們是否需要更多的訓練？它是否會像人腦一樣不斷成長？這讓我感覺到它的偉大，或者說，是讓人感到特別驚訝的方面。

黃仁勳：回想過去我們認識已久，你將整個職業生涯都奉獻給了這個事業，看到你在GPT和AI方面有所建樹。今天與你交流讓我更清楚地了解了ChatGPT的工作邏輯，這是對於ChatGPT和OpenAI最深入、最具藝術性的一種解釋。很高興能再次與你交流，謝謝！