強化學習之父入局AGI創業！聯手傳奇程序員卡馬克，不依賴大模型

發布時間：2023-10-09 文章來源：本站瀏覽次數：2108

傳奇程序員卡馬克（John Carmack），與強化學習之父薩頓（Richard Sutton）強強聯手了，All in AGI。

2030年向大眾展現通用人工智能的方針是可行的。

并且與干流辦法不同，不依賴大模型范式，更追求實時的在線學習。

兩人在薩頓任教的阿爾伯塔大學機器智能研討所（Amii）特別活動上宣告了這一音訊。

薩頓會參加卡馬克的AI創業公司Keen Technologies，一起堅持在阿爾伯塔的教職。

兩人在活動中都承認，與擁有成百上千職工的大公司比較，Keen Technologies的團隊規劃很小。

現在還在剛起步階段，公司整個技術團隊都到了現場——

只要站著的這4個人。

其融資規劃2000萬美元，與OpenAI、Anthropic這樣動輒幾十億的也無法比。

但他們信任，終究AGI的源代碼是一個人就能編寫的量級，可能只要幾萬行。

并且其時AI領域正處在杠桿效應大的特別時間，小團隊也有時機做出大貢獻。

傳奇程序員與強化學習之父

卡馬克的傳奇閱歷，從開發國際第一款3D游戲，到轉型造火箭，再到參加Oculus成為后來Meta VR要害人物的故事都已被人熟知。

后來他與AI結緣，還和OpenAI有關。

他曾在另一場訪談中泄漏，Sam Altman曾邀他參加OpenAI，以為他能在體系優化方面發揮重要作用。

但卡馬克其時以為自己對機器學習范式的現代AI沒有任何了解，也就沒有答應。

這卻成了他開端了解AI的一個要害。

他向OpenAI的首席科學家Ilya Sutskever要了一個入門必讀清單，從頭開端自學，先對傳統機器學習算法有了根本的了解。

等有了閑暇，打算繼續涉足深度學習的時候，他來了個一周編程挑戰：

打印幾篇LeCun的經典論文，在斷網情況下著手實踐，從推反向傳達公式開端。

一周曩昔后，他帶著用C++手搓的卷積神經網絡完畢閉關，沒有憑借Python上的現代深度學習結構。

只能說佩服大神了。

此時他的主業仍是在Facebook（后改名Meta）旗下Oculus研討VR，帶領團隊推出了Ouclus Go和Quest等產品。

不過這個過程中，他與公司管理層之間也逐步發生矛盾和不合，以為公司內部功率低下，也曾揭露宣告不滿。

2019年，他辭去Oculus CTO職位轉而擔任“參謀CTO”，開端把更多精力轉向AI。

2022年8月，他宣告新AI創業公司Keen Technologies宣告融資2000萬美元，出資者包含紅杉本錢，GitHub前CEO Nat Friedman等。

后續他也泄漏，其實戔戔2000萬美元，自己就拿得出手。

但是從別人那里拿錢能給他一種危機和緊迫感，有更強烈的決計把事情做好。

2022年末，他正式脫離Meta，并將VR視為現已曩昔的一個人生階段，接下來徹底轉向AI。

除了這條明面上的主線之外，卡馬克與AI還有一些莫名的緣分。

當年他的3D游戲激發了對圖形核算的需求，GPU也是從游戲領域開端開展壯大。

到現在正是GPU的算力支持了AI的爆發，他談到這些時仍為自己的貢獻感到驕傲。

……

今天的另一位主角薩頓也相同是位傳奇人物。

他被譽為強化學習之父，為強化時間差異學習和戰略梯度等辦法做出重要貢獻，也是強化學習規范教科書的合著者。

2017年他以出色科學家身份參加DeepMind，參與了AlphaGo系列研討，他的學生David Silver則是AlphaGo首要負責人之一。

薩頓寫過一篇著名短文The Bitter Lesson，以為企圖把人類閱歷教給AI是行不通的，至今停止所有打破都是依靠算力提高，繼續利用算力的規劃效應才是正確路途。

兩人正式溝通之前，卡馬克就曾表達過對這篇文章的重視和認同。

但兩人真實直接溝通，是薩頓主動聯絡的。

幾個月前，卡馬克宣告AGI創業公司融資之后，收到了薩頓的郵件。

薩頓想要問他他在研討的路途上應該走純學術、商業化仍是非盈利組織路線的問題。

但在后續郵件溝通中，兩人發現在AI研討方向和理念上存在驚人的一致性，逐漸確立了合作關系。

詳細來說，兩人達成了4個一致：

都以為其時AGI開展被約束在很窄的幾個方向上，過多依賴大數據和大算力而忽視了創新
都以為太早商業化會阻礙AGI的開展
都以為終究AGI不會太雜亂，一個人就能把握全部原理，乃至一個人就能寫出首要的代碼。
都以為2030年呈現AGI原型是一個可行的方針。

不只依賴大模型，小團隊也有時機

很斗膽的方針，現場觀眾也是這么以為的。

面臨“小團隊如何搞定這么宏大的方針”的發問，卡馬克以為完成AGI所需的數據量和算力需求可能沒有想象中那么大。

把人類一整年眼中所見拍成每秒30幀的視頻，能夠裝在拇指巨細的U盤里。

而1歲兒童只擁有這么多閱歷數據，現已展現出明顯的智能。

假如算法對了，就不需要用整個互聯網的數據讓AGI去學習。

對于算力需求，他也是用這種直覺式的思維去考慮：人腦的核算才能也有限，遠遠達不到一個大型算力集群的程度。

比一個服務器節點（node）要大，也比一個機柜（rack）要大，但大也就再高出一個數量級。

并且跟著時間推移，算法會愈加高效，所需的算力還會繼續下降。

假如說卡馬克在3D游戲、火箭和VR，這些看似不搭邊的作業領域上有什么共同點，那就是對大型實時反饋體系的優化。

這也是初Sam Altman約請他參加OpenAI時看中的當地。

他設想中的AGI架構應該是模塊化和分布式的，而不是一個巨大的集中模型。

學習也應該是繼續的在線學習，而不是現在的預練習之后大部分參數就不再更新。

我的底線是，假如一個體系不能以30hz的頻率運行，也就是練習時33毫秒左右更新一次，我就不會用它。

他進一步表示，作為能自己寫原始Cuda代碼和能自己管理網絡通信的底層體系程序員，可能會去做一些其他人根本不會考慮的作業。

乃至不只局限于現有的深度學習結構，會嘗試更高效的網絡架構和核算辦法。

總體方針是模擬一個具有內涵動機和繼續學習才能的虛擬智能體，在虛擬環境中繼續學習。

不要機器人，由于制作火箭的閱歷讓他以為打交道的物理對象越少越好。

與卡馬克剛涉足AGI不久比較，薩頓在這個問題上現已花費了幾十年，他有更詳細的研討方案。

雖然這次活動上沒有說太多，但主體部分現已以“阿爾伯塔方案”的形式寫在一篇arXiv論文里。

阿爾伯塔方案提出了一個一致的智能體結構，著重普遍閱歷而不是特別的練習集，重視時間一致性，優先考慮能隨算力發生規劃效應的辦法，以及多智能體交互。

還提出了一個分為12步的路線圖。

前6步專心于規劃model-free的繼續學習辦法，后6步引入環境模型和規劃。

其間后一步稱為智能增強（Intelligence Amplification），一個智能體能夠根據一些通用準則，利用它所學到的常識來放大和增強另一個智能體的舉動、感知和認知。

薩頓以為這種增強是充分發揮人工智能潛力的重要組成部分。

在這個過程中，確認評估AI前進的指標非常重要但也十分困難，團隊正在探索不同的開展。

別的，卡馬克一直是開源的倡導者，但在AGI的問題上他表示會堅持必定開放性，但不會全部揭露算法細節。

作為一個小團隊，卡馬克以為需要堅持開拓精神，重視久遠開展而不是短期利益，

不會過早考慮商業化，沒有像ChatGPT這樣能夠揭露發布的中心形狀。

對于2030年能做到什么境地，卡馬克以為“有能夠向大眾展現的AGI”，薩頓的表述是“AI原型能夠顯示出生命跡象（signs of life）”。

2030成要害節點

2030與AGI，并不是第一次一起呈現。

頂尖AI團隊不約而同都把2030年前后作為完成AGI的要害節點。

比如OpenAI，在拿出20%總算力成立超級智能對齊部門的公告里寫著，咱們信任超級智能在這個十年段到來。

乃至出資界也呈現類似的觀念，孫正義剛剛在軟銀國際企業大會上也拿出來這樣一張PPT。

除了OpenAI和Keen Technologies，致力于開發AGI的組織并不多。

OpenAI大的競爭對手，剛剛拿40億美元融資的Anthropic，其CEO Dario Amodei在近一次訪談中說到，兩三年內AI能體現得像一個受過良好教育的人類。

Transformer作者Vaswani與Palmer脫離谷歌時，興辦了AdeptAI，方針也是打造通用智能。

不過現在兩人今年初忽然脫離這家公司，聯合開創人中只留下一位David Luan（右）。

兩位Transformer作者別的興辦了一家Essential AI，這家公司的愿景就沒那么“仰望星空”了，是比較務實的大模型商業化。

國內方面清晰喊出AGI方針的相同也不多，首要有MiniMax和楊植麟新興辦的月之暗面。

上一條：大模型需求什么樣的智算中...

下一條：內蒙古通遼市：直播間里聊...