強化學習之父入局AGI創業!聯手傳奇程序員卡馬克,不依賴大模型 |
發布時間:2023-10-09 文章來源:本站 瀏覽次數:2122 |
傳奇程序員卡馬克 (John Carmack),與強化學習之父薩頓 (Richard Sutton)強強聯手了,All in AGI。 2030年向大眾展現通用人工智能的方針是可行的。 并且與干流辦法不同,不依賴大模型范式,更追求實時的在線學習。 兩人在薩頓任教的阿爾伯塔大學機器智能研討所(Amii)特別活動上宣告了這一音訊。 薩頓會參加卡馬克的AI創業公司Keen Technologies,一起堅持在阿爾伯塔的教職。 兩人在活動中都承認,與擁有成百上千職工的大公司比較,Keen Technologies的團隊規劃很小。 現在還在剛起步階段,公司整個技術團隊都到了現場—— 只要站著的這4個人。 其融資規劃2000萬美元,與OpenAI、Anthropic這樣動輒幾十億的也無法比。 但他們信任,終究AGI的源代碼是一個人就能編寫的量級,可能只要幾萬行。 并且其時AI領域正處在杠桿效應大的特別時間,小團隊也有時機做出大貢獻。 傳奇程序員與強化學習之父卡馬克的傳奇閱歷,從開發國際第一款3D游戲,到轉型造火箭,再到參加Oculus成為后來Meta VR要害人物的故事都已被人熟知。 后來他與AI結緣,還和OpenAI有關。 他曾在另一場訪談中泄漏,Sam Altman曾邀他參加OpenAI,以為他能在體系優化方面發揮重要作用。 但卡馬克其時以為自己對機器學習范式的現代AI沒有任何了解,也就沒有答應。 這卻成了他開端了解AI的一個要害。 他向OpenAI的首席科學家Ilya Sutskever要了一個入門必讀清單,從頭開端自學,先對傳統機器學習算法有了根本的了解。 等有了閑暇,打算繼續涉足深度學習的時候,他來了個一周編程挑戰: 打印幾篇LeCun的經典論文,在斷網情況下著手實踐,從推反向傳達公式開端。 一周曩昔后,他帶著用C++手搓的卷積神經網絡完畢閉關,沒有憑借Python上的現代深度學習結構。 只能說佩服大神了。 此時他的主業仍是在Facebook(后改名Meta)旗下Oculus研討VR,帶領團隊推出了Ouclus Go和Quest等產品。 不過這個過程中,他與公司管理層之間也逐步發生矛盾和不合,以為公司內部功率低下,也曾揭露宣告不滿。 2019年,他辭去Oculus CTO職位轉而擔任“參謀CTO”,開端把更多精力轉向AI。 2022年8月,他宣告新AI創業公司Keen Technologies宣告融資2000萬美元,出資者包含紅杉本錢,GitHub前CEO Nat Friedman等。 后續他也泄漏,其實戔戔2000萬美元,自己就拿得出手。 但是從別人那里拿錢能給他一種危機和緊迫感,有更強烈的決計把事情做好。 2022年末,他正式脫離Meta,并將VR視為現已曩昔的一個人生階段,接下來徹底轉向AI。 除了這條明面上的主線之外,卡馬克與AI還有一些莫名的緣分。 當年他的3D游戲激發了對圖形核算的需求,GPU也是從游戲領域開端開展壯大。 到現在正是GPU的算力支持了AI的爆發,他談到這些時仍為自己的貢獻感到驕傲。 …… 今天的另一位主角薩頓也相同是位傳奇人物。 他被譽為強化學習之父,為強化時間差異學習和戰略梯度等辦法做出重要貢獻,也是強化學習規范教科書的合著者。 2017年他以出色科學家身份參加DeepMind,參與了AlphaGo系列研討,他的學生David Silver則是AlphaGo首要負責人之一。 薩頓寫過一篇著名短文The Bitter Lesson,以為企圖把人類閱歷教給AI是行不通的,至今停止所有打破都是依靠算力提高,繼續利用算力的規劃效應才是正確路途。 兩人正式溝通之前,卡馬克就曾表達過對這篇文章的重視和認同。 但兩人真實直接溝通,是薩頓主動聯絡的。 幾個月前,卡馬克宣告AGI創業公司融資之后,收到了薩頓的郵件。 薩頓想要問他他在研討的路途上應該走純學術、商業化仍是非盈利組織路線的問題。 但在后續郵件溝通中,兩人發現在AI研討方向和理念上存在驚人的一致性,逐漸確立了合作關系。 詳細來說,兩人達成了4個一致:
不只依賴大模型,小團隊也有時機很斗膽的方針,現場觀眾也是這么以為的。 面臨“小團隊如何搞定這么宏大的方針”的發問,卡馬克以為完成AGI所需的數據量和算力需求可能沒有想象中那么大。 把人類一整年眼中所見拍成每秒30幀的視頻,能夠裝在拇指巨細的U盤里。 而1歲兒童只擁有這么多閱歷數據,現已展現出明顯的智能。 假如算法對了,就不需要用整個互聯網的數據讓AGI去學習。 對于算力需求,他也是用這種直覺式的思維去考慮:人腦的核算才能也有限,遠遠達不到一個大型算力集群的程度。 比一個服務器節點(node)要大,也比一個機柜(rack)要大,但大也就再高出一個數量級。 并且跟著時間推移,算法會愈加高效,所需的算力還會繼續下降。 假如說卡馬克在3D游戲、火箭和VR,這些看似不搭邊的作業領域上有什么共同點,那就是對大型實時反饋體系的優化。 這也是初Sam Altman約請他參加OpenAI時看中的當地。 他設想中的AGI架構應該是模塊化和分布式的,而不是一個巨大的集中模型。 學習也應該是繼續的在線學習,而不是現在的預練習之后大部分參數就不再更新。 我的底線是,假如一個體系不能以30hz的頻率運行,也就是練習時33毫秒左右更新一次,我就不會用它。 他進一步表示,作為能自己寫原始Cuda代碼和能自己管理網絡通信的底層體系程序員,可能會去做一些其他人根本不會考慮的作業。 乃至不只局限于現有的深度學習結構,會嘗試更高效的網絡架構和核算辦法。 總體方針是模擬一個具有內涵動機和繼續學習才能的虛擬智能體,在虛擬環境中繼續學習。 不要機器人,由于制作火箭的閱歷讓他以為打交道的物理對象越少越好。 與卡馬克剛涉足AGI不久比較,薩頓在這個問題上現已花費了幾十年,他有更詳細的研討方案。 雖然這次活動上沒有說太多,但主體部分現已以“阿爾伯塔方案”的形式寫在一篇arXiv論文里。 阿爾伯塔方案提出了一個一致的智能體結構,著重普遍閱歷而不是特別的練習集,重視時間一致性,優先考慮能隨算力發生規劃效應的辦法,以及多智能體交互。 還提出了一個分為12步的路線圖。 前6步專心于規劃model-free的繼續學習辦法,后6步引入環境模型和規劃。 其間后一步稱為智能增強 (Intelligence Amplification),一個智能體能夠根據一些通用準則,利用它所學到的常識來放大和增強另一個智能體的舉動、感知和認知。 薩頓以為這種增強是充分發揮人工智能潛力的重要組成部分。 在這個過程中,確認評估AI前進的指標非常重要但也十分困難,團隊正在探索不同的開展。 別的,卡馬克一直是開源的倡導者,但在AGI的問題上他表示會堅持必定開放性,但不會全部揭露算法細節。 作為一個小團隊,卡馬克以為需要堅持開拓精神,重視久遠開展而不是短期利益, 不會過早考慮商業化,沒有像ChatGPT這樣能夠揭露發布的中心形狀。 對于2030年能做到什么境地,卡馬克以為“有能夠向大眾展現的AGI”,薩頓的表述是“AI原型能夠顯示出生命跡象(signs of life)”。 2030成要害節點2030與AGI,并不是第一次一起呈現。 頂尖AI團隊不約而同都把2030年前后作為完成AGI的要害節點。 比如OpenAI,在拿出20%總算力成立超級智能對齊部門的公告里寫著,咱們信任超級智能在這個十年段到來。 乃至出資界也呈現類似的觀念,孫正義剛剛在軟銀國際企業大會上也拿出來這樣一張PPT。 除了OpenAI和Keen Technologies,致力于開發AGI的組織并不多。 OpenAI大的競爭對手,剛剛拿40億美元融資的Anthropic,其CEO Dario Amodei在近一次訪談中說到,兩三年內AI能體現得像一個受過良好教育的人類。 Transformer作者Vaswani與Palmer脫離谷歌時,興辦了AdeptAI,方針也是打造通用智能。 不過現在兩人今年初忽然脫離這家公司,聯合開創人中只留下一位David Luan(右)。 兩位Transformer作者別的興辦了一家Essential AI,這家公司的愿景就沒那么“仰望星空”了,是比較務實的大模型商業化。 國內方面清晰喊出AGI方針的相同也不多,首要有MiniMax和楊植麟新興辦的月之暗面。 |