曝OpenAI大模型新進展！將推出多模態大模型，新項目Gobi籌備中

發布時間：2023-09-20 文章來源：本站瀏覽次數：1962

9月19日音訊，據The Information報導，OpenAI意圖趕在谷歌推出多模態大言語模型Gemini前，發布其多模態大言語模型GPT-Vision。然后，OpenAI或許會推出一個更強大的多模態大模型，代號為Gobi。

本年3月OpenAI發布的GPT-4現已融入了部分多模態功用，相較于GPT-3.5只能接受文本輸入，GPT-4還能夠接受圖畫輸入，但該視覺輸入功用并不敞開運用。而Gobi與GPT-4不同，Gobi從一開端就是按多模態模型構建的，能夠接受更多類型的信息輸入并做出相應的處理。

OpenAI與谷歌將多模態功用納入大言語模型，能夠將圖畫、文字、音頻等不同形式的數據整合起來，讓大言語模型更準確、更全面地處理用戶所給信息，為用戶供給便利。據The Information報導，OpenAI與谷歌的多模態大言語模型之爭，就像AI范疇的蘋果與安卓之爭。這或許預示著AI大模型范疇未來的開展趨勢，一起也是OpenAI與谷歌搶占這項新技能的首發先機，提高用戶影響力和技能引領地位的重要比賽。

一、Gobi VS Gemini，OpenAI與谷歌多模態大言語模型賽跑

此前有報導稱，谷歌即將推出Gemini，而且現已向一小批外部公司共享了這個項目。但據知情人士泄漏，OpenAI正在爭分奪秒地把公司先進的GPT-4與多模態功用相結合，想要搶在谷歌之前發布Gobi。而且，OpenAI在本年3月發布GPT-4時，就對GPT-4中融入的多模態功用進行了預展現。不過，依據The Information報導，OpenAI還沒有開端訓練Gobi，因此現在還不知道Gobi終究能否成為GPT-5。

關于OpenAI能否在多模態大言語模型方面超越谷歌，據The Information報導，目前，谷歌具有來自谷歌搜索引擎和YouTube等平臺的文本、圖畫、音頻、視頻等專有數據，這是谷歌相較于OpenAI開展多模態大言語模型的一項特別優勢。而且一位運用過Gemini前期版本的人士說，與現有的各種大言語模型相比，Gemini產生的過錯答案似乎更少。

二、多模態功用肩負重任，被亂用的信息安全問題值得注重

在3月發布GPT-4預覽多模態功用時，除了為盲人或低視力者開發技能的Be My Eyes公司，OpenAI沒有給其它公司供給多模態功用。到現在，OpenAI才預備在更大范圍內推出被稱為GPT-Vision的功用。據The Information報導，OpenAI或許會在GPT-Vision之后再推出Gobi。

依據The Information報導，OpenAI之所以消耗很多時刻來推出Gobi，主要是憂慮新的視覺功用會被壞人利用，例如經過自動解決驗證碼來冒充人類，或許經過人臉辨認追尋人們。但現在，OpenAI的工程師們似乎想到辦法來緩解這個安全問題了。

谷歌的Gemini也面臨相同的問題，當谷歌被問到采取了哪些辦法防止Gemini被亂用時，谷歌的一位講話人稱，谷歌在7月份做出過一系列承諾，以確保對其所有產品進行負責任的AI開發。

結語：多模態大模型之爭或成下個AIGC焦點

多模態功用正被不斷融入大言語模型，以提巨大言語模型剖析的精準度。如今，因ChatGPT名聲大噪的OpenAI與AI老牌公司谷歌都致力于開發多模態大言語模型，可見其或許將成為AI大模型開展的未來趨勢。

據The Information報導，這場OpenAI與谷歌的比賽類似于AI版的蘋果與安卓之爭，而未來Gobi與Gemini的到來，將提醒OpenAI和谷歌的比賽成果。

多模態大模型作為當時AI大模型范疇的新進展，OpenAI與谷歌之間的多模態大模型之爭不僅是科技競爭的焦點，也或許引發全球范圍內關于技能應用、協作、監管和道德等方面的重要評論。

上一條：波蘭一公司延聘人工智能機...

下一條：Trickle：使用GP...