日前,以“云啟智躍,產(chǎn)業(yè)蝶變”為主題的2024云棲大會在浙江杭州開幕。在首場以“通往AGI的大模型發(fā)展之路”為主題的圓桌對話中,啟明創(chuàng)投投資企業(yè)階躍星辰創(chuàng)始人、CEO姜大昕博士與業(yè)內(nèi)專家共同探討大模型技術的發(fā)展新范式。
姜大昕介紹了AGI發(fā)展路徑的重大技術突破,分析了OpenAI發(fā)布o1的重要意義,并預測視覺領域理解和生成的一體化以及強化學習模型泛化能力的提升是未來AI值得期待的兩大方向。姜大昕也指出,強化學習有望為創(chuàng)業(yè)公司開啟新機遇。
階躍星辰創(chuàng)始人、CEO姜大昕
01/
AGI加速
模擬、探索、歸納世界都迎來重大突破
今年的技術發(fā)展速度可謂“AI一日,人間一年”。階躍星辰一直把AGI的發(fā)展路徑分為模擬世界、探索世界和歸納世界。過去一年這三個階段都出現(xiàn)了重大技術突破:GPT-4o標志著多模融合的進步,能夠更好地模擬和建模物理世界;特斯拉發(fā)布完全自動駕駛系統(tǒng)FSD(Full-Self Driving)V12,為機器人等智能設備如何與大模型結合,從數(shù)字世界走向探索物理世界指明了方向;而OpenAI發(fā)布的o1,則意味著大模型開始具備了歸納世界的基礎能力。
02/
o1開啟Scaling Law新范式
o1有兩點重要意義:
1. o1將模仿學習和強化學習相結合,讓大模型首次同時具備System1(快思考)和System2(慢思考)的能力。此前GPT采用predict next token的訓練方式,決定了它只能擁有快思考能力,即直線型思維。但當大模型具備System2能力,就可以主動反思、糾錯,甚至通過不斷嘗試找到正確路徑。
2. o1開啟了Scaling Law的新方向,在強化學習的泛化和通用性方面邁上了一個大臺階。以往DeepMind一直在走強化學習的路線,但多是聚焦特定場景去設計,比如此前發(fā)布的AlphaGo只能下圍棋,AlphaFold只能預測蛋白質的結構。o1雖然只是開端,還沒有發(fā)展到很成熟的階段,但這恰恰是讓人覺得非常興奮的地方,o1似乎找到了一條上限很高的道路。
03/
強化學習為AI三要素帶來連鎖效應
算法、算力和數(shù)據(jù)是AI發(fā)展的三要素。前面提到,強化學習引發(fā)了算法上的變化。此外它給算力帶來的影響有三種可能性:
可以確定的是,在推理側,強化學習對計算的需求量成倍提升。目前OpenAI o1回答一個問題往往要消耗十幾秒、幾十秒時間。如果希望提升速度,那么對推理芯片的能力也提出了更高要求。
一個大概率會確定的事情,如果追求打造有泛化能力的通用推理模型,那么強化學習階段的訓練計算量不會小于預訓練階段。因為它的訓練數(shù)據(jù)是可以self-play出來的,數(shù)據(jù)量理論上是無限的。
尚不確定的是,主模型的參數(shù)量是否還要繼續(xù)增加,以支持它在強化學習階段產(chǎn)生好結果。像GPT-4這樣的模型繼續(xù)Scale參數(shù)的邊際收益在減小,如果強化學習能產(chǎn)生放大器作用,把收益翻倍,那么整體收益還是劃算的。這一點要實驗來驗證。
對于數(shù)據(jù)來說,合成數(shù)據(jù)的規(guī)模是沒有上限的,而合成數(shù)據(jù)的質量非常關鍵。因此造數(shù)據(jù)的方法、造數(shù)據(jù)所用的主模型能力,會成為核心競爭力。
04/
AI的下一個里程碑是什么?
階躍星辰認為有兩個方向值得期待:其一,視覺領域理解和生成的一體化。目前這兩者是分開的,只有實現(xiàn)融合才能徹底建立多模態(tài)的世界模型,并讓大模型作為自動駕駛和具身智能的大腦,從數(shù)字世界走出來,去探索物理世界。
其二,強化學習模型泛化能力的提升。o1的泛化能力目前主要集中在數(shù)學、代碼等理工科領域,而人類需要強推理的場景會更加多元化。大模型需要能夠像人類一樣思考和試錯。另外,一個更加長遠的里程碑是大模型能夠自動發(fā)現(xiàn)新的物理規(guī)律,就像牛頓從蘋果落地中總結出了牛頓力學。
05/
強化學習將為創(chuàng)業(yè)公司開啟新機遇
強化學習開啟的新范式對創(chuàng)業(yè)公司是一大利好,在兩種創(chuàng)新方向上可能會迎來新機遇:其一,強化學習的泛化還有大量未知領域需要探索,因此通用、泛化能力強的基礎模型有大量底層創(chuàng)新的機會;其二,應用開發(fā)會獲得更大的創(chuàng)新空間。目前GPT-4和智能體展現(xiàn)的模型智能已經(jīng)能解決部分問題,強化學習則進一步提高了模型上限,有助于推動更多AI應用的落地。
06/
強化學習、多模態(tài)和行業(yè)模型
都需要強大的基座模型作為基礎
階躍星辰會繼續(xù)打磨優(yōu)化Step-2,充分發(fā)揮萬億參數(shù)模型的潛能。Step-2在語義理解、指令跟隨、內(nèi)容創(chuàng)作方面表現(xiàn)突出,綜合能力相比Step-1千億參數(shù)模型提升近50%,在邏輯推理、數(shù)學、編程、知識等方面性能全面提升。另外,階躍星辰已經(jīng)摸索出在萬億參數(shù)模型上進行強化學習訓練的方法論。
07/
C端產(chǎn)品上限取決于模型能力
將持續(xù)提升產(chǎn)品的綜合體驗
階躍星辰在持續(xù)努力迭代模型,探索C端產(chǎn)品的功能和形態(tài),希望能讓AI解決更多生活中的難題。近期,階躍星辰全新升級了智能助手“躍問”。目前用戶已經(jīng)可以在“躍問”官網(wǎng)或App限時體驗Step-2萬億參數(shù)語言大模型。此外,“躍問”還推出了新功能“拍照問”,支持即拍即問,通過圖像交互搜索信息,更方便地解決問題。