日前,以“云啟智躍,產(chǎn)業(yè)蝶變”為主題的2024云棲大會(huì)在浙江杭州開幕。在首場以“通往AGI的大模型發(fā)展之路”為主題的圓桌對話中,啟明創(chuàng)投投資企業(yè)階躍星辰創(chuàng)始人、CEO姜大昕博士與業(yè)內(nèi)專家共同探討大模型技術(shù)的發(fā)展新范式。
姜大昕介紹了AGI發(fā)展路徑的重大技術(shù)突破,分析了OpenAI發(fā)布o(jì)1的重要意義,并預(yù)測視覺領(lǐng)域理解和生成的一體化以及強(qiáng)化學(xué)習(xí)模型泛化能力的提升是未來AI值得期待的兩大方向。姜大昕也指出,強(qiáng)化學(xué)習(xí)有望為創(chuàng)業(yè)公司開啟新機(jī)遇。
階躍星辰創(chuàng)始人、CEO姜大昕
01/
AGI加速
模擬、探索、歸納世界都迎來重大突破
今年的技術(shù)發(fā)展速度可謂“AI一日,人間一年”。階躍星辰一直把AGI的發(fā)展路徑分為模擬世界、探索世界和歸納世界。過去一年這三個(gè)階段都出現(xiàn)了重大技術(shù)突破:GPT-4o標(biāo)志著多模融合的進(jìn)步,能夠更好地模擬和建模物理世界;特斯拉發(fā)布完全自動(dòng)駕駛系統(tǒng)FSD(Full-Self Driving)V12,為機(jī)器人等智能設(shè)備如何與大模型結(jié)合,從數(shù)字世界走向探索物理世界指明了方向;而OpenAI發(fā)布的o1,則意味著大模型開始具備了歸納世界的基礎(chǔ)能力。
02/
o1開啟Scaling Law新范式
o1有兩點(diǎn)重要意義:
1. o1將模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,讓大模型首次同時(shí)具備System1(快思考)和System2(慢思考)的能力。此前GPT采用predict next token的訓(xùn)練方式,決定了它只能擁有快思考能力,即直線型思維。但當(dāng)大模型具備System2能力,就可以主動(dòng)反思、糾錯(cuò),甚至通過不斷嘗試找到正確路徑。
2. o1開啟了Scaling Law的新方向,在強(qiáng)化學(xué)習(xí)的泛化和通用性方面邁上了一個(gè)大臺(tái)階。以往DeepMind一直在走強(qiáng)化學(xué)習(xí)的路線,但多是聚焦特定場景去設(shè)計(jì),比如此前發(fā)布的AlphaGo只能下圍棋,AlphaFold只能預(yù)測蛋白質(zhì)的結(jié)構(gòu)。o1雖然只是開端,還沒有發(fā)展到很成熟的階段,但這恰恰是讓人覺得非常興奮的地方,o1似乎找到了一條上限很高的道路。
03/
強(qiáng)化學(xué)習(xí)為AI三要素帶來連鎖效應(yīng)
算法、算力和數(shù)據(jù)是AI發(fā)展的三要素。前面提到,強(qiáng)化學(xué)習(xí)引發(fā)了算法上的變化。此外它給算力帶來的影響有三種可能性:
可以確定的是,在推理側(cè),強(qiáng)化學(xué)習(xí)對計(jì)算的需求量成倍提升。目前OpenAI o1回答一個(gè)問題往往要消耗十幾秒、幾十秒時(shí)間。如果希望提升速度,那么對推理芯片的能力也提出了更高要求。
一個(gè)大概率會(huì)確定的事情,如果追求打造有泛化能力的通用推理模型,那么強(qiáng)化學(xué)習(xí)階段的訓(xùn)練計(jì)算量不會(huì)小于預(yù)訓(xùn)練階段。因?yàn)樗挠?xùn)練數(shù)據(jù)是可以self-play出來的,數(shù)據(jù)量理論上是無限的。
尚不確定的是,主模型的參數(shù)量是否還要繼續(xù)增加,以支持它在強(qiáng)化學(xué)習(xí)階段產(chǎn)生好結(jié)果。像GPT-4這樣的模型繼續(xù)Scale參數(shù)的邊際收益在減小,如果強(qiáng)化學(xué)習(xí)能產(chǎn)生放大器作用,把收益翻倍,那么整體收益還是劃算的。這一點(diǎn)要實(shí)驗(yàn)來驗(yàn)證。
對于數(shù)據(jù)來說,合成數(shù)據(jù)的規(guī)模是沒有上限的,而合成數(shù)據(jù)的質(zhì)量非常關(guān)鍵。因此造數(shù)據(jù)的方法、造數(shù)據(jù)所用的主模型能力,會(huì)成為核心競爭力。
04/
AI的下一個(gè)里程碑是什么?
階躍星辰認(rèn)為有兩個(gè)方向值得期待:其一,視覺領(lǐng)域理解和生成的一體化。目前這兩者是分開的,只有實(shí)現(xiàn)融合才能徹底建立多模態(tài)的世界模型,并讓大模型作為自動(dòng)駕駛和具身智能的大腦,從數(shù)字世界走出來,去探索物理世界。
其二,強(qiáng)化學(xué)習(xí)模型泛化能力的提升。o1的泛化能力目前主要集中在數(shù)學(xué)、代碼等理工科領(lǐng)域,而人類需要強(qiáng)推理的場景會(huì)更加多元化。大模型需要能夠像人類一樣思考和試錯(cuò)。另外,一個(gè)更加長遠(yuǎn)的里程碑是大模型能夠自動(dòng)發(fā)現(xiàn)新的物理規(guī)律,就像牛頓從蘋果落地中總結(jié)出了牛頓力學(xué)。
05/
強(qiáng)化學(xué)習(xí)將為創(chuàng)業(yè)公司開啟新機(jī)遇
強(qiáng)化學(xué)習(xí)開啟的新范式對創(chuàng)業(yè)公司是一大利好,在兩種創(chuàng)新方向上可能會(huì)迎來新機(jī)遇:其一,強(qiáng)化學(xué)習(xí)的泛化還有大量未知領(lǐng)域需要探索,因此通用、泛化能力強(qiáng)的基礎(chǔ)模型有大量底層創(chuàng)新的機(jī)會(huì);其二,應(yīng)用開發(fā)會(huì)獲得更大的創(chuàng)新空間。目前GPT-4和智能體展現(xiàn)的模型智能已經(jīng)能解決部分問題,強(qiáng)化學(xué)習(xí)則進(jìn)一步提高了模型上限,有助于推動(dòng)更多AI應(yīng)用的落地。
06/
強(qiáng)化學(xué)習(xí)、多模態(tài)和行業(yè)模型
都需要強(qiáng)大的基座模型作為基礎(chǔ)
階躍星辰會(huì)繼續(xù)打磨優(yōu)化Step-2,充分發(fā)揮萬億參數(shù)模型的潛能。Step-2在語義理解、指令跟隨、內(nèi)容創(chuàng)作方面表現(xiàn)突出,綜合能力相比Step-1千億參數(shù)模型提升近50%,在邏輯推理、數(shù)學(xué)、編程、知識(shí)等方面性能全面提升。另外,階躍星辰已經(jīng)摸索出在萬億參數(shù)模型上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的方法論。
07/
C端產(chǎn)品上限取決于模型能力
將持續(xù)提升產(chǎn)品的綜合體驗(yàn)
階躍星辰在持續(xù)努力迭代模型,探索C端產(chǎn)品的功能和形態(tài),希望能讓AI解決更多生活中的難題。近期,階躍星辰全新升級(jí)了智能助手“躍問”。目前用戶已經(jīng)可以在“躍問”官網(wǎng)或App限時(shí)體驗(yàn)Step-2萬億參數(shù)語言大模型。此外,“躍問”還推出了新功能“拍照問”,支持即拍即問,通過圖像交互搜索信息,更方便地解決問題。