以下文章來(lái)源于智能涌現(xiàn) ,作者周鑫雨
編者按:日前,啟明創(chuàng)投投資企業(yè)智譜AI正式上線首款生成式AI助手——智譜清言。該助手基于智譜AI自主研發(fā)的中英雙語(yǔ)對(duì)話模型ChatGLM2,經(jīng)過萬(wàn)億字符的文本與代碼預(yù)訓(xùn)練,并采用監(jiān)督微調(diào)技術(shù),以通用對(duì)話的形式為用戶提供智能化服務(wù)。同時(shí),智譜AI等8家企業(yè)/機(jī)構(gòu)的大模型通過了《生成式人工智能服務(wù)管理暫行辦法》備案,位列第一批名單,可正式上線面向公眾提供服務(wù)。
智譜AI首席執(zhí)行官?gòu)堸i日前接受36氪的采訪時(shí),分析了選擇GLM(通用語(yǔ)言模型)路徑的原因,他指出,GLM對(duì)人類輸入意圖,以及對(duì)一些常識(shí)或者知識(shí)類信息的理解能力,出現(xiàn)了一些意想不到的表現(xiàn)。他亦分享道,智譜AI預(yù)見到的下一代技術(shù)應(yīng)該是認(rèn)知智能。圍繞大模型的落地,他分享只有一定規(guī)模的大模型,才能夠?qū)崿F(xiàn)類人的認(rèn)知能力的涌現(xiàn);智譜AI希望擁有解決多場(chǎng)景、多任務(wù)甚至跨模態(tài)的技術(shù)。
智譜AI首席執(zhí)行官?gòu)堸i
在清華科技園賽爾大廈的大廳,能看見許多前來(lái)拜訪的投資人和FA。在科技園的2層和5層,有一家大模型公司、啟明創(chuàng)投投資企業(yè)智譜AI。
為何投資人看好智譜AI?
不少圈內(nèi)人給出的答案都是:自2019年成立,智譜AI就是“有人、有技術(shù)、有客戶”的“完成時(shí)”企業(yè)。
智譜AI每個(gè)創(chuàng)始成員單拎出來(lái),都是圈內(nèi)叫得上名字的學(xué)者。比如首席執(zhí)行官?gòu)堸i設(shè)計(jì)和研發(fā)的跨語(yǔ)言知識(shí)圖譜系統(tǒng)XLORE,在國(guó)際上頗受好評(píng)。
智譜AI首席執(zhí)行官?gòu)堸i
而智譜AI合作研發(fā)的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型GLM-130B,是2022年亞洲唯一入選斯坦福評(píng)測(cè)的全球主流大模型。這個(gè)自研的大語(yǔ)言模型,也直接讓智譜AI的名字,出現(xiàn)在百度、字節(jié)、360、有道等企業(yè)的合作名單中。
今年6月,在硅谷科技媒體The Information的盤點(diǎn)中,智譜AI被視為最有可能成為“中國(guó)OpenAI”的5家企業(yè)之一。
不過,成為“中國(guó)的OpenAI”,并非智譜AI的目標(biāo)。
“中國(guó)沒有自己的預(yù)訓(xùn)練模型框架?!睆堸i告訴36氪。市面上最主流的三種模型訓(xùn)練路徑都出自西方:GPT來(lái)自O(shè)penAI,BERT和T5都來(lái)自谷歌。若是照搬西方的主流路徑,意味著中國(guó)企業(yè)已經(jīng)失去了先發(fā)優(yōu)勢(shì),彎道超車的機(jī)會(huì)渺茫。
為此,智譜AI提出了全新的GLM(通用語(yǔ)言模型)路徑。若GPT的原理可以被比作“根據(jù)上文做完形填空”,那么GLM完形填空的依據(jù)則從上文擴(kuò)充到上下文——理論上,GLM的訓(xùn)練效率會(huì)比GPT更高,也能理解更復(fù)雜的場(chǎng)景。
時(shí)至今日,GLM的探索已經(jīng)初見成效?!霸诠韫龋亲VAI的GLM應(yīng)該是最被頭部科技企業(yè)承認(rèn)的中國(guó)大語(yǔ)言模型。”一名微軟的算法工程師告訴36氪。
為了更早推動(dòng)AGI(通用人工智能)技術(shù),智譜AI沒有選擇推出行業(yè)大模型,而是說服行業(yè)客戶在通用大模型基座上做微調(diào)。
“行業(yè)模型本質(zhì)上是用大模型的殼,重復(fù)造了一遍傳統(tǒng)算法的輪子?!睆堸i指出行業(yè)大模型的局限性,“我們認(rèn)為只有一定規(guī)模的(通用)大模型,才能實(shí)現(xiàn)類人的認(rèn)知能力涌現(xiàn)?!?/span>
以下為精編整理的采訪實(shí)錄。
01/
帶著技術(shù)、團(tuán)隊(duì)、客戶
直接入場(chǎng)
36氪:智譜AI給人的感覺是手里盤的球很多,一邊做技術(shù)研發(fā),一邊做行業(yè)落地,還能做一些企業(yè)服務(wù)。你們是怎么做到的?
張鵬:人工智能本來(lái)就是一個(gè)綜合性學(xué)科,如果研究的成果不能很快被應(yīng)用,它的價(jià)值很可能被遺忘。所以在KEG,我們會(huì)把研究和工程放在相對(duì)平等的位置上。這個(gè)風(fēng)格也延續(xù)到我們出來(lái)做公司。
另一個(gè)因素是,在大模型時(shí)代里,產(chǎn)學(xué)研用這件事被極度壓縮,表現(xiàn)為周期變短、距離變近。原來(lái)像神經(jīng)網(wǎng)絡(luò)、CV等技術(shù)從被學(xué)界研究出來(lái),到真正落地工業(yè)產(chǎn)生實(shí)際價(jià)值,中間要2-5年。但ChatGPT模型訓(xùn)練到產(chǎn)品上線,再到有一億全球用戶,可能不超過1年。
36氪:從2019年成立,智譜AI的商務(wù)合作就沒斷過,當(dāng)時(shí)你們是怎樣讓商業(yè)合作跑起來(lái)的?
張鵬:我們有一個(gè)和別人不一樣的特點(diǎn),長(zhǎng)期有一群工程師和研究員一起工作,所以從成立第一天起,智譜AI就是從一個(gè)團(tuán)隊(duì)開始的。
所以從公司的發(fā)展路徑上來(lái)說,我們是帶著技術(shù),帶著團(tuán)隊(duì),帶著客戶和市場(chǎng)直接啟動(dòng)。我們是一邊做核心的技術(shù),一邊去拓展市場(chǎng)。
36氪:你們實(shí)驗(yàn)室的技術(shù)對(duì)應(yīng)的客戶和市場(chǎng)是什么樣的?
張鵬:我們團(tuán)隊(duì)早期在學(xué)校里做知識(shí)工程相關(guān)的研究,比如說科技情報(bào)分析、數(shù)據(jù)挖掘,所以服務(wù)的客戶群體比較廣泛,國(guó)內(nèi)的科研機(jī)構(gòu)、科技型企業(yè)、互聯(lián)網(wǎng)企業(yè),甚至包括國(guó)際上的頂尖科技企業(yè)。
36氪:團(tuán)隊(duì)對(duì)轉(zhuǎn)向研究大模型的信心從何而來(lái)?
張鵬:我們一直大膽假設(shè),小心求證。
有一句話叫做“預(yù)見未來(lái)”,這和我們一開始主要的研究方向有關(guān),包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、算法這些知識(shí)工程下面的分支。這個(gè)過程中我們可以做科技趨勢(shì)的分析和對(duì)未來(lái)的預(yù)判。
36氪:智譜AI能預(yù)見的是什么?
張鵬:從宏觀角度來(lái)講,人工智能技術(shù)的發(fā)展經(jīng)歷了幾個(gè)階段,比如此前到了感知智能的階段。
我們認(rèn)為下一代的技術(shù)應(yīng)該是認(rèn)知智能。認(rèn)知智能的技術(shù)要解決的問題,和上一代的感知智能不太一樣,比如多模態(tài)需要更大的數(shù)據(jù)量、更類人智能的能力,以及多任務(wù)、多場(chǎng)景的一些通用化的能力等等。
所以公司成立的時(shí)候,我們就在研究大模型相關(guān)的底層技術(shù),包括算法。2021年我們就有了自己的成果GLM,比GPT-3稍微晚了一點(diǎn)。
02/
采用GLM路線的原因
36氪:你們有沒有橫向和國(guó)內(nèi)其他團(tuán)隊(duì)對(duì)比過技術(shù)和研究進(jìn)展?
張鵬:我還不清楚到底應(yīng)該怎么和別人比。如果要比的話,我們更愿意跟世界最頂尖水平去比,比如OpenAI。當(dāng)然在技術(shù)層面上,我們保持開放,和國(guó)內(nèi)其他團(tuán)隊(duì)的交流保持得還不錯(cuò),但我們不會(huì)特別從競(jìng)爭(zhēng)對(duì)手的角度去看待問題。
36氪:硅谷的進(jìn)展是大模型賽道很重要的一個(gè)參照,那邊有直接對(duì)智譜AI的成立產(chǎn)生重要影響的時(shí)刻嗎?
張鵬:我個(gè)人認(rèn)為有兩件事。
第一件是2020年5月GPT-3的發(fā)布,直接將預(yù)訓(xùn)練模型的參數(shù)規(guī)模推到1000億以上,模型表現(xiàn)出的智能確實(shí)超乎想象。我們?cè)诘谝粫r(shí)間就開始研究參數(shù)量的影響,后來(lái)對(duì)這事兒有了更深刻的理解后,我們對(duì)投入更多資源和精力去做大模型也更加堅(jiān)定。
第二件事就是ChatGPT的發(fā)布。其實(shí)在ChatGPT之前,InstructGPT和WebGPT等技術(shù)我們一直有,也預(yù)感到基于GPT-3這樣一個(gè)優(yōu)秀千億基座的智能應(yīng)用會(huì)迎來(lái)爆發(fā)。但ChatGPT的上線給我們一個(gè)明顯信號(hào):預(yù)訓(xùn)練模型已經(jīng)到了完全可使用且好用的階段,是產(chǎn)品化的很好范例。
36氪:這兩件事的具體影響是什么?
張鵬:GPT-3對(duì)我們的影響是堅(jiān)定了要自研一個(gè)稠密的、千億的、雙語(yǔ)的模型。因?yàn)楫?dāng)年我們研究完之后也知道,做這樣一件事情投入是非常大的,尤其是算力、人才、團(tuán)隊(duì)、數(shù)據(jù)。
2020年智譜AI才成立一年多,但OpenAI已經(jīng)做了兩年多,他們的很多資源也遠(yuǎn)超我們。所以那時(shí)即便聯(lián)合清華的研究團(tuán)隊(duì),做大模型也是一件有挑戰(zhàn)的事,團(tuán)隊(duì)經(jīng)過了激烈的討論才確定。所以GPT-3給了我們信心。
36氪:團(tuán)隊(duì)激烈討論的重心是什么?
張鵬:那個(gè)時(shí)候GLM還沒有完全定型,之前我們用的這些模型,比如MoE(專家混合模型,在Transformer架構(gòu)的基礎(chǔ)上增加了可以處理不同數(shù)據(jù)的“專家層”)等方法,雖然也能通過稀疏化的方式把模型參數(shù)推到很大,但效果并不太好。
我們內(nèi)部也在討論是繼續(xù)走稀釋模型路徑,還是做更大的稠密模型。那個(gè)時(shí)候因?yàn)镺penAI沒有公開很多技術(shù)細(xì)節(jié),大家也不知道怎么復(fù)現(xiàn),國(guó)外像Meta、BigScience,復(fù)現(xiàn)GPT都不能算特別成功。所以內(nèi)部也在討論,我們?cè)撨x用什么樣的技術(shù)路線,然后該怎么做這件事,以及目標(biāo)是什么。
36氪:智譜AI采用的是GLM,不是比較主流的GPT。團(tuán)隊(duì)是怎么考慮技術(shù)路線問題的?
張鵬:單純從技術(shù)發(fā)展上來(lái)看,其實(shí)早期預(yù)訓(xùn)練模型就有幾個(gè)類型,比如GPT、BERT還有T5,每個(gè)訓(xùn)練框架都有適合的某些任務(wù)和場(chǎng)景。
在早期,BERT的效果比GPT-1和GPT-2更好,直到參數(shù)規(guī)模更大的GPT-3出現(xiàn)。所以,我們做GLM的原因,是希望把不同預(yù)訓(xùn)練模型的優(yōu)勢(shì)組合到一起。
還有一個(gè)原因是,中國(guó)沒有自己的預(yù)訓(xùn)練模型框架。無(wú)論是GPT、BERT,還是T5,都是西方的科學(xué)家提出的底層技術(shù)。我們不希望復(fù)刻OpenAI的路徑。
36氪:采用GLM是一種冒險(xiǎn)的做法,團(tuán)隊(duì)是什么時(shí)候覺得路線可行?
張鵬:參數(shù)規(guī)模達(dá)到千億規(guī)模的時(shí)候,我們突然發(fā)現(xiàn)GLM對(duì)人類輸入意圖,以及對(duì)一些常識(shí)或者知識(shí)類信息的理解能力,出現(xiàn)了一些意想不到的表現(xiàn)。我最喜歡舉的一個(gè)例子是:
當(dāng)你問大模型一個(gè)簡(jiǎn)單的問題:一個(gè)嬰兒出生的時(shí)候,它的頭長(zhǎng)是身長(zhǎng)的1/4,如果一個(gè)嬰兒出生的時(shí)候身長(zhǎng)是50厘米,請(qǐng)問它的頭長(zhǎng)是多少?
這是一個(gè)很簡(jiǎn)單的小學(xué)的數(shù)理的數(shù)學(xué)的題目,對(duì)吧?
但GLM模型給出的答案是非常有意思的,它并沒有用簡(jiǎn)單的“50×1/4”這種方式來(lái)計(jì)算,而是用了“50÷4”來(lái)計(jì)算。背后的邏輯是,模型理解了“乘以1/4”和“除4”之間在數(shù)學(xué)上的等價(jià)關(guān)系。
我從來(lái)沒有在參數(shù)規(guī)模小一點(diǎn)的模型上看到這樣的現(xiàn)象。
03/
通用大模型
做行業(yè)生意
36氪:之前有觀點(diǎn)是大模型和應(yīng)用場(chǎng)景要同時(shí)做。你們覺得這是現(xiàn)在做大模型最好的方式嗎?
張鵬:我覺得這和認(rèn)知以及團(tuán)隊(duì)的基因有關(guān),就是你更擅長(zhǎng)干什么。
老王已經(jīng)成功過,他對(duì)很多事情有自己的篤信,他覺得一種技術(shù)最終是要落地,結(jié)合場(chǎng)景產(chǎn)生實(shí)際價(jià)值的,這樣會(huì)更快。
這個(gè)邏輯我也認(rèn)同,所以我們也會(huì)考慮怎么去做落地,比如到底To B還是To C?我們要不要做To C?如果做To C我們到底做什么樣的產(chǎn)品?這些問題最終歸結(jié)到我們更相信什么和更擅長(zhǎng)什么。
36氪:To B還是To C,你們的想法是什么?
張鵬:我們還是比較認(rèn)同OpenAI的路徑,To C有自己的好處,最主要的目的是聚集用戶,這是獲得用戶量和用戶數(shù)據(jù)反饋?zhàn)钪苯拥耐罚?strong>團(tuán)隊(duì)也基于智譜AI自主研發(fā)的中英雙語(yǔ)對(duì)話模型ChatGLM2,正式上線了首款生成式AI助手——智譜清言。To B更多的是為了市場(chǎng)和最快的收益。
36氪:在大模型落地的過程中,智譜AI最主要的認(rèn)知是什么?
張鵬:我們的認(rèn)知可以概括為:不把目標(biāo)定為“做中國(guó)的ChatGPT”。從成立起我們就認(rèn)為預(yù)訓(xùn)練模型是一項(xiàng)革命性的技術(shù),但它有自己的問題,不能包治百病,可能也不是AGI的終極方案。不復(fù)制ChatGPT,會(huì)讓我們?cè)诰唧w落地過程中和其他團(tuán)隊(duì)有一些差異。
36氪:是怎樣的差異?
張鵬:從最早開始我們就定了做通用大模型,沒有做所謂的小模型。之前也有企業(yè)說不一定需要大模型,小模型也能很好地平衡成本和效果。但我們認(rèn)為只有一定規(guī)模的大模型,才能夠?qū)崿F(xiàn)類人的認(rèn)知能力的涌現(xiàn)。
其次我們希望擁有解決多場(chǎng)景、多任務(wù)甚至跨模態(tài)的技術(shù),我們不會(huì)把模型局限在具體的任務(wù)、場(chǎng)景,甚至垂直的行業(yè)里。當(dāng)然行業(yè)大模型也沒問題,但是我們認(rèn)為它可能是階段性的、時(shí)代所需的產(chǎn)物,畢竟需要落地,在使用過程能平衡成本和收益。但最終我們還是得推動(dòng)AGI,不能停留在一個(gè)階段性目標(biāo)上。
36氪:這會(huì)如何影響智譜AI落地垂直行業(yè)的路徑?
張鵬:就算我們做行業(yè)落地,用的也是通用大模型,當(dāng)然中間需要解決的事情會(huì)比較多。
36氪:怎么說服行業(yè)客戶用通用大模型?
張鵬:我們會(huì)和客戶拉齊這樣一個(gè)認(rèn)知:所謂的行業(yè)能力或?qū)I(yè)能力,可以在通用基座上用少量數(shù)據(jù)的微調(diào)和深度學(xué)習(xí)快速獲得。
如果客戶沒法很好利用通用大模型的能力,而是仍然用專用模型解決問題,本質(zhì)上和傳統(tǒng)模式?jīng)]有區(qū)別,可能唯一的區(qū)別是行業(yè)大模型的成本比之前更高。
但如果客戶強(qiáng)調(diào)近期收益,或者場(chǎng)景很狹窄,比如只想提升智能客服的問答效果,那用所謂的專業(yè)小模型可能就夠用了。
所以我們就會(huì)把以上的觀念同步給客戶,如果他們接受通用大模型,那我們就持續(xù)合作共創(chuàng);如果他們說不,我們只需要把當(dāng)下的業(yè)務(wù)搞定,那么我們就用符合用戶成本預(yù)算的方案來(lái)解決,比如Model Instance(為企業(yè)提供模型API的商業(yè)模式)方案。
36氪:服務(wù)客戶和項(xiàng)目反過來(lái)對(duì)學(xué)術(shù)有怎樣的幫助?
張鵬:數(shù)據(jù)反饋、用戶反饋是大家比較了解的最直接的幫助。另外一個(gè)幫助是核算收支平衡點(diǎn),大模型落地的每個(gè)行業(yè)都還不太一樣,這時(shí)候就會(huì)倒逼我們?cè)诩夹g(shù)上做選擇:是要更大的模型、更高的成本、更好的效果,還是要去平衡成本,比如出一個(gè)中等規(guī)模的模型,來(lái)滿足客戶對(duì)成本的要求。
36氪:目前比較好的收支平衡點(diǎn)是?
張鵬:目前來(lái)看,不同規(guī)模的模型有不同的收支平衡點(diǎn)。
04/
在榜單上超越ChatGPT
不是真超越
36氪:智譜AI的團(tuán)隊(duì)規(guī)模感覺在大模型創(chuàng)業(yè)公司里并不小。
張鵬:因?yàn)槲覀兊膱F(tuán)隊(duì)非常齊全。從數(shù)據(jù),到訓(xùn)練集群的運(yùn)維,再到核心算法的研究,所有的層次都是自己人。
36氪:做大模型的清華系團(tuán)隊(duì)很多,你們交流多嗎?大家的路徑有差別嗎?
張鵬:其實(shí)大家的路徑都有所差別。我們比較開放,在學(xué)術(shù)技術(shù)上的交流以及產(chǎn)品上的合作都比較開放,大模型不是靠一家獨(dú)大就能做好的,還是需要開放的生態(tài)。我覺得做開源也好、免費(fèi)也好,這些事情都不是為了商業(yè)利益。
36氪:智譜AI也開源了GLM-130B,開源和商業(yè)化會(huì)有沖突嗎?
張鵬:兩件事情不是天生矛盾。開源可以提供一個(gè)比較繁榮的社區(qū)和生態(tài),社區(qū)的活力能保證產(chǎn)品的迭代和創(chuàng)新力。
商業(yè)化模型版本則會(huì)給有需求的客戶提供更好的服務(wù),比如更穩(wěn)定、安全。所以兩者各有優(yōu)勢(shì),也可以互相彌補(bǔ)。
我們很多客戶也是開源社區(qū)過來(lái)的,他們會(huì)先用開源版本做簡(jiǎn)單的學(xué)習(xí)和體驗(yàn),嘗到了新技術(shù)的便利,轉(zhuǎn)頭找我們做商業(yè)化合作。
36氪:在通往AGI的路上,哪些重要因素能讓團(tuán)隊(duì)跑得更快?
張鵬:首先要認(rèn)識(shí)到大模型不完美。用行為學(xué)的方式,去模擬或者定義人的認(rèn)知能力,這是大模型給我們帶來(lái)的一個(gè)解決方案。
但就像張?院士說的那樣,大模型構(gòu)造的是人腦的system 1,還要引入另一套機(jī)制去實(shí)現(xiàn)system 2,去補(bǔ)完大腦的功能。所以從研究角度還要去做一些努力,并且用大模型的優(yōu)點(diǎn)彌補(bǔ)缺點(diǎn)。
其次是定義好目標(biāo)。比如現(xiàn)在大家經(jīng)常會(huì)聽到“超越ChatGPT”的口號(hào),但是把它拆解開來(lái)定義清晰不容易,比如超過ChatGPT是追趕它哪方面的能力?是在某一個(gè)榜單上超過它嗎?上榜就意味著超越嗎?
我覺得認(rèn)知到事情的本質(zhì),就能夠避免做無(wú)所謂的消耗。
來(lái)源 | 36氪
作者 | 楊軒 周鑫雨
編輯 | 蘇建勛