編者按:在由啟明創(chuàng)投主辦的2023世界人工智能大會(huì)“生成式AI與大模型:變革與創(chuàng)新”論壇上,人工智能等技術(shù)前沿領(lǐng)域的著名專家與學(xué)者,頂級(jí)投資人和領(lǐng)軍創(chuàng)業(yè)者匯聚一堂,共同探索中國科技創(chuàng)新的驅(qū)動(dòng)力量。
本次論壇是大會(huì)唯一一場(chǎng)由創(chuàng)投機(jī)構(gòu)主辦的相關(guān)論壇,立足創(chuàng)業(yè)與投資視角,分享了最新生成式AI前沿信息和實(shí)踐探索,并發(fā)布了行業(yè)首份基于對(duì)海內(nèi)外逾百家企業(yè)深入調(diào)研撰寫的生成式AI洞察報(bào)告,全方位解讀了生成式AI的產(chǎn)業(yè)變革和未來十大展望。
智譜AI CEO張鵬博士在現(xiàn)場(chǎng)發(fā)表了“認(rèn)知大模型及應(yīng)用初探”的主題演講。他表示,2020年發(fā)布的GPT-3使大模型進(jìn)入“可用階段”,智譜AI也在同年全力進(jìn)行大模型的研發(fā)。
今年6月智譜AI將千億模型ChatGLM升級(jí)到二代,推出更多參數(shù)規(guī)模的模型,重新設(shè)計(jì)API產(chǎn)品矩陣,以適配更廣泛的應(yīng)用場(chǎng)景需求。當(dāng)前,智譜AI提供模型的私有化部署、API調(diào)用、模型定制等服務(wù),能夠?yàn)槌笮推髽I(yè)、中大型企業(yè)及小型企業(yè)提供全棧解決方案。此外,智譜AI還推出訓(xùn)推一體化平臺(tái),幫助用戶快速利用私有數(shù)據(jù)來使用模型,并提供全鏈路的AI應(yīng)用生產(chǎn)工具幫助用戶一站式完成專屬AI應(yīng)用的開發(fā)。
以下為精編整理的演講實(shí)錄。
非常感謝啟明創(chuàng)投的邀請(qǐng),和大家分享一下我們做的事情。
大家最近可能都聽過我們的ChatGLM的名字,今天我們也介紹一下ChatGLM背后的一些故事。
智譜AI CEO張鵬博士
01/
GPT-3使大模型進(jìn)入“可用階段”
智譜AI全力進(jìn)行大模型的研發(fā)
GPT-3這個(gè)大規(guī)模Transformer已經(jīng)成為當(dāng)前世界人工智能領(lǐng)域里的絕對(duì)熱點(diǎn)。這樣的技術(shù)是ChatGPT等等這一類生成式AI產(chǎn)品的技術(shù)的核心基座,使得我們的AI能夠跟人產(chǎn)生自然語言交互,也推動(dòng)了全新的人機(jī)交互方式,促進(jìn)了整個(gè)行業(yè)變革的開始。
當(dāng)然往前可以追溯到2017年Transformer的誕生,到2020年之前,陸續(xù)產(chǎn)生了像GPT-1、GPT-2等等一系列的大規(guī)模Transformer模型,這些模型因其具備大規(guī)模的參數(shù),擁有了很強(qiáng)的通用化能力,解決了很多之前我們無法解決的問題。一直到2020年,GPT-3的出世把生成式AI帶入了全新的時(shí)代。從學(xué)術(shù)界或者產(chǎn)業(yè)界的角度來看,2020年可以稱之為大模型元年,標(biāo)志著生成式AI,或者說大模型的研究進(jìn)入到全新的階段。
智譜AI也是在這個(gè)時(shí)間段——2019年正式成立,成立之初,我們寫下了“讓機(jī)器像人一樣思考”的愿景。我們認(rèn)為在實(shí)現(xiàn)愿景的過程當(dāng)中,大模型是一個(gè)必經(jīng)的階梯、一個(gè)非常重要的工具。到2020年,GPT-3的發(fā)布也給我們一個(gè)提醒,大模型確實(shí)是未來的方向,于是我們同年全力進(jìn)行大模型的研發(fā)。同時(shí),我們深刻地認(rèn)識(shí)到必須要有自主可控的、完全由自己研發(fā)的大模型基座。這一年,我們動(dòng)用了團(tuán)隊(duì)很多資源、人員去做大模型研究。
在早期的時(shí)候,我們主要集中在底層算法的研究上。到2021年,基于我們自研的算法框架,我們訓(xùn)練出了第一個(gè)百億級(jí)的開源大模型。到2022年8月,我們的成果就陸續(xù)地有所體現(xiàn)。從千億級(jí)的高精度開源大模型GLM-130B,到百億的代碼生成模型CodeGeeX,到支持一百多種語言的多語言Transformer模型,都是基于我們之前的學(xué)術(shù)研究以及成果所誕生的新型模型,在2022年陸續(xù)發(fā)布。
這些模型發(fā)布后我們都進(jìn)行了開源,希望更多的人關(guān)注中國自研的大模型和相應(yīng)的技術(shù)。我們也對(duì)Open AI有持續(xù)關(guān)注,對(duì)未來大模型的發(fā)展方向以及最新的技術(shù)進(jìn)行了深入的研究。
我們?cè)贑hatGPT發(fā)布之后,基于GLM-130B這個(gè)千億基座模型,在今年二月完成了ChatGLM第一個(gè)版本的研發(fā)工作,三月完成了模型和相應(yīng)產(chǎn)品的上線和發(fā)布。3月14日,是非常值得被大模型圈記住的日子,那一天我們發(fā)布了ChatGLM,Anthropic也發(fā)布了新的模型Claude,緊接著GPT-4發(fā)布了。
在之后我們持續(xù)推進(jìn)新的工作。對(duì)標(biāo)GPT-4的多模態(tài)理解能力,我們加入了視覺的能力,基于我們的ChatGLM-6B模型,打造Visual-6B的模型,實(shí)現(xiàn)了初步的多模態(tài)的理解。在6月,我們把ChatGLM模型從一代升級(jí)到二代。
02/
堅(jiān)持自研核心技術(shù)
ChatGLM系列實(shí)現(xiàn)重大升級(jí)
整個(gè)研發(fā)過程當(dāng)中,我們一直堅(jiān)持的很重要的一點(diǎn)就是完全自研核心技術(shù),尤其在算法層面。我們?cè)趫F(tuán)隊(duì)早期的時(shí)候聚焦于底層算法、模型架構(gòu)的設(shè)計(jì),在2020-2022年期間,我們?cè)诘讓拥腡ransformer模型架構(gòu)層面取得了很重要的研究成果,就是GLM模型訓(xùn)練框架。我們把它發(fā)表在國際人工智能頂級(jí)的會(huì)議ACL上。
我們將GLM的預(yù)訓(xùn)練框架稱之為自回歸填空的方法,集成了GPT和BERT這兩種預(yù)訓(xùn)練框架的優(yōu)勢(shì),既能夠?qū)崿F(xiàn)單項(xiàng)注意力的計(jì)算,做序列的生成,也可以做到雙向注意力的計(jì)算,做回歸的模型。這是我們這個(gè)預(yù)訓(xùn)練模型的優(yōu)勢(shì)。同時(shí)我們?cè)谶@個(gè)模型的基礎(chǔ)上,實(shí)現(xiàn)了百億到千億級(jí)的預(yù)訓(xùn)練模型的穩(wěn)定訓(xùn)練。
根據(jù)我們千億級(jí)模型訓(xùn)練的Loss函數(shù)的收斂曲線,相對(duì)于其他曲線來講,我們的曲線是比較平滑和穩(wěn)定的,中間還會(huì)有少量的波動(dòng)。這個(gè)收斂曲線的每一個(gè)波動(dòng)就代表著一次訓(xùn)練事故,可能是一次崩潰,可能是數(shù)據(jù)的錯(cuò)誤,每一次事故帶來的可能是成本的提高,模型精度的下降。得到一個(gè)相對(duì)平滑的預(yù)訓(xùn)練的收斂曲線,是我們所有做大模型的人都希望看到的一件事情。
在這樣的預(yù)訓(xùn)練框架的基礎(chǔ)上,我們?cè)?022年8月份開源發(fā)布的GLM-130B的模型,是可以與GPT-3——Open AI頂尖的基座模型相媲美的雙語模型。跟世界頂級(jí)的像OPT、GPT-3、Bloom等模型相比,我們?cè)诰壬喜槐人麄儾?,我們?cè)谀承┰u(píng)估指標(biāo)上,與上述這些企業(yè)不相上下,甚至超過一點(diǎn),中文上我們更是遠(yuǎn)超于他們。
同時(shí)我們?cè)谀P偷目捎眯陨弦沧隽撕芏嗟墓ぷ鳎?strong>包括使用量化壓縮、推理加速等等一系列的技術(shù),使得這個(gè)模型在真正實(shí)際應(yīng)用場(chǎng)景當(dāng)中能夠有更好的性價(jià)比。我們不希望使用8卡A100做推理,因?yàn)槌杀咎摺N覀円膊幌M却卮鸬臅r(shí)間會(huì)超過一分鐘,我們希望模型在秒級(jí)時(shí)間內(nèi)能回答我們的問題,這一目標(biāo)通過我們的可用性技術(shù)實(shí)現(xiàn)了。
當(dāng)然我們也做了一些工作,與我們國內(nèi)的硬件廠商合作,GLM-130B能實(shí)現(xiàn)對(duì)國產(chǎn)化芯片的訓(xùn)練以及推理方面的支持。目前我們也在緊密地推進(jìn)相關(guān)的工作。
GLM-130B一經(jīng)發(fā)布引來了很多的關(guān)注。到目前為止已經(jīng)有70多個(gè)國家與地區(qū),一千多家機(jī)構(gòu)在使用我們的模型,包括頂級(jí)的科技公司、研究機(jī)構(gòu)。
去年11月,斯坦福大模型中心對(duì)于全球30多個(gè)大模型的橫向評(píng)測(cè)結(jié)果顯示:GLM-130B在準(zhǔn)確性和公平性指標(biāo)上與GPT-3 175B(davinci)接近或持平,魯棒性、校準(zhǔn)誤差和無偏性優(yōu)于GPT-3 175B,這是很值得我們驕傲的事情。
基于GLM-130B這一基座模型,我們加上了代碼預(yù)訓(xùn)練、有監(jiān)督微調(diào)等等一系列的技術(shù),實(shí)現(xiàn)了千億級(jí)模型與人類意圖的對(duì)齊,使得它能夠更好地理解用戶的問題,以及更有邏輯性地回答問題,就是我們常說的類似于像ChatGPT這樣的功能,這就是我剛才介紹的今年3月上線的ChatGLM的第一個(gè)版本。這個(gè)版本上線后,我們小范圍地邀請(qǐng)了幾千個(gè)用戶對(duì)產(chǎn)品進(jìn)行了內(nèi)測(cè),反饋回來的結(jié)果還是非常不錯(cuò)的,當(dāng)然我們還在持續(xù)地迭代。
同時(shí)那天我們也開源了另外一個(gè)對(duì)話模型ChatGLM-6B。我們稱之為ChatGLM-130B的小兄弟,是因?yàn)樗膮?shù)量不大,但是它的好處是經(jīng)過量化壓縮之后,可以在一張消費(fèi)級(jí)的顯卡上運(yùn)行,這個(gè)基本上也開啟了一個(gè)開源6、7B或者13B小模型的時(shí)代,后續(xù)產(chǎn)生了很多開源模型。
雖然這個(gè)模型比較小,但是性能非常不錯(cuò),影響力非常大。到目前為止全球已經(jīng)有300多萬的下載量。潛在的用戶應(yīng)該是幾百萬,接近千萬的量級(jí)。
在科技部發(fā)布的開源模型影響力榜單上我們?nèi)〉昧朔浅2诲e(cuò)的排名,ChatGLM-6B的模型的影響力是排在第一的。排名前十的模型當(dāng)中,除了ChatGLM-6B,還包括GLM-130B、代碼模型CodeGeeX、文本到視頻生成的模型,還有我們最基礎(chǔ)的GLM的項(xiàng)目。
基于這些開源的項(xiàng)目,我們?nèi)蚝芏嚅_源社區(qū)的伙伴甚至商業(yè)化的公司、團(tuán)隊(duì),做了很多很有意思的應(yīng)用。包括開源的項(xiàng)目已經(jīng)有200多個(gè),還有很多在商用前期的探索。
剛才也提到在6月的時(shí)候,我們對(duì)整個(gè)ChatGLM的系列進(jìn)行了重大的升級(jí)。從原來的ChatGLM升級(jí)到ChatGLM2,整個(gè)的模型系列得到了很大的擴(kuò)展。原來我們只有6B和130B,差距還是挺大的,這一次加入了12B、32B、66B不同尺寸的模型。為什么要做這些?其實(shí)我們發(fā)現(xiàn)在實(shí)際的商業(yè)化落地的場(chǎng)景當(dāng)中,用戶對(duì)于模型的效果和相應(yīng)的成本是有很多不同層次的考量。他們會(huì)尋找這個(gè)平衡點(diǎn),每家企業(yè)所尋找的平衡點(diǎn)、所期望的平衡點(diǎn)是不一樣的,這就對(duì)我們模型的尺寸以及推理成本、應(yīng)用開發(fā)的成本都有不同的要求。所以我們?cè)?B和130B之間補(bǔ)充了新版本的模型,可以更好地適用于不同場(chǎng)景下的需求。
我們?nèi)碌腃hatGLM2系列在性能上得到了極大的提升。首先在標(biāo)準(zhǔn)評(píng)估指標(biāo)的測(cè)試上,二代比一代在不同的數(shù)據(jù)集上會(huì)有不同的提升。在MMLU上,我們提升了16%,這是比較大的提升,已經(jīng)逼近ChatGPT的水平。在中文的跨學(xué)科數(shù)據(jù)集上,我們的提升更是達(dá)到了驚人的36%。在GSM8K前項(xiàng)數(shù)據(jù)推理能力的數(shù)據(jù)集上,我們提升了接近三倍。不是說我們只有最大的130B的模型性能可以達(dá)到這樣的提升,6B開源模型我們也實(shí)現(xiàn)了巨大的提升,甚至提升的幅度比130B模型的更大。
同時(shí)我們模型上下文的寬度也得到了擴(kuò)展。對(duì)于模型可接受的上下文的長度在實(shí)際生產(chǎn)應(yīng)用當(dāng)中是非常重要的指標(biāo)。原來ChatGLM支持2K或者4K的水平,我們現(xiàn)在擴(kuò)展到了32K,整整16倍。這個(gè)是由于我們應(yīng)用了全新的Flash Attention的技術(shù)。
推理的速度上我們也實(shí)現(xiàn)了進(jìn)一步的提升。原來大家覺得已經(jīng)比較快了,新版本可以在第一代還在打字的時(shí)候就完成輸出。
我們?cè)诎l(fā)布所有這些模型之前都進(jìn)行了很嚴(yán)格的內(nèi)部的測(cè)試。我們自己有一套內(nèi)部評(píng)測(cè)的數(shù)據(jù)集和機(jī)制。3月的時(shí)候與Open AI相比,我們大概是其50%-60%的水平,到5月的時(shí)候有60%-70%,6月底的時(shí)候,我們?nèi)〉昧艘粋€(gè)比較大的進(jìn)步,整個(gè)提升到70%-80%的水平。我們期待在不久的將來可以追上當(dāng)前ChatGPT的水平。
03/
智譜+U大模型企業(yè)級(jí)全棧解決方案
覆蓋不同規(guī)模企業(yè)的各種需求
商業(yè)化方面,我們做了很多嘗試,我們提出的MaaS的理念,希望讓更多的人能夠享受到千億高精度大模型的便利,實(shí)現(xiàn)AI+。
我們MaaS服務(wù)的方式有很多種,有端到端訓(xùn)練的服務(wù),也可以提供模型的授權(quán),甚至可以提供云上的API的調(diào)用方式,這也是Open AI最早提供的模式。
我們推出的全新的智譜+U大模型企業(yè)級(jí)全棧解決方案,基本上涵蓋了我們現(xiàn)在能接觸到的上百家企業(yè)的各種類型的需求。針對(duì)最開放的私有模型的部署方案,我們可以在用戶的硬件環(huán)境中部署模型,結(jié)合用戶的數(shù)據(jù)和需求,去做進(jìn)一步的模型迭代。我們也可以云上提供專屬的模型方案,適合大中型企業(yè)的快速部署,又兼顧定制化的需求。我們也能夠通過強(qiáng)大而靈活的API訓(xùn)練解決開發(fā)者以及中小團(tuán)隊(duì)對(duì)于應(yīng)用開發(fā)的需求。
結(jié)合模型系列的矩陣,我們可以滿足多種場(chǎng)景的應(yīng)用開發(fā)需求,從最小的6B的開源模型進(jìn)行單機(jī)單卡的場(chǎng)景驗(yàn)證,到12B、32B、66B,甚至到最強(qiáng)大的130B模型的私有化方案。
有些企業(yè)不想自己去采購或者維護(hù)這樣龐大的算力基礎(chǔ)硬件,還是更希望在云上使用模型服務(wù),但是同時(shí)也希望用企業(yè)的自有數(shù)據(jù)與模型進(jìn)行一定的結(jié)合,稍稍做一些定制的工作。這里我們就提供了專屬的模型方案,利用IaaS技術(shù),加上我們對(duì)于私有化數(shù)據(jù)的安全環(huán)境的保證,提供模型的微調(diào)服務(wù)和定制化模型服務(wù),讓企業(yè)具備低成本、低門檻地定制化使用大模型的能力。
通過訓(xùn)推一體化的平臺(tái),可以幫助用戶快速地利用自己的私有數(shù)據(jù)來使用我們的模型,體驗(yàn)相應(yīng)的服務(wù)。
我們也向廣大的開發(fā)者和中小型的企業(yè)提供了更便捷的API產(chǎn)品矩陣,用戶可以利用我們最強(qiáng)大的ChatGLM-Pro API,最均衡的ChatGLM API,還有最快速、最輕量級(jí)的ChatGLM-Lite API,快速地打造自己的應(yīng)用,開發(fā)特定場(chǎng)景下所需要的功能,甚至是融入到自己的產(chǎn)品當(dāng)中。
我們也提供了全鏈路的AI應(yīng)用生產(chǎn)力工具,能夠幫助包括非程序員在內(nèi)的開發(fā)者使用工具鏈創(chuàng)建應(yīng)用,一站式完成專屬AI應(yīng)用的開發(fā)。
我們希望實(shí)現(xiàn)“讓機(jī)器像人一樣思考”的愿景,賦能千行百業(yè)。謝謝大家。
請(qǐng)關(guān)注啟明創(chuàng)投公眾號(hào)
在后臺(tái)輸入“生成式AI報(bào)告”
獲取完整報(bào)告下載方式