編者按:日前,由啟明創(chuàng)投主辦的2023世界人工智能大會“生成式AI與大模型:變革與創(chuàng)新”論壇在上海成功舉辦。人工智能等技術(shù)前沿領(lǐng)域的著名專家與學(xué)者,頂級投資人和領(lǐng)軍創(chuàng)業(yè)者匯聚一堂,共同探索中國科技創(chuàng)新的驅(qū)動力量。
本次論壇是大會唯一一場由創(chuàng)投機構(gòu)主辦的相關(guān)論壇,立足創(chuàng)業(yè)與投資視角,分享了最新生成式AI前沿信息和實踐探索,并發(fā)布了行業(yè)首份基于對海內(nèi)外逾百家企業(yè)深入調(diào)研撰寫的生成式AI洞察報告,全方位解讀了生成式AI的產(chǎn)業(yè)變革和未來十大展望。
在對話環(huán)節(jié),啟明創(chuàng)投合伙人葉冠泰與壁仞科技合伙人梁剛博士探討了高性能通用GPU如何支撐中國大模型訓(xùn)練與推理,呈現(xiàn)了中國芯訓(xùn)練與推理的卓越實力。
梁剛指出:“半導(dǎo)體行業(yè)沒有捷徑可言,因此壁仞科技會持續(xù)專注于產(chǎn)品研發(fā)和與用戶的合作,踏踏實實做事,最后用產(chǎn)品說話。傾聽客戶需求是重中之重,在硬件方面,壁仞科技將關(guān)注在算力、顯存、帶寬、集群互聯(lián)和安全上的需求;在軟件上,壁仞科技會與合作伙伴和客戶形成‘應(yīng)用-優(yōu)化-反饋-迭代’的循環(huán),不斷提高自己?!?/span>
葉冠泰指出:“大模型時代,訓(xùn)練千億參數(shù)、萬億參數(shù)的模型必不可少的就是算力,大模型參數(shù)規(guī)模的高速增長對GPU的能力不斷提出更高的要求。大算力的GPU要支撐各種各樣的模型,需要具備穩(wěn)定性、擴展性、延遲控制、性價比等,展現(xiàn)出典型的‘木桶理論’,而且大算力芯片的推廣,需要整個上下游的生態(tài)支持。AI的時代已經(jīng)到來,芯片公司和大模型公司緊密合作,必將迎來一個輝煌的未來。”
以下為精編整理的對話實錄。
01/
讓一款芯片落地
除算力外仍有許多需要注重的事
葉冠泰:大家好!很高興有機會與壁仞科技的梁剛博士對話。我是啟明創(chuàng)投合伙人葉冠泰。我簡單介紹一下梁剛博士的經(jīng)歷。梁剛博士是壁仞科技的合伙人,在加入壁仞科技之前,他在英特爾、Marvell、AMD都做過將近二十年的工作,從事軟件方面的管理。在壁仞科技也是負責(zé)整個軟件方面的管理和研發(fā)。在過去的二十年中,他管理過上千人的工程師團隊,也成功地推出了20多個芯片的研發(fā)和量產(chǎn)。
此外,在過去的八年他也在麥肯錫做芯片行業(yè)的資深顧問。他獲得范德堡大學(xué)(Vanderbilt University)的博士學(xué)位、西安交大的學(xué)士學(xué)位。感謝梁剛博士。
壁仞科技合伙人梁剛博士(左)與啟明創(chuàng)投合伙人葉冠泰(右)
大家知道在大模型的時代,我們講的是千億和萬億規(guī)模的參數(shù)。今天全世界絕大部分的大模型都是跑在英偉達的GPU芯片上。在中國我們也非常高興有一家國產(chǎn)的AI芯片公司壁仞科技,他們在去年推出了自己的AI芯片BR100。今天很有幸請到壁仞科技的梁博士,請您稍微介紹一下壁仞科技的BR100是怎么樣能夠在大模型的推理和訓(xùn)練中起到作用。
梁剛:大模型確實很火。我們看到大模型啟動以后非常激動。因為我們這個芯片就是為大模型而來的。從算力、訓(xùn)推一體、帶寬三方面來分析。
先說算力。壁仞科技BR100芯片的BF16算力達到512 TFLOPS,在業(yè)界是領(lǐng)先的,并支持TF32、BF16、INT8等多種數(shù)據(jù)精度,其中INT8的算力可達到1024 TOPS。此外,帶寬方面壁仞科技自主研發(fā)的BLINK能夠支持單機8卡互聯(lián),另外通過IB網(wǎng)卡實現(xiàn)多機多卡高速互聯(lián)。
葉冠泰:明白。這個聽起來的確是非常領(lǐng)先,像您剛剛提到的BF16的算力能夠達到512 TFLOPS,真的是行業(yè)領(lǐng)先的算力。因為大模型的訓(xùn)練和推理還是非常復(fù)雜的落地場景。我也想聽聽看,您的客戶要實實在在地去使用我們的芯片,要把這些案例落地的話,除了在算力領(lǐng)先之外,我們的芯片還需要在哪些方面做到非常優(yōu)秀的級別,才能讓我們進一步地幫助企業(yè)來發(fā)展這些模型?
梁剛:謝謝你的介紹,我在半導(dǎo)體行業(yè)工作多年,絕大多數(shù)的時間是做軟件的,不是做硬件設(shè)計的。要想讓一個芯片落地,光靠算力是沒有用的。我們在過去的一段時間做了以下一些工作。
首先壁仞科技SUPA的軟件生態(tài)已經(jīng)形成。模型上我們已經(jīng)開始跑通了GPT-2、Stable Diffusion、LLaMA,還有百度文心這樣的一些模型。與此同時我們也支持了DeepSpeed、Hugging Face,以及百度飛槳等框架。所以我們在這些方面已有了一定的進展。
第二個方面,大模型最大的特點之一就是數(shù)據(jù)量非常大。僅有一個GPU是做不到的,一定要有相應(yīng)的策略來做數(shù)據(jù)和模型的切分。我們在過去一段時間也做了一些TP(Tensor并行)、PP(流水線并行),以及DeepSpeed ZeRo數(shù)據(jù)并行,同時我們也做了一些recompute、offlad這樣的策略和算法。通過這些能夠支持更大量的數(shù)據(jù)。
第三個,我們要考慮到分布式。這么多的機器,其實對硬件、對系統(tǒng)來說是非常有挑戰(zhàn)性的一件事。通訊上的消耗是非常高的,所以我們必須討論一些相應(yīng)的策略來充分發(fā)揮壁仞科技BLINK的優(yōu)勢。
還有一個方面對我們客戶非常重要。其實我在英特爾的時候經(jīng)常遇到的問題就是當(dāng)多個機器同時在訓(xùn)練一個模型,突然一個機器垮了,就會中止訓(xùn)練,就算是你做得再好,還是會出現(xiàn)這樣的事情。
我們首先是對硬件做壓力測試(stress testing),就是盡量地看到各種各樣潛在的corner case(邊緣案例)。第二個,我們會與客戶進行溝通,在我們的軟件層上面具備容錯機制。盡量地解決,不會出現(xiàn)一個芯片宕了導(dǎo)致所有都宕了的情況。
最后其實是最重要的,就是客戶的性價比。對于硬件公司來說,我們首先在訓(xùn)練上要做充分的優(yōu)化,尤其是在大模型上,不僅僅是一個單卡的算力的優(yōu)化,我們還要從分布式的角度做相應(yīng)的優(yōu)化,這樣才能在訓(xùn)練上讓客戶有真正的獲益。
從推理角度講,我們的芯片是一個大算力的芯片,比起其他一些芯片是有一定優(yōu)勢的,特別是在latency(延遲)上面,我們會為客戶在這方面進行充分的優(yōu)化。
02/
大算力芯片的推廣
需要整個上下游的生態(tài)支持
葉冠泰:做大算力的GPU真的是特別困難,聽起來有各種各樣的模型的支持,有算力,有性價比,有穩(wěn)定性,有擴展性,有延遲的控制,是典型的木桶理論。
我想再問一下,因為其實大家也知道您之前是在英特爾,其實在大算力的芯片的推廣上,它需要整個上下游的生態(tài)的支持。目前您覺得在中國GPU的環(huán)境中,我們在生態(tài)上是怎樣發(fā)展的?壁仞科技在生態(tài)的支持上,目前在做哪些規(guī)劃和布局?
梁剛:非常好的問題,講個心里話,我在半導(dǎo)體行業(yè)工作這么多年,最重要的是生態(tài)。沒有生態(tài)對硬件芯片而言是沒辦法運作的。
你看英偉達的產(chǎn)品,最強大的事實上是它的CUDA生態(tài)。大模型帶來了完整的工業(yè)體系的優(yōu)化,不僅僅是一個芯片,不僅僅是某一個算力,甚至不是一個算法。所以在壁仞科技的角度上,第一步我們會看到的是什么?是打好基礎(chǔ)層。什么是基礎(chǔ)層?與我們的GPU和相應(yīng)的服務(wù)器供應(yīng)商保持合作,建立好適配。同時,大算力、大模型對網(wǎng)絡(luò)的需求非常高,所以我們會跟相應(yīng)的網(wǎng)卡、存儲適配,都會和相應(yīng)的供應(yīng)商保持合作和溝通。
軟件一層一層往上走,我們會支持模型GPT-2、Stable Diffusion、LLaMA,我們現(xiàn)在也看到了國內(nèi)做ChatGLM的大模型,我們也在進行模型跑通。我相信在未來的幾個星期我們就能跑起來。然后是架構(gòu),我們也做了DeepSpeed、Hugging Face這樣的架構(gòu)。
第二層,我們會看到的是如何跟相應(yīng)的廠商在像系統(tǒng)、應(yīng)用等等這方面進行合作。我們一定要做好相應(yīng)的應(yīng)用,這關(guān)系到我們最后要與客戶落地的事情。我們與中國移動、平安、中興等這些公司保持合作關(guān)系來創(chuàng)造最后的基礎(chǔ)層。
03/
專注合作且踏踏實實做事
用產(chǎn)品說話
葉冠泰:謝謝。剛才Alex(啟明創(chuàng)投合伙人周志峰)在進行演講時,指出我們已經(jīng)迎來了一個非常令人興奮的AI時代。在一個AI的時代,當(dāng)我們講到服務(wù)器時,我們說的已經(jīng)不是傳統(tǒng)定位的服務(wù)器了,而是所謂的AI服務(wù)器。在AI服務(wù)器里,AI芯片當(dāng)然是取得了非常重要的地位。對我們國內(nèi)高算力的芯片企業(yè)在AI芯片產(chǎn)業(yè)上的格局,我感到期待和興奮。那您覺得壁仞科技在國內(nèi)的AI芯片產(chǎn)業(yè)中處于怎樣的位置,是怎樣的角色?您覺得我們可以打開一個AI芯片產(chǎn)業(yè)的格局嗎?
梁剛:首先壁仞科技是產(chǎn)業(yè)的支持者,我們非常清楚自己只是這個產(chǎn)業(yè)里的一部分。你可以看到國內(nèi)的情況事實上跟國際還是有很大的距離,講心里話,特別是軟件生態(tài)方面,我們的距離還是相當(dāng)大的。所以我們必須要跟隨,我們看不到捷徑,特別是在半導(dǎo)體行業(yè),我在半導(dǎo)體行業(yè)工作多年,沒有什么捷徑可走,也沒有什么彎道可繞,我們必須踏踏實實地做。
從壁仞科技的角度上來講,我們非常關(guān)注自己與客戶的合作關(guān)系,這是非常重要的。因為在國內(nèi)的生態(tài)與合作伙伴保持密切的合作才能使我們的產(chǎn)品不斷地迭代、不斷地更新,才能往上走,絕對不是說你在真空中就能夠把它做好。
過去幾年壁仞科技成功地證明了自己:我們是全新的自研的架構(gòu);第一個芯片到了實驗室就點亮了;第一個芯片投產(chǎn),做半導(dǎo)體的人都知道進入生產(chǎn)真的不是一件很簡單的事情。所以我們證明了團隊的技術(shù)能力。下面我們會踏踏實實地做事,沉住心把事情做出來,最后用產(chǎn)品說話。
葉冠泰:太好了,我們用產(chǎn)品說話,這才是做工程師的一個根本。我繼續(xù)問,大模型的參數(shù)規(guī)模今天千億了,明天可能就萬億了。對GPU的需求、能力的需求也是不斷地迭代、高速變化的。您覺得壁仞科技需要如何應(yīng)對這些性能、應(yīng)用的變化?
梁剛:我在業(yè)界這么多年后最深的體會就是要傾聽客戶的需求。在硬件方面,我們考慮到單卡算力、顯存、帶寬,同時在多卡互聯(lián)也要注意。關(guān)于安全、multi-GPU、虛擬化等基本的技術(shù),我們要不斷地迭代,不斷地改進。
對于軟件,我們要做到“應(yīng)用-優(yōu)化-反饋-迭代”這樣一個正循環(huán),來幫助我們整個軟件系統(tǒng)的更新和優(yōu)化,這是我們想走的方向。
葉冠泰:您在包括AMD、英特爾等大型企業(yè)工作過,您覺得中國的GPU公司奠定一個市場的地位大概還需要多長的時間?
梁剛:首先硬件的設(shè)計,周期就是一到兩年,這個時間是擺在那里的,無法改變的。打造一個軟件生態(tài)就更具挑戰(zhàn)性了。你們都知道CUDA花了很長時間,過去我在英特爾是帶領(lǐng)英特爾軟件團隊打造像Compiler這類平臺,當(dāng)時花了非常多的時間,這個生態(tài)的形成是有一定的周期性。
我不敢說是某一個節(jié)點,但像這些大模型應(yīng)用給我們帶來了緊迫感,我相信這個周期會比過去的周期相對短一些。
葉冠泰:的確我們已經(jīng)迎接了AI時代的到來。在AI的時代,大算力AI芯片的功能是必不可少的。我們最近也經(jīng)常聽說英偉達的芯片供不應(yīng)求。我覺得在這樣的環(huán)境中,我們需要國內(nèi)的AI芯片與大模型公司緊密地合作,國內(nèi)AI芯片將有望迎來一個輝煌的未來。我也非常期待和祝福壁仞科技能夠成為這個時代中AI芯片的領(lǐng)軍者。
梁剛:謝謝。