近日,生數(shù)科技完成新一輪數(shù)億元融資,由啟明創(chuàng)投領(lǐng)投。本輪融資將主要用于多模態(tài)基礎(chǔ)大模型的迭代研發(fā)、應(yīng)用產(chǎn)品創(chuàng)新及市場拓展。
生數(shù)科技成立于2023年3月,是全球領(lǐng)先的多模態(tài)大模型公司,致力于圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。生數(shù)科技核心團(tuán)隊來自清華大學(xué)人工智能研究院,此外還包括來自北京大學(xué)和阿里巴巴、騰訊、字節(jié)跳動等科技公司的多位技術(shù)人才。此前公司已完成近億元融資。
01/
于國內(nèi)最早開展擴(kuò)散模型研究
提出全球首個Diffusion Transformer架構(gòu)
從Sora的驚艷亮相到最強(qiáng)文生圖模型Stable Diffusion 3的推出,兩者采用的Diffusion Transformer架構(gòu)DiT備受關(guān)注。所謂Diffusion Transformer是在Diffusion Model(擴(kuò)散模型)中,用Transformer替換常用的U-Net,將Transformer的可擴(kuò)展性與Diffusion模型處理視覺數(shù)據(jù)的天然優(yōu)勢進(jìn)行融合,能在視覺任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。
DiT架構(gòu)由伯克利團(tuán)隊于2022年12月發(fā)表。但其實早在2022年9月,生數(shù)科技創(chuàng)始成員就提出了基于Transformer的網(wǎng)絡(luò)架構(gòu)U-ViT,兩項工作在架構(gòu)思路與實驗路徑上完全一致,均是將Transformer與擴(kuò)散模型融合。
當(dāng)時,U-ViT就在千萬至數(shù)億參數(shù)量級范圍內(nèi)驗證了極強(qiáng)的可擴(kuò)展性(scaling up),這項工作在CVPR 2023發(fā)表,早于DiT成為全球范圍內(nèi)最早被提出的Diffusion Transformer架構(gòu)。
對擴(kuò)散模型融合架構(gòu)的前瞻創(chuàng)新源自于團(tuán)隊多年的深耕。團(tuán)隊從事生成式人工智能和貝葉斯機(jī)器學(xué)習(xí)研究已有20余年,在深度生成模型突破的早期就開展了深入研究。在擴(kuò)散模型方面,團(tuán)隊于國內(nèi)率先開啟了該方向的研究,成果涉及骨干網(wǎng)絡(luò)、高速推理算法、大規(guī)模訓(xùn)練等全棧技術(shù)方向。
目前,團(tuán)隊于ICML、NeurIPS、ICLR等人工智能頂會發(fā)表相關(guān)論文近30篇,其中提出的免訓(xùn)練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR杰出論文獎,并被OpenAI、蘋果、Stability.ai等國外前沿機(jī)構(gòu)采用,應(yīng)用于DALL·E 2、Stable Diffusion等明星項目中。
02/
堅持多模態(tài)原生架構(gòu)
全球首個完成大規(guī)模訓(xùn)練任務(wù)的驗證
2023年3月,團(tuán)隊開源了全球首個基于Diffusion Transformer架構(gòu)(U-ViT)的多模態(tài)擴(kuò)散大模型UniDiffuser,在參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模上,與Stable Diffusion直接對齊。在架構(gòu)上,UniDiffuser比最近才采用DiT架構(gòu)的Stable Diffsion 3領(lǐng)先了一年。
此外,除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務(wù),能夠?qū)崿F(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。
圖像生成效果
在統(tǒng)一化架構(gòu)的思路下,生數(shù)科技持續(xù)進(jìn)行Scale up。在圖文模型的訓(xùn)練中,參數(shù)量從最早開源版的1B不斷擴(kuò)展至3B、7B、10B及以上,使得模型在美學(xué)性、多元風(fēng)格、語義理解等方面實現(xiàn)快速穩(wěn)定的提升。同時在此基礎(chǔ)上,通過拓展空間維度和時間維度,逐步實現(xiàn)3D生成和視頻生成模型的訓(xùn)練。
依托底層U-ViT架構(gòu)的創(chuàng)新嘗試,截至去年9月,生數(shù)科技推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級通用基礎(chǔ)大模型(閉源版),全鏈路自主訓(xùn)練、自主研發(fā),在圖像生成、3D生成、視頻生成等多項任務(wù)中達(dá)到國際一流水平。
圖生3D案例(上圖為輸入圖片,下圖為對應(yīng)3D模型)
多個圖生3D模型快速拼裝搭建的3D場景
3D生成可實現(xiàn)高精度與最快10秒級的模型生成,并推出全球首個4D動畫生成、可控3D場景編輯等工作。視頻生成已實現(xiàn)短視頻的編輯與生成能力,在畫面美觀度、連貫性方面實現(xiàn)了突破。
短視頻生成案例
此外,生數(shù)科技也積累了完整高效的工程化經(jīng)驗,擁有在大規(guī)模GPU集群上實現(xiàn)高效兼容、低成本的模型訓(xùn)練經(jīng)驗,并搭建了完整的數(shù)據(jù)管理和使用體系。從算法原理、算法架構(gòu),到工程實現(xiàn)、數(shù)據(jù)準(zhǔn)備,生數(shù)科技打造了多維度、全方位的基礎(chǔ)建設(shè),這為后續(xù)多模態(tài)大模型,尤其長視頻生成的訓(xùn)練奠定了重要基礎(chǔ)。
03/
從MaaS到應(yīng)用工具
已初步完成商業(yè)化驗證
在商業(yè)化落地方面,依托于全面領(lǐng)先的MaaS(模型即服務(wù))能力,生數(shù)科技在To B、To C端同時發(fā)力,一方面以API的形式向B端機(jī)構(gòu)直接提供模型能力,另一方面打造垂類應(yīng)用產(chǎn)品,按照訂閱等形式收費(fèi)。
目前公司已與多家游戲公司、個人終端廠商、互聯(lián)網(wǎng)平臺等B端機(jī)構(gòu)開展合作,開放模型服務(wù),提供AIGC個性化體驗、定制化內(nèi)容生產(chǎn)等方面的能力。
同時也于去年上線兩款工具產(chǎn)品:視覺創(chuàng)意設(shè)計平臺PixWeaver、3D資產(chǎn)創(chuàng)建工具VoxCraft,面向藝術(shù)設(shè)計、游戲制作、影視動畫、社交娛樂等創(chuàng)意領(lǐng)域提供賦能,提升創(chuàng)作效率,同時為創(chuàng)作者提供源源不斷的靈感和想象力。
對于未來的規(guī)劃,生數(shù)科技始終堅持“原生多模態(tài)”方向,基礎(chǔ)模型層面會持續(xù)優(yōu)化,不斷提升語義理解、可控性、美觀度方面的生成效果,近期則將重點(diǎn)突破長視頻生成能力。在產(chǎn)品端,現(xiàn)有產(chǎn)品將持續(xù)迭代,不斷滿足用戶需求,實現(xiàn)用戶量的持續(xù)增長,同時公司也正在探索工具以外的全新產(chǎn)品形態(tài),致力于提升每個人的創(chuàng)造力和生產(chǎn)力。
啟明創(chuàng)投合伙人周志峰表示,如今的大模型已經(jīng)從原來的純語言模態(tài),逐步走向多模態(tài)的探索。生數(shù)科技從去年成立之初就選擇多模態(tài)賽道,是國內(nèi)這個領(lǐng)域起步最早、積累最深的團(tuán)隊,大量工作被OpenAI、Stable Diffusion團(tuán)隊引用。“生數(shù)科技推出的U-ViT架構(gòu)作為全球Diffusion Transformer架構(gòu)的首創(chuàng),不僅具有前瞻的技術(shù)視野,更是經(jīng)過了大規(guī)模訓(xùn)練的驗證,展現(xiàn)出強(qiáng)大的技術(shù)可行性。這種兼具開拓性和成熟度的核心工作,讓我們對生數(shù)科技在多模態(tài)大模型方向的長期發(fā)展充滿信心。”
“今年過年期間,Sora的亮相不僅展示出視頻生成技術(shù)的巨大潛力,而且增強(qiáng)了人們對于多模態(tài)生成未來發(fā)展的信心。隨著Scaling Law在視頻生成領(lǐng)域的進(jìn)一步加強(qiáng),我們預(yù)期多模態(tài)技術(shù)將引領(lǐng)一系列令人矚目的創(chuàng)新和令人驚嘆的成果。在這一過程中,生數(shù)科技無疑將扮演一個關(guān)鍵的推動角色。”
本輪融資由啟明創(chuàng)投領(lǐng)投,達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投,華興資本擔(dān)任獨(dú)家財務(wù)顧問。