近日,生數(shù)科技完成新一輪數(shù)億元融資,由啟明創(chuàng)投領(lǐng)投。本輪融資將主要用于多模態(tài)基礎(chǔ)大模型的迭代研發(fā)、應(yīng)用產(chǎn)品創(chuàng)新及市場(chǎng)拓展。
生數(shù)科技成立于2023年3月,是全球領(lǐng)先的多模態(tài)大模型公司,致力于圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。生數(shù)科技核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院,此外還包括來自北京大學(xué)和阿里巴巴、騰訊、字節(jié)跳動(dòng)等科技公司的多位技術(shù)人才。此前公司已完成近億元融資。
01/
于國(guó)內(nèi)最早開展擴(kuò)散模型研究
提出全球首個(gè)Diffusion Transformer架構(gòu)
從Sora的驚艷亮相到最強(qiáng)文生圖模型Stable Diffusion 3的推出,兩者采用的Diffusion Transformer架構(gòu)DiT備受關(guān)注。所謂Diffusion Transformer是在Diffusion Model(擴(kuò)散模型)中,用Transformer替換常用的U-Net,將Transformer的可擴(kuò)展性與Diffusion模型處理視覺數(shù)據(jù)的天然優(yōu)勢(shì)進(jìn)行融合,能在視覺任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。
DiT架構(gòu)由伯克利團(tuán)隊(duì)于2022年12月發(fā)表。但其實(shí)早在2022年9月,生數(shù)科技創(chuàng)始成員就提出了基于Transformer的網(wǎng)絡(luò)架構(gòu)U-ViT,兩項(xiàng)工作在架構(gòu)思路與實(shí)驗(yàn)路徑上完全一致,均是將Transformer與擴(kuò)散模型融合。
當(dāng)時(shí),U-ViT就在千萬至數(shù)億參數(shù)量級(jí)范圍內(nèi)驗(yàn)證了極強(qiáng)的可擴(kuò)展性(scaling up),這項(xiàng)工作在CVPR 2023發(fā)表,早于DiT成為全球范圍內(nèi)最早被提出的Diffusion Transformer架構(gòu)。
對(duì)擴(kuò)散模型融合架構(gòu)的前瞻創(chuàng)新源自于團(tuán)隊(duì)多年的深耕。團(tuán)隊(duì)從事生成式人工智能和貝葉斯機(jī)器學(xué)習(xí)研究已有20余年,在深度生成模型突破的早期就開展了深入研究。在擴(kuò)散模型方面,團(tuán)隊(duì)于國(guó)內(nèi)率先開啟了該方向的研究,成果涉及骨干網(wǎng)絡(luò)、高速推理算法、大規(guī)模訓(xùn)練等全棧技術(shù)方向。
目前,團(tuán)隊(duì)于ICML、NeurIPS、ICLR等人工智能頂會(huì)發(fā)表相關(guān)論文近30篇,其中提出的免訓(xùn)練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR杰出論文獎(jiǎng),并被OpenAI、蘋果、Stability.ai等國(guó)外前沿機(jī)構(gòu)采用,應(yīng)用于DALL·E 2、Stable Diffusion等明星項(xiàng)目中。
02/
堅(jiān)持多模態(tài)原生架構(gòu)
全球首個(gè)完成大規(guī)模訓(xùn)練任務(wù)的驗(yàn)證
2023年3月,團(tuán)隊(duì)開源了全球首個(gè)基于Diffusion Transformer架構(gòu)(U-ViT)的多模態(tài)擴(kuò)散大模型UniDiffuser,在參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模上,與Stable Diffusion直接對(duì)齊。在架構(gòu)上,UniDiffuser比最近才采用DiT架構(gòu)的Stable Diffsion 3領(lǐng)先了一年。
此外,除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務(wù),能夠?qū)崿F(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。
圖像生成效果
在統(tǒng)一化架構(gòu)的思路下,生數(shù)科技持續(xù)進(jìn)行Scale up。在圖文模型的訓(xùn)練中,參數(shù)量從最早開源版的1B不斷擴(kuò)展至3B、7B、10B及以上,使得模型在美學(xué)性、多元風(fēng)格、語義理解等方面實(shí)現(xiàn)快速穩(wěn)定的提升。同時(shí)在此基礎(chǔ)上,通過拓展空間維度和時(shí)間維度,逐步實(shí)現(xiàn)3D生成和視頻生成模型的訓(xùn)練。
依托底層U-ViT架構(gòu)的創(chuàng)新嘗試,截至去年9月,生數(shù)科技推出了基于統(tǒng)一的多模態(tài)多任務(wù)框架的產(chǎn)業(yè)級(jí)通用基礎(chǔ)大模型(閉源版),全鏈路自主訓(xùn)練、自主研發(fā),在圖像生成、3D生成、視頻生成等多項(xiàng)任務(wù)中達(dá)到國(guó)際一流水平。
圖生3D案例(上圖為輸入圖片,下圖為對(duì)應(yīng)3D模型)
多個(gè)圖生3D模型快速拼裝搭建的3D場(chǎng)景
3D生成可實(shí)現(xiàn)高精度與最快10秒級(jí)的模型生成,并推出全球首個(gè)4D動(dòng)畫生成、可控3D場(chǎng)景編輯等工作。視頻生成已實(shí)現(xiàn)短視頻的編輯與生成能力,在畫面美觀度、連貫性方面實(shí)現(xiàn)了突破。
短視頻生成案例
此外,生數(shù)科技也積累了完整高效的工程化經(jīng)驗(yàn),擁有在大規(guī)模GPU集群上實(shí)現(xiàn)高效兼容、低成本的模型訓(xùn)練經(jīng)驗(yàn),并搭建了完整的數(shù)據(jù)管理和使用體系。從算法原理、算法架構(gòu),到工程實(shí)現(xiàn)、數(shù)據(jù)準(zhǔn)備,生數(shù)科技打造了多維度、全方位的基礎(chǔ)建設(shè),這為后續(xù)多模態(tài)大模型,尤其長(zhǎng)視頻生成的訓(xùn)練奠定了重要基礎(chǔ)。
03/
從MaaS到應(yīng)用工具
已初步完成商業(yè)化驗(yàn)證
在商業(yè)化落地方面,依托于全面領(lǐng)先的MaaS(模型即服務(wù))能力,生數(shù)科技在To B、To C端同時(shí)發(fā)力,一方面以API的形式向B端機(jī)構(gòu)直接提供模型能力,另一方面打造垂類應(yīng)用產(chǎn)品,按照訂閱等形式收費(fèi)。
目前公司已與多家游戲公司、個(gè)人終端廠商、互聯(lián)網(wǎng)平臺(tái)等B端機(jī)構(gòu)開展合作,開放模型服務(wù),提供AIGC個(gè)性化體驗(yàn)、定制化內(nèi)容生產(chǎn)等方面的能力。
同時(shí)也于去年上線兩款工具產(chǎn)品:視覺創(chuàng)意設(shè)計(jì)平臺(tái)PixWeaver、3D資產(chǎn)創(chuàng)建工具VoxCraft,面向藝術(shù)設(shè)計(jì)、游戲制作、影視動(dòng)畫、社交娛樂等創(chuàng)意領(lǐng)域提供賦能,提升創(chuàng)作效率,同時(shí)為創(chuàng)作者提供源源不斷的靈感和想象力。
對(duì)于未來的規(guī)劃,生數(shù)科技始終堅(jiān)持“原生多模態(tài)”方向,基礎(chǔ)模型層面會(huì)持續(xù)優(yōu)化,不斷提升語義理解、可控性、美觀度方面的生成效果,近期則將重點(diǎn)突破長(zhǎng)視頻生成能力。在產(chǎn)品端,現(xiàn)有產(chǎn)品將持續(xù)迭代,不斷滿足用戶需求,實(shí)現(xiàn)用戶量的持續(xù)增長(zhǎng),同時(shí)公司也正在探索工具以外的全新產(chǎn)品形態(tài),致力于提升每個(gè)人的創(chuàng)造力和生產(chǎn)力。
啟明創(chuàng)投合伙人周志峰表示,如今的大模型已經(jīng)從原來的純語言模態(tài),逐步走向多模態(tài)的探索。生數(shù)科技從去年成立之初就選擇多模態(tài)賽道,是國(guó)內(nèi)這個(gè)領(lǐng)域起步最早、積累最深的團(tuán)隊(duì),大量工作被OpenAI、Stable Diffusion團(tuán)隊(duì)引用。“生數(shù)科技推出的U-ViT架構(gòu)作為全球Diffusion Transformer架構(gòu)的首創(chuàng),不僅具有前瞻的技術(shù)視野,更是經(jīng)過了大規(guī)模訓(xùn)練的驗(yàn)證,展現(xiàn)出強(qiáng)大的技術(shù)可行性。這種兼具開拓性和成熟度的核心工作,讓我們對(duì)生數(shù)科技在多模態(tài)大模型方向的長(zhǎng)期發(fā)展充滿信心?!?/span>
“今年過年期間,Sora的亮相不僅展示出視頻生成技術(shù)的巨大潛力,而且增強(qiáng)了人們對(duì)于多模態(tài)生成未來發(fā)展的信心。隨著Scaling Law在視頻生成領(lǐng)域的進(jìn)一步加強(qiáng),我們預(yù)期多模態(tài)技術(shù)將引領(lǐng)一系列令人矚目的創(chuàng)新和令人驚嘆的成果。在這一過程中,生數(shù)科技無疑將扮演一個(gè)關(guān)鍵的推動(dòng)角色?!?/strong>
本輪融資由啟明創(chuàng)投領(lǐng)投,達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投,華興資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。