近日,生數(shù)科技完成新一輪數(shù)億元融資,由啟明創(chuàng)投領投。本輪融資將主要用于多模態(tài)基礎大模型的迭代研發(fā)、應用產品創(chuàng)新及市場拓展。
生數(shù)科技成立于2023年3月,是全球領先的多模態(tài)大模型公司,致力于圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。生數(shù)科技核心團隊來自清華大學人工智能研究院,此外還包括來自北京大學和阿里巴巴、騰訊、字節(jié)跳動等科技公司的多位技術人才。此前公司已完成近億元融資。
01/
于國內最早開展擴散模型研究
提出全球首個Diffusion Transformer架構
從Sora的驚艷亮相到最強文生圖模型Stable Diffusion 3的推出,兩者采用的Diffusion Transformer架構DiT備受關注。所謂Diffusion Transformer是在Diffusion Model(擴散模型)中,用Transformer替換常用的U-Net,將Transformer的可擴展性與Diffusion模型處理視覺數(shù)據(jù)的天然優(yōu)勢進行融合,能在視覺任務下展現(xiàn)出卓越的涌現(xiàn)能力。
DiT架構由伯克利團隊于2022年12月發(fā)表。但其實早在2022年9月,生數(shù)科技創(chuàng)始成員就提出了基于Transformer的網(wǎng)絡架構U-ViT,兩項工作在架構思路與實驗路徑上完全一致,均是將Transformer與擴散模型融合。
當時,U-ViT就在千萬至數(shù)億參數(shù)量級范圍內驗證了極強的可擴展性(scaling up),這項工作在CVPR 2023發(fā)表,早于DiT成為全球范圍內最早被提出的Diffusion Transformer架構。
對擴散模型融合架構的前瞻創(chuàng)新源自于團隊多年的深耕。團隊從事生成式人工智能和貝葉斯機器學習研究已有20余年,在深度生成模型突破的早期就開展了深入研究。在擴散模型方面,團隊于國內率先開啟了該方向的研究,成果涉及骨干網(wǎng)絡、高速推理算法、大規(guī)模訓練等全棧技術方向。
目前,團隊于ICML、NeurIPS、ICLR等人工智能頂會發(fā)表相關論文近30篇,其中提出的免訓練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR杰出論文獎,并被OpenAI、蘋果、Stability.ai等國外前沿機構采用,應用于DALL·E 2、Stable Diffusion等明星項目中。
02/
堅持多模態(tài)原生架構
全球首個完成大規(guī)模訓練任務的驗證
2023年3月,團隊開源了全球首個基于Diffusion Transformer架構(U-ViT)的多模態(tài)擴散大模型UniDiffuser,在參數(shù)量和訓練數(shù)據(jù)規(guī)模上,與Stable Diffusion直接對齊。在架構上,UniDiffuser比最近才采用DiT架構的Stable Diffsion 3領先了一年。
此外,除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務,能夠實現(xiàn)圖生文、圖文聯(lián)合生成、圖文改寫等多種功能。
圖像生成效果
在統(tǒng)一化架構的思路下,生數(shù)科技持續(xù)進行Scale up。在圖文模型的訓練中,參數(shù)量從最早開源版的1B不斷擴展至3B、7B、10B及以上,使得模型在美學性、多元風格、語義理解等方面實現(xiàn)快速穩(wěn)定的提升。同時在此基礎上,通過拓展空間維度和時間維度,逐步實現(xiàn)3D生成和視頻生成模型的訓練。
依托底層U-ViT架構的創(chuàng)新嘗試,截至去年9月,生數(shù)科技推出了基于統(tǒng)一的多模態(tài)多任務框架的產業(yè)級通用基礎大模型(閉源版),全鏈路自主訓練、自主研發(fā),在圖像生成、3D生成、視頻生成等多項任務中達到國際一流水平。
圖生3D案例(上圖為輸入圖片,下圖為對應3D模型)
多個圖生3D模型快速拼裝搭建的3D場景
3D生成可實現(xiàn)高精度與最快10秒級的模型生成,并推出全球首個4D動畫生成、可控3D場景編輯等工作。視頻生成已實現(xiàn)短視頻的編輯與生成能力,在畫面美觀度、連貫性方面實現(xiàn)了突破。
短視頻生成案例
此外,生數(shù)科技也積累了完整高效的工程化經(jīng)驗,擁有在大規(guī)模GPU集群上實現(xiàn)高效兼容、低成本的模型訓練經(jīng)驗,并搭建了完整的數(shù)據(jù)管理和使用體系。從算法原理、算法架構,到工程實現(xiàn)、數(shù)據(jù)準備,生數(shù)科技打造了多維度、全方位的基礎建設,這為后續(xù)多模態(tài)大模型,尤其長視頻生成的訓練奠定了重要基礎。
03/
從MaaS到應用工具
已初步完成商業(yè)化驗證
在商業(yè)化落地方面,依托于全面領先的MaaS(模型即服務)能力,生數(shù)科技在To B、To C端同時發(fā)力,一方面以API的形式向B端機構直接提供模型能力,另一方面打造垂類應用產品,按照訂閱等形式收費。
目前公司已與多家游戲公司、個人終端廠商、互聯(lián)網(wǎng)平臺等B端機構開展合作,開放模型服務,提供AIGC個性化體驗、定制化內容生產等方面的能力。
同時也于去年上線兩款工具產品:視覺創(chuàng)意設計平臺PixWeaver、3D資產創(chuàng)建工具VoxCraft,面向藝術設計、游戲制作、影視動畫、社交娛樂等創(chuàng)意領域提供賦能,提升創(chuàng)作效率,同時為創(chuàng)作者提供源源不斷的靈感和想象力。
對于未來的規(guī)劃,生數(shù)科技始終堅持“原生多模態(tài)”方向,基礎模型層面會持續(xù)優(yōu)化,不斷提升語義理解、可控性、美觀度方面的生成效果,近期則將重點突破長視頻生成能力。在產品端,現(xiàn)有產品將持續(xù)迭代,不斷滿足用戶需求,實現(xiàn)用戶量的持續(xù)增長,同時公司也正在探索工具以外的全新產品形態(tài),致力于提升每個人的創(chuàng)造力和生產力。
啟明創(chuàng)投合伙人周志峰表示,如今的大模型已經(jīng)從原來的純語言模態(tài),逐步走向多模態(tài)的探索。生數(shù)科技從去年成立之初就選擇多模態(tài)賽道,是國內這個領域起步最早、積累最深的團隊,大量工作被OpenAI、Stable Diffusion團隊引用。“生數(shù)科技推出的U-ViT架構作為全球Diffusion Transformer架構的首創(chuàng),不僅具有前瞻的技術視野,更是經(jīng)過了大規(guī)模訓練的驗證,展現(xiàn)出強大的技術可行性。這種兼具開拓性和成熟度的核心工作,讓我們對生數(shù)科技在多模態(tài)大模型方向的長期發(fā)展充滿信心?!?/span>
“今年過年期間,Sora的亮相不僅展示出視頻生成技術的巨大潛力,而且增強了人們對于多模態(tài)生成未來發(fā)展的信心。隨著Scaling Law在視頻生成領域的進一步加強,我們預期多模態(tài)技術將引領一系列令人矚目的創(chuàng)新和令人驚嘆的成果。在這一過程中,生數(shù)科技無疑將扮演一個關鍵的推動角色。”
本輪融資由啟明創(chuàng)投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續(xù)跟投,華興資本擔任獨家財務顧問。