編者按:今年以來,由游戲設計師杰森·艾倫使用AI繪圖工具Midjourney繪制的作品《太空歌劇院》奪下了美國科羅拉多博覽會的年度藝術比賽的首獎,引起藝術家和社交媒體的熱議,也讓AIGC(人工智能自動生成內(nèi)容)概念成為AI界年度熱詞,并掀起了一股AIGC投資熱潮。AIGC真如外界所宣傳的那般美好嗎?其背后的創(chuàng)新創(chuàng)業(yè)生態(tài)將如何構建?
從2012年AlexNet取得深度學習里程碑式的突破以來,啟明創(chuàng)投在過去的十年中都是中國最活躍的人工智能投資機構之一,我們見證了人工智能從算法到應用的一次次突破和發(fā)展,對人工智能的前景我們始終保持著熱情和理智。啟明創(chuàng)投開設硬科技前瞻專欄,希望從創(chuàng)投視角深度解讀前瞻技術突破,多維度剖析行業(yè)趨勢,尋找新銳科技力量。
如果我和你說,未來AIGC可能有兩種世界:一種世界是多個大模型基礎公司,為上游應用提供API和模型服務,上游應用公司只需要專注于開發(fā)產(chǎn)品邏輯和上層算法;而另一種世界則如同今天的AI公司一樣,每家公司都根據(jù)自身需求研發(fā)底層大模型,為自身應用提供技術支持。
你對任何一種世界的相信都將構成你當下投資和創(chuàng)業(yè)的選擇,當然,這兩種世界也可能存在互相交織的過渡形態(tài),但需要你來對過渡形態(tài)的持續(xù)時間進行判斷,你會選擇相信哪一種世界?
AIGC的兩種世界
先不用著急給出你的答案,再問你兩個問題:
1、如果GPT-4,或者3年、5年后最好的模型比GPT-3大100倍甚至1000倍,作為創(chuàng)業(yè)公司是否還要自研?
2、在某個領域的底層基礎模型尚未成熟的時候,選擇在該領域進行創(chuàng)業(yè)是很好的timing嗎?
如果你對未來的AIGC世界和這兩個問題感興趣,我們將進入今天的文章。我們將簡單回顧近期熱鬧的AIGC,從中探尋AIGC在今年火爆的根本原因,并將結合強化學習奠基人之一Rich Sutton的“AI 70年慘痛的教訓”和Jasper.AI、Copy.AI等公司的發(fā)展,做出我們對于這個世界的判斷。相信看完以后,你也將會得出自己的答案。
01/
引爆用戶的AIGC
如果用一個字形容過去幾個月的AIGC(AI Generated Content)/Generative AI,那么應該是“火”。Midjourney的作品獲得美國科羅拉多州博覽會的數(shù)字藝術比賽一等獎,引發(fā)關注和廣泛爭論,有人戲稱AIGC讓每個畫師都在擔心失業(yè)。與此同時,今年相對沉寂的VC迎來新風口,連續(xù)轟炸的AIGC公司的融資消息和新聞讓VC又一次產(chǎn)生FOMO(Fear of Missing Out)的情緒;DreamStudio、Midjourney等AI作畫應用符合視覺消費的時代主題,引爆了C端熱情。
Midjourney的獲獎作品 - 太空歌劇院 Théatre D’opéra Spatial
其實AIGC并不是一個新穎的概念,AIGC即用AI算法生成文本或者圖像等內(nèi)容,各種NLG(自然語言生成)模型和GAN(生成對抗網(wǎng)絡)及其變種模型都是此前的生成式AI模型。如果你打開谷歌搜索AIGC,會發(fā)現(xiàn)排在前面的基本都是中文網(wǎng)站,因此有人說AIGC是一個國產(chǎn)概念,與之對應的海外概念是Gartner在2019年提出的Generative AI,為統(tǒng)一理解,本文將采用AIGC來表達AI生成內(nèi)容。
我們觀察到新一波AIGC浪潮起源于2020年的預訓練大模型GPT-3,現(xiàn)在火爆的圖像生成、視頻生成、3D生成等,本質(zhì)是大模型從文本生成擴展到多模態(tài),并結合原有模態(tài)算法進行實現(xiàn)(當然,以圖片生成圖片等本模態(tài)之間的AI生成,以及圖像生成視頻、2D生成3D等跨模態(tài)生成也是AIGC,例如VAE、StyleGAN、Nerf等與AI生成相關的模型都在GPT-3發(fā)布之前或之后提出,但這些方向的工作并非引爆新一波AIGC的主要原因)。因此,我們看到的大量AIGC應用,目前的表現(xiàn)形式大多為輸入一句話,生成一句話/一張圖/一段視頻/一串代碼等。
1750億參數(shù)的GPT-3曾一度是AI歷史上最大的機器學習模型,相比于15億參數(shù)量的GPT-2,GPT-3參數(shù)量提高約117倍,預訓練的數(shù)據(jù)量也從50GB提高到57GB。2020年發(fā)布GPT-3的時候,OpenAI并沒有將工作重點放在模型結構的創(chuàng)新上,反而是進行了大量工程化的工作,充分展示GPT-3通過Zero-Shot、One-Shot和Few-Shots(即不需要額外數(shù)據(jù)進行微調(diào),直接給出幾個樣例就可以讓模型做出正確的生成)等Prompt方法完成多種NLP任務的通用性和泛化能力。通過釋放出API接口供公眾調(diào)用,GPT-3的商業(yè)化也正式提上日程。GPT-3展示出驚人的效果后,一年后頂級實驗室和科技大廠陸續(xù)發(fā)布自己的NLP預訓練大模型,模型參數(shù)量呈現(xiàn)指數(shù)級別的增長。
深度學習模型中參數(shù)數(shù)量的指數(shù)級增長
隨后的一年內(nèi),OpenAI進行了多次多模態(tài)的探索,其中最知名的是Text-to-image系列模型DALLE和DALLE2。
OpenAI在2021年1月發(fā)布初代Text-to-Image模型DALL-E,雖然相比于此前作畫模型進展驚人,但效果并未讓大眾驚艷,因此只在學界引發(fā)了巨大的關注。2022年4月,OpenAI再次發(fā)布第二代Text-to-Image模型DALL-E 2,效果極好,但OpenAI僅用一篇未公布細節(jié)的論文展示其成果,并僅為審核通過的開發(fā)者提供接口試用。2022年8月,借鑒Dall-E 2的思路,Stable Diffusion模型開源,至此,AI圖像生成開始爆發(fā)。
DALLE、DALL-E 2和其他開源模型的發(fā)布時間線與效果
時間軸圖 | State of AI Report 2022, https://www.stateof.ai/
總結AI生成圖像發(fā)展滯后于生成文本,但卻在2022年下半年爆發(fā)的原因,我們不難發(fā)現(xiàn)如下規(guī)律,上一層級的AIGC往往依賴于下一層級的AIGC發(fā)展到一定程度,如Text-to-Image依賴于Text-to-Text本身的算法發(fā)展相對成熟,同理,我們推測Text-to-Video也需要依賴Text-to-Image和其他視頻預測算法(如視頻插幀)的發(fā)展成熟,因此,我們可以對不同復雜度的AIGC內(nèi)容的進化路線得出以下推論:
AIGC中不同內(nèi)容的進化路線
02/
AIGC為何引起新一波熱潮?
如果分析新一波AIGC得到發(fā)展的原因,最直接的結論是因為大模型(如GPT-3、Dalle2、Stable Diffusion等)帶來了非常好的效果和泛化能力。
其實從GPT-3出現(xiàn)之前,早在2018年3.4億參數(shù)的Bert模型在當時已經(jīng)算是巨無霸級別的存在,只是沒有想到短短2年內(nèi),模型參數(shù)就提高到了GPT-3的1750億。3.4億參數(shù)的Bert將SQuAD 1.1的F1得分提高到93.16分,超過人類的表現(xiàn),并用屠榜的成績贏得了多項NLP測試。但直到GPT-3的出現(xiàn),NLP模型才可以更好地完成NLG任務,并且對Few-shots的運用更加嫻熟。
大模型還展示出了強大的泛化能力,GPT-3的API接口讓下游的應用公司可以不需要遷移學習就直接將AI能力應用到自己的任務中,API接口發(fā)布不到1年內(nèi)就吸引了約300家公司調(diào)用其API,也印證了在2021年8月斯坦福大學教授李飛飛等100多位學者聯(lián)名發(fā)表的200多頁的研究報告On the Opportunities and Risk of Foundation Models中關于大模型(統(tǒng)一命名為Foundation Models)可以集中來自多種模態(tài)的所有數(shù)據(jù)的信息,并直接適用于多種下游任務的構想。借助GPT-3的API接口,OpenAI也逐漸從獨立的實驗室走向大模型的基礎設施公司。
圖片 | 論文 On the Opportunities and Risk of Foundation Models
但如果進一步對為什么大模型能夠帶來更好的效果和泛化性進行分析,我們目前還只能通過實驗而非清晰的理論進行解釋。的確大多數(shù)情況下更大規(guī)模的模型會帶來更好的效果,但具體原因尚未被探明,學術界也存在很多探討。
在最新的一篇關于大模型的研究論文中,作者通過實驗證明了大多數(shù)任務的效果隨著模型的增大而提高——在一些任務中,隨著模型增大而效果類似線性相關地變好的情況,作者將這類任務定義為Linearity Tasks,同樣,也有一些任務需要模型規(guī)模超過某個臨界點后,會突然出現(xiàn)相應的能力,此后在隨著模型規(guī)模的增大而提升效果,作者將這類任務定義為Breakthroughness Tasks。(當然,也存在少部分任務的效果隨著模型增大而降低)。
圖片 | 論文 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
同樣,論文Emergent Abilities of Large Language Models中也有類似的實驗證明,當模型達到臨界大小時,許多NLP能力會不可預測地出現(xiàn)——涌現(xiàn)規(guī)律。
如果再進一步追問為什么模型可以越做越大,則不得不提到Transformer的優(yōu)點。Transformer解決了并行化訓練和長依賴問題,能夠容納更多的參數(shù)規(guī)模,為模型進一步做大提供了基礎,而大模型帶來了更好的效果和泛化性,提供了超過以往的生成能力,引發(fā)了新一波AIGC的爆發(fā)。
Transformer提供的并行化和對全局信息掌控能力,對算力的充分挖掘和利用,也近乎完美地符合2019 DeepMind杰出科學家、強化學習的奠基人之一的Rich Sutton在文章The Bitter Lesson中論述的觀點——從過去70年的人工智能研究中可以得到的最大教訓,是利用計算的一般方法最終是最有效的,而且效果提升幅度很大。
在文章中,Rich Sutton通過列舉深度搜索超過人類知識設計的算法而在計算機國際象棋中擊敗人類冠軍、隱性馬爾可夫模型在語音識別領域戰(zhàn)勝基于人類知識的算法、計算機視覺中深度學習使用卷積超過此前搜索邊緣和以SIFT特征為基礎的方法,論證了為了尋求在短期內(nèi)有所作為的改進,研究人員更傾向于利用人類對該領域的知識,但從長遠來看,唯一重要的是對計算的利用。
然而,Rich Sutton關于“長遠來看,唯一重要的是對計算的利用”的觀點,當時并沒有引發(fā)業(yè)界的強烈關注,甚至在大模型促進AIGC蓬勃發(fā)展的今天,很多創(chuàng)業(yè)者和投資人仍然沒有對這句話的意義足夠重視。
03/
未來的世界
目前關于GPT-4流行著兩種傳言,第一種是生成GPT-4并不會比GPT-3的參數(shù)規(guī)模大太多,預計是幾千億級別的參數(shù)量,但會使用更大量的數(shù)據(jù)進行訓練;另一種傳言是GPT-4的規(guī)模將會比GPT-3大至少一個量級。不管哪一種傳言是對的,如果我們認真思考Rich Sutton的“長遠來看,唯一重要的是對計算的利用”這一觀點,則很難避免的需要回答這樣一個問題“如果GPT-4,或者3年、5年后最好的模型比GPT-3大100倍甚至1000倍(這里的100倍,可能是模型參數(shù)量、也可能是訓練使用的數(shù)據(jù)量),作為AIGC應用側的初創(chuàng)公司還是否要自研?”
2012年至今,表現(xiàn)最好的模型參數(shù)每18個月增加35倍,增速遠超摩爾定律
我們在今天熱鬧的AIGC創(chuàng)業(yè)氛圍中,有時會聽到這樣的一種樂觀言論—市場上能夠調(diào)用的大模型API效果并不好,我們需要得到一筆融資,去研發(fā)自己的大模型,有了自研的大模型,我們想要做的殺手級別的應用(如寫作助手、圖畫生成等等)就會取得更好的效果,最終贏得客戶。持這種論調(diào)的創(chuàng)業(yè)者,大多有著不錯的技術背景,并且大概率在AI領域有過一些值得人尊敬的成果。
然而,Rich Sutton之所以得出慘痛的教訓,正是因為基于這樣的歷史觀察:1)人工智能研究者經(jīng)常試圖將認知加入到他們的模型中,2)這在短期內(nèi)總是有幫助的,并且對研究者個人來說是滿意的,但是3)從長遠來看,它的影響趨于平穩(wěn),甚至抑制了進一步的進展,4)突破性的進展最終通過一種與之對立的方法,是基于搜索和學習這樣能夠擴展計算的方法。
這樣的觀察與上文我們觀察到的一些論調(diào)非常相似,今天創(chuàng)業(yè)者希望通過利用與自身業(yè)務相關的數(shù)據(jù)、經(jīng)驗、技巧等去自己構建當下的最好的大模型,的確有機會在自身領域帶來超過今天大模型基礎設施公司公開提供API的效果,然而這也同樣意味著企業(yè)要一直分配一大部分精力和資金在基礎模型的研發(fā)上,那自然放在業(yè)務上的資金和精力則會減少。PMF(Product-market fit)以及PMF之后的業(yè)務拓展,都需要企業(yè)投入全部的精力來完成,大模型所需要耗費的研發(fā)投入和資金成本顯然與集中精力做PMF有一些矛盾。
對于以上的問題,目前AIGC創(chuàng)業(yè)公司中已經(jīng)實現(xiàn)PMF和商業(yè)化拓展的兩個代表性公司Copy.AI和Jasper.AI并未糾結。前者在成立的一年內(nèi)實現(xiàn)了1000萬美元的ARR,而后者則更是厲害,在成立的2年內(nèi)實現(xiàn)了4000萬美元的ARR,預計在今年實現(xiàn)9000萬以上的ARR。兩者的共同點都是基于選擇了使用GPT-3提供的API進行創(chuàng)業(yè),并在GPT-3提供的API的基礎上,在前端做了大量的控制算法和產(chǎn)品邏輯,并集中精力打磨產(chǎn)品。
值得警惕的是,大模型是一直在進步的,耗費的成本也越來越高。OpenAI 1750億參數(shù)的GPT-3耗費了大約500萬美元的訓練資金,Stability.AI也在維護一個4000多個Nvidia A100 GPU組成的集群來訓練AI模型,顯然這么大的訓練費用對于創(chuàng)業(yè)公司是一個壓力。雖然Stable Diffusion已經(jīng)開源,但在圖文生成領域還有更多進步的空間,目前來看Stability.AI的方向并非成為圖像側的應用公司,而是成為大模型領域的基礎設施公司(可能類似于hugging face)。
那么不禁要問,如果有一天Stability.AI像OpenAI一樣,并不再開源其最先進的模型,而是提供商業(yè)化調(diào)用的時候,創(chuàng)業(yè)公司是否還要選擇自研大模型來保持最先進,如果回答是Yes的話,資金又要從哪里募集呢?
另外一個值得注意的問題是,目前Stable diffusion開源模型所展示的效果并沒有在圖像領域達成如GPT-3在NLP領域一樣的效果,雖然其C端火爆的現(xiàn)象仍然持續(xù),然而如果真的轉化成B端的通用生產(chǎn)力工具,Stable diffusion還存在無法針對圖像做更細節(jié)的生成(如手部效果等)、無法制定某個特定區(qū)域修改乃至修改后與原場景十分融洽、無法控制畫作中不同元素(實體)進行單獨修改等諸多問題(截至發(fā)稿前,Stable diffusion2.0已經(jīng)在11月24日發(fā)布,變化包括對分辨率的提升、引入圖片編輯功能等,但上述問題仍然未得到充分解決)。
簡而言之,目前除了NLP領域的大模型是相對成熟以外,圖像的AIGC模型尚且處于早期,視頻、3D、游戲等內(nèi)容的AIGC模型則處于更早期階段。因此創(chuàng)業(yè)者需要回答的另一個問題是“當?shù)讓踊A模型尚未成熟的時候,是選擇在該領域進行創(chuàng)業(yè)很好的timing嗎?是否應該等到底層模型相對成熟且API就位后才是更好的創(chuàng)業(yè)timing?”
以Text-to-Image領域為例,自然會有一些勇敢的創(chuàng)業(yè)者會去提高當前Stable diffusion的效果,自己訓練前端的CLIP模型,甚至自己訓練后端的Diffusion模型。的確,在當前模型沒有發(fā)展到一定程度時,拿到一筆錢后做出比當下市場上最好的模型效果還要好的模型,并為業(yè)務產(chǎn)生更好的效果的想法確實非常誘惑,這個想法下能夠展示出的Demo、優(yōu)秀的AI團隊,可能也是令VC沉醉的。但回顧NLP的歷史,如果Copy.AI、Jasper.AI并未在2020年OpenAI研發(fā)出GPT-3并開放接口后再選擇創(chuàng)業(yè),而是在2015年、2018年拿著當時的模型去選擇做營銷助手的創(chuàng)業(yè),其成功的概率會有多大?
而從目前的市場情況來看,圖像、視頻領域則尚未出現(xiàn)與Jasper.AI和Copy.AI類似的、已經(jīng)實現(xiàn)超過千萬ARR的新的應用類創(chuàng)業(yè)公司,更多是原來已經(jīng)存在的應用公司通過新的模型進行業(yè)務能力的增加。相信除了Stable Diffusion模型開源的時間尚短以外,也有著當前最好的模型亦尚未成熟的原因。也許,在圖像等其他內(nèi)容領域,目前時代還在呼喚著與OpenAI類似的提供API的基礎設施類公司,然后才是應用生態(tài)繁榮的開始。
參考國外AIGC不同類型的公司出現(xiàn)的節(jié)奏,可以發(fā)現(xiàn)如下規(guī)律:
第一步,頂級實驗室研發(fā)革命性的模型
第二步,實驗室或者AI科學家成立基礎設施公司,提供API和模型對外服務
第三步,具備行業(yè)經(jīng)驗的產(chǎn)品人才利用基礎設施公司提供的API,專注于打磨自身應用,服務客戶
從NLP到其他模態(tài)(如圖像、視頻、3D等),以上規(guī)律反復出現(xiàn)。
當前NLP國內(nèi)外都已經(jīng)出現(xiàn)基礎設施公司提供API接口,國外有OpenAI、Cohere等公司,國內(nèi)也出現(xiàn)了智譜華章這樣研發(fā)出超大規(guī)模預訓練模型(效果在多個公開評測集上性能超過GPT-3)并提供模型服務市場(Model as a Service)的基礎設施公司。
有了基礎設施公司提供相對成熟的API服務,啟明創(chuàng)投將持續(xù)關注NLP殺手級應用;而圖像、視頻、3D等領域,尚未出現(xiàn)能夠提供商用API的基礎設施公司(Stable Diffusion和Midjourney有可能是第一批圖像領域的基礎設施公司)。
啟明創(chuàng)投同樣會關注在大模型時代前就成立,專注于垂直領域的應用公司,他們將在新一波AIGC浪潮中借助大模型的能力,推出新產(chǎn)品和或者大幅提升原有產(chǎn)品效果(例如Notion和RunwayML)。此外,在兩個世界過渡的過程中,能夠拿到高額融資的垂直一體AI公司仍然有可能在時間窗口中占據(jù)有利地位(例如AI21lab和Character.ai),我們對此類機會同樣保持關注,但會更加謹慎。
當然,就像是恐龍時代中,哺乳動物作為弱小的生物并不顯眼,但卻最終面對各種惡劣的環(huán)境生存下來并開枝散葉一樣。從2012年AlexNet取得深度學習里程碑式的突破以來,啟明創(chuàng)投在過去的十年中都是中國最活躍的人工智能投資機構之一,我們見證了人工智能從算法到應用的一次次突破和發(fā)展,對人工智能的前景我們始終保持著熱情和理智。我們將對目前發(fā)展的元學習、新一代AI推理或者其他使用更小數(shù)據(jù)量和參數(shù)量的模型發(fā)展保持關注,也許未來有一天transformer不再是最優(yōu)范式,垂直應用的世界會再次到來。
但是,在此之前,第二種世界向第一種世界的過渡看起來無法避免,要知道雖然恐龍最終滅絕,但滅絕之前,他們曾作為霸主統(tǒng)治地球1.6億年。
關于作者
署名作者均為啟明創(chuàng)投科技投資團隊成員,周志峰是啟明創(chuàng)投合伙人,胡奇是啟明創(chuàng)投投資經(jīng)理。