編者按:在由啟明創(chuàng)投主辦的2023世界人工智能大會“生成式AI與大模型:變革與創(chuàng)新”論壇上,人工智能等技術(shù)前沿領(lǐng)域的著名專家與學(xué)者,頂級投資人和領(lǐng)軍創(chuàng)業(yè)者匯聚一堂,共同探索中國科技創(chuàng)新的驅(qū)動力量。
本次論壇是大會唯一一場由創(chuàng)投機構(gòu)主辦的相關(guān)論壇,立足創(chuàng)業(yè)與投資視角,分享了最新生成式AI前沿信息和實踐探索,并發(fā)布了行業(yè)首份基于對海內(nèi)外逾百家企業(yè)深入調(diào)研撰寫的生成式AI洞察報告,全方位解讀了生成式AI的產(chǎn)業(yè)變革和未來十大展望。
啟明創(chuàng)投投資企業(yè)優(yōu)必選科技聯(lián)合創(chuàng)始人、首席技術(shù)官、執(zhí)行董事熊友軍博士在現(xiàn)場發(fā)表了“人形機器人的發(fā)展與未來”主題演講。他介紹了人形機器人正在迎來“iPhone”時刻。人形機器人更適合于人類的環(huán)境,并提供更自然的人機交互來滿足人的情感和陪伴需求。
AI技術(shù)的演進和發(fā)展,是推進人形機器人智能化的關(guān)鍵,人形機器人和ChatGPT結(jié)合將AI推上了一個具身智能的新高度。ChatGPT賦能人形機器人,使之告別四肢發(fā)達頭腦簡單;而人形機器人將延展ChatGPT的能力,幫助其超越文本處理和信息空間,具備與物理世界交互的能力。人形機器人市場目前百花齊放,未來將更加繁榮。
以下為精編整理的演講實錄。
非常感謝啟明創(chuàng)投的邀請,我們向大家分享一下優(yōu)必選科技在人形機器人方面的研究。優(yōu)必選科技在這方面已經(jīng)進行了十多年的研發(fā),最近這段時間我們迎來了人形機器人的“iPhone”時刻,可能大家對這方面都很關(guān)注,我們給大家分享一下這方面的發(fā)展與未來的情況。
優(yōu)必選科技聯(lián)合創(chuàng)始人、首席技術(shù)官、執(zhí)行董事熊友軍博士
01/
人工智能技術(shù)的演進和發(fā)展
是推進人形機器人智能化的關(guān)鍵
我們?yōu)槭裁匆鋈诵螜C器人?或者說機器人為什么一定要有人形?是出于幾個方面的考慮。首先因為我們現(xiàn)在的環(huán)境都是為人類所打造的,人形機器人更適合于人類的環(huán)境,并提供更自然的人機交互來滿足人的情感和陪伴需求。
人形機器人的發(fā)展歷程實際上是一個比較早的故事,1969年早稻田大學(xué)開發(fā)了第一代的人形機器人。后面的人形機器人大致經(jīng)歷過三個階段的發(fā)展,但是基本上都是圍繞著怎樣讓機器人更好地在我們的人類環(huán)境里運動而展開的。
第一個階段是1969-1995年,它是一個緩慢靜態(tài)行走的過程,以日本本田ASIMO機器人的前身為代表,當(dāng)時機器人只能在結(jié)構(gòu)化的固定環(huán)境中運動;
第二個階段是1996-2015年,可以實現(xiàn)連續(xù)動態(tài)行走,這時候更多考慮到了機器人的質(zhì)心慣量以及質(zhì)心的加速度等因素;
第三個階段是2016年-2020年,追求的是高動態(tài)的運動性能,以波士頓動力的ATLAS機器人做出的令人驚嘆的運動動作為標(biāo)志;
人形機器人更強調(diào)與人的交互,其環(huán)境感知和決策能力都是隨著人工智能的發(fā)展而快速發(fā)展的,所以人工智能技術(shù)的演進和發(fā)展是推進人形機器人智能化發(fā)展的關(guān)鍵因素。
02/
人形機器人和ChatGPT的結(jié)合
將AI推上了“具身智能”的新階段
“具身智能”更強調(diào)智能體與物理世界的交互與反饋,也能讓人形機器人發(fā)揮更多價值,但現(xiàn)在的ChatGPT更多的是在信息空間的結(jié)合。過去機器人被認(rèn)為四肢發(fā)達、頭腦簡單,但在人形機器人和大模型結(jié)合之后,會大大延伸人形機器人的工作價值,不僅僅會具有更多的勞動力價值,也會有更多情感交互的價值。
另外,人形機器人也能夠延伸ChatGPT的能力。目前ChatGPT實現(xiàn)的只是信息輸出,但在未來可以借助人形機器人實現(xiàn)與物理世界的交互,從信息空間向物理空間延展,兩者結(jié)合具有非常大的想象空間,對人形機器人和ChatGPT都具有非常巨大的價值。
在技術(shù)層面,生成式人工智能可以提升人形機器人的研發(fā)效率,過去研發(fā)過程需要撰寫大量基礎(chǔ)且重復(fù)的代碼,未來我們可以用大模型自動生成特定目標(biāo)的基礎(chǔ)代碼,節(jié)約工程師人力資源。
生成式人工智能還會讓人形機器人的運動規(guī)劃變得更加便捷,過去研發(fā)過程需要提供非常細(xì)節(jié)的指令,未來我們只需要給出宏觀指令,設(shè)定好目標(biāo),由大模型自動生成代碼來實現(xiàn),從而加快機器人的開發(fā)過程,降低機器人的開發(fā)成本。這些都是人形機器人和ChatGPT結(jié)合之后帶來的好處。
03/
人形機器人發(fā)展涉及的核心技術(shù)
需要全行業(yè)共同推進
從人形機器人行業(yè)現(xiàn)在的競爭格局來看,很多公司已經(jīng)開始在做人形機器人的研發(fā)了,尤其像特斯拉、Open AI還有谷歌,都在這方面做了很多布局。國內(nèi)也有很多的公司開始加入,包括這幾天也有一些公司發(fā)布了他們?nèi)诵螜C器人的進展。這是非常好的現(xiàn)象,百花齊放,這個生態(tài)更加繁榮起來了。
人形機器人發(fā)展起來涉及到一些核心的技術(shù),需要全行業(yè)共同來推進。
第一,伺服驅(qū)動器,也就是機器人的“關(guān)節(jié)”。這是讓機器人能夠運動的重要零部件。從小扭矩的手部關(guān)節(jié),到大扭矩的踝關(guān)節(jié)、膝關(guān)節(jié),需要伺服驅(qū)動器具有高爆發(fā)力、高控制力和高能量密度比等不同的特性,也對應(yīng)不同的核心技術(shù)。
第二,運動控制研發(fā)。這涉及到機器人的步態(tài)算法,需要適應(yīng)各種環(huán)境,比如樓梯、斜坡、草地、石子路等等。
第三,位控和力控。我們對機器人的行走速度、運動速度要求都非常高,希望它能更快一點,甚至能跑、能跳,這里面有兩個控制的主要技術(shù),位控和力控,面向不同的場景有各種不同的側(cè)重。
第四,全身柔性控制。人機交互的安全性。人形機器人更多參與與人的交互,需要它是柔性的,而不是工業(yè)機器人那樣需要用獨立環(huán)境把它隔離出來,所以它的全身柔性控制是非常重要的。
第五,我們更加關(guān)注的是機器人的工作能力,像手眼協(xié)調(diào)、抓取、力位混合控制、精度的控制,除了要考慮到運動控制,還要跟視覺、力覺等傳感器做很多的配合。
第六,導(dǎo)航算法。機器人在生活的場景里面大范圍地移動,需要對環(huán)境進行重構(gòu),基于不同的障礙物進行路徑的規(guī)劃,所以我們要基于它的3D視覺傳感器做很多導(dǎo)航算法的研究,和輪式機器人的導(dǎo)航也不一樣。
第七,生物特征識別。跟人交互的過程中要用到生物特征識別,機器人在面對老人、小孩等不同的交互對象時,交互的模式和內(nèi)容都會不一樣。
第八,多模態(tài)的交互。我們的交互不僅僅是要關(guān)注它的語音、視覺,其實我們還有觸覺,還有一些表情、行為等等的交互,人形機器人和人的交互是多模態(tài)的交互。
第九,機器人操作系統(tǒng)。除了這個以外,還有機器人底層的操作系統(tǒng)也是非常重要的,現(xiàn)在我們很多的操作系統(tǒng)基本上都是基于Linux或者安卓做應(yīng)用開發(fā),在產(chǎn)業(yè)真正發(fā)展起來之后,一定會有自己的操作系統(tǒng)。
04/
人形機器人作為第三代人機交互中心
會有巨大的發(fā)展
從工業(yè)革命以來,每一個時代都有它的標(biāo)志性產(chǎn)品,第四次工業(yè)革命的標(biāo)志性產(chǎn)品可能就是人形機器人。
另外人形機器人的市場,不同機構(gòu)給出了很多的市場的預(yù)估,這其實只是其中的一種。
最近圍繞推動人形機器人的發(fā)展,國家出臺了很多的政策,從工信部到各個城市,上海、北京、深圳都在大力推動人形機器人的發(fā)展,像工信部正在大力推進制造業(yè)創(chuàng)新中心、人形機器人制造業(yè)創(chuàng)新中心的建設(shè),因此各個地方都推出了人形機器人的行動的計劃。
我們做人形機器人最重要的目標(biāo)就是要把它作為一個多任務(wù)、通用型的機器人平臺,它有非常多的應(yīng)用場景。比如說在工業(yè)生產(chǎn)的領(lǐng)域,我們已經(jīng)進入老年社會,發(fā)展人形機器人可以大大彌補勞動力的不足,這是一個非常具有吸引力的用戶場景。
人形機器人也是很好的社會服務(wù)的承擔(dān)者,因為它具有的擬人特征更能適應(yīng)以人為中心建造的辦公、生活環(huán)境,更具有親近感,它的應(yīng)用將會在辦公輔助、商務(wù)服務(wù)、家務(wù)作業(yè)以及居家照料老人等領(lǐng)域。一旦人形機器人大范圍應(yīng)用,勞動力短缺問題將可能一勞永逸地解決。
同時在特種領(lǐng)域,比如說救災(zāi)、救援,這類型的任務(wù)一般都具有急迫性,而且環(huán)境差異都不一樣,有些時候特種裝備都難以勝任,一般都派消防隊員或者是特種救援隊員上去,其實這時候可以用人形機器人,人形機器人可以直接使用各種特種裝備展開救援任務(wù),大大減少對人的威脅。
另外在國家的重大工程建設(shè)方面,人形機器人可以代替人在一些缺氧、強輻射,在對人有危險的環(huán)境里長期駐守和部署。所以在核電站、空間站、探月工程,這種國家級的重大工程應(yīng)用里面,人形機器人也有非常好的應(yīng)用前景。
其實我也經(jīng)常被問到一個問題:在工業(yè)領(lǐng)域里為什么會用到人形機器人?我們跟制造企業(yè)談過,像深圳的一些汽車制造廠,焊接、噴漆、搬運、生產(chǎn)的自動化程度已經(jīng)很高了,但是依然還有非常多的崗位由人來承擔(dān)。這些場景不適合用自動化設(shè)備,相比自動化的機械手臂、工業(yè)機器人,人形機器人的運動能力適合所有的工廠環(huán)境,決策能力更強,靈巧手的抓取能力也更強,每個工種也可以替換不同的夾具來完成。
人形機器人幾乎可以完成人類能進行的所有非標(biāo)任務(wù),在自動化流水線上也可以配合傳統(tǒng)設(shè)備進行作業(yè)。優(yōu)必選科技在智慧工廠做了很多人形機器人的應(yīng)用探索,在物流、測試,在分揀方面都做了很多工作。
我們有一個大致的預(yù)判,人形機器人會賦能各行各業(yè),最終會走入家庭。這是美國的人工智能協(xié)會的預(yù)測,我們生活的各個方向,各個層面,機器人都會發(fā)揮作用。人形機器人可能是最終的形態(tài),它的數(shù)量可能會非常多,像孫正義、馬斯克預(yù)測的100億臺、200億臺人形機器人,會需要一個發(fā)展過程。
繼個人電腦、智能手機之后,人形機器人作為第三代人機交互中心,會有巨大的發(fā)展。它也會遵循個人電腦和智能手機的發(fā)展邏輯,不同的是人形機器人會采用多模態(tài)的交互,相對于個人電腦和個人手機來說,交互模式會出現(xiàn)全面的提升。
05/
人形機器人是能推動整個機器人
技術(shù)發(fā)展的重要產(chǎn)品
優(yōu)必選科技最早從2012年就開始做小型人形機器人,到現(xiàn)在已經(jīng)發(fā)展了很多代了。我們掌握了全棧的人工智能技術(shù),包括機器人的本體、人工智能的視覺語音技術(shù),包括導(dǎo)航、視覺伺服以及人機方面的技術(shù)。我們基于人形機器人的技術(shù),展開了很多應(yīng)用的場景,現(xiàn)在專注的幾個場景是在人工智能教育、智慧物流,以及養(yǎng)老行業(yè),還有一些商業(yè)應(yīng)用的服務(wù)機器人。
優(yōu)必選科技是全球極少數(shù)具備人形機器人全棧式技術(shù)能力的公司,包括行業(yè)領(lǐng)先的機器人技術(shù)(機器人運動規(guī)劃和控制技術(shù)、伺服驅(qū)動器)、人工智能技術(shù)(計算機視覺和語音交互)、機器人與人工智能融合技術(shù)(SLAM 及自主技術(shù)、視覺伺服操作和人機交互),以及機器人操作系統(tǒng)應(yīng)用框架(ROSA)。憑借自研的人形機器人全棧技術(shù),優(yōu)必選科技以智能機器人為載體,人工智能技術(shù)為核心,面向人工智能教育、智慧物流、智慧康養(yǎng)、商業(yè)服務(wù)等多個行業(yè),推出了“硬件+軟件+服務(wù)+運營”的智能服務(wù)機器人解決方案。
這些解決方案都是基于人形機器人技術(shù)衍生而來的。人形機器人的核心技術(shù)就像是優(yōu)必選科技樹的“樹干”一樣,可以分出很多的枝椏,為其他產(chǎn)品提供了養(yǎng)分。這也是優(yōu)必選科技做人形機器人的原因,我們覺得人形機器人是能夠推動整個機器人技術(shù)發(fā)展的非常重要的一個產(chǎn)品。
請關(guān)注啟明創(chuàng)投公眾號
在后臺輸入“生成式AI報告”
獲取完整報告下載方式