日前,基于GLM技術(shù)團(tuán)隊(duì)在語言模型、多模態(tài)模型和工具使用方面的努力和研究成果,啟明創(chuàng)投投資企業(yè)智譜AI推出GLM第一個(gè)產(chǎn)品化的智能體(Agent)—— AutoGLM,只需接收簡單的文字/語音指令,它就可以模擬人類操作手機(jī)。
相比于電腦,手機(jī)陪伴用戶的時(shí)間更長,離生活更近。如果說“Computer Use”開啟了人機(jī)交互的新范式,那么“Phone Use”則更進(jìn)一步,解鎖更多應(yīng)用的可能性,讓AI真正惠及每一個(gè)人。
除了視頻中展示的朋友圈點(diǎn)贊寫評論、購買某一款歷史訂單產(chǎn)品、購買火車票、點(diǎn)外賣等,AutoGLM的應(yīng)用場景還遠(yuǎn)不止于此。理論上,通過對GUI的深刻理解,AutoGLM可以完成人類在可視化電子設(shè)備(電腦、手機(jī)、平板……)上能做的任何事。
它不受限于簡單的任務(wù)場景或API調(diào)用,也不需要用戶手動搭建復(fù)雜繁瑣的工作流,操作邏輯與人類類似,真正做到在日常生活、工作中輔助人類。
01/
體驗(yàn)
用戶可以通過以下方法,掃描圖中二維碼,體驗(yàn)AI的“Phone Use”時(shí)刻:
1. 在Chrome或Edge安裝“智譜清言”插件,來體驗(yàn)AutoGLM-Web?!爸亲V清言”插件是一個(gè)能模擬用戶訪問網(wǎng)頁、點(diǎn)擊網(wǎng)頁的瀏覽器助手,大模型可以根據(jù)用戶指令在網(wǎng)站上自動完成高級檢索、總結(jié)與內(nèi)容生成。
2. 在手機(jī)端,首批開放給部分清言用戶(暫時(shí)僅支持安卓系統(tǒng)),歡迎提交內(nèi)測申請。值得一提的是,智譜AI也與榮耀等手機(jī)廠商基于AutoGLM開展深度合作。
AI的“Phone Use”時(shí)刻,讓智譜AI在通往通用人工智能(AGI)的道路上,再次向前邁了一小步。
02/
AutoGLM技術(shù)
AutoGLM基于智譜AI自研的“基礎(chǔ)智能體解耦合中間界面”和“自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架”,克服了大模型智能體任務(wù)規(guī)劃和動作執(zhí)行存在的能力拮抗、訓(xùn)練任務(wù)和數(shù)據(jù)稀缺、反饋信號稀少和策略分布漂移等智能體研究和應(yīng)用難題,加之自適應(yīng)學(xué)習(xí)策略,能夠在迭代過程中不斷改進(jìn)、持續(xù)穩(wěn)定地提高自身性能。就像人在成長過程中,不斷獲取新技能。
AutoGLM解決了大模型作為智能體時(shí)的兩個(gè)關(guān)鍵挑戰(zhàn):
挑戰(zhàn)一:“動作執(zhí)行”不夠精確
訓(xùn)練大模型智能體的一大難題,在于如何讓模型學(xué)會精準(zhǔn)地操作屏幕上顯示的元素。端到端訓(xùn)練聯(lián)合訓(xùn)練“動作執(zhí)行”和“任務(wù)規(guī)劃”能力,受制于軌跡數(shù)據(jù)獲取成本高昂,數(shù)據(jù)總量嚴(yán)重不足,導(dǎo)致需要高精度的動作執(zhí)行能力訓(xùn)練不充分。
為了解決這一問題,AutoGLM引入了“基礎(chǔ)智能體解耦合中間界面”設(shè)計(jì),將“任務(wù)規(guī)劃”與“動作執(zhí)行”兩個(gè)階段通過自然語言中間界面進(jìn)行解耦合,實(shí)現(xiàn)了智能體能力的極大提升。例如,在手機(jī)上點(diǎn)外賣,需要點(diǎn)擊“提交訂單”按鈕時(shí),對比傳統(tǒng)和“中間界面”方案如下:
挑戰(zhàn)二:“任務(wù)規(guī)劃”不夠靈活
另一個(gè)主要挑戰(zhàn)在于,GUI智能體訓(xùn)練軌跡數(shù)據(jù)極其有限和成本高昂。而且在面對復(fù)雜任務(wù)和真實(shí)環(huán)境時(shí),智能體需要具備靈活的即時(shí)規(guī)劃和糾正能力。這并非能通過例如模仿學(xué)習(xí)(Imitation Learning)和有監(jiān)督微調(diào)(SFT)等傳統(tǒng)大模型訓(xùn)練方法所能輕易獲得。為此,智譜AI以Web瀏覽器作為實(shí)驗(yàn)環(huán)境,研發(fā)了一種“自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架”,以在真實(shí)在線環(huán)境中,從頭開始學(xué)習(xí)和提升大模型智能體在Web和Phone環(huán)境中的能力。
通過引入自進(jìn)化學(xué)習(xí)策略,模型不斷自我考察、鞭策、提升。通過課程強(qiáng)化學(xué)習(xí)方法,該框架根據(jù)智能體當(dāng)前迭代輪次的能力水平,動態(tài)調(diào)整學(xué)習(xí)的任務(wù)難度,以最大程度利用模型潛能。而通過KL散度控制的策略更新以及智能體置信度經(jīng)驗(yàn)回放,智譜AI減輕和避免了迭代訓(xùn)練中出現(xiàn)模型遺忘先前學(xué)習(xí)任務(wù)的問題。基于該方法訓(xùn)練的開源版GLM-4-9B,就可以在WebArena-Lit評測基準(zhǔn)中相對GPT-4o提升超過160%,達(dá)到總體43%的任務(wù)成功率。
通過綜合應(yīng)用智譜AI自研的“基礎(chǔ)智能體解耦合中間界面”和“自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架”策略,AutoGLM在Phone Use和Web Browser Use上都取得了大幅的性能提升。例如,在AndroidLab評測基準(zhǔn)上,AutoGLM就顯著超越了GPT-4o和Claude-3.5-Sonnet的表現(xiàn)。
在WebArena-Lite評測基準(zhǔn)中,AutoGLM更是相對GPT-4o取得了約200%的性能提升,大大縮小了人類和大模型智能體在GUI操控上的成功率差距。
AutoGLM現(xiàn)以通過安卓應(yīng)用的方式,在真實(shí)的安卓手機(jī)上支持多個(gè)應(yīng)用的自動化任務(wù)執(zhí)行。在簡單任務(wù)的人工評測中,AutoGLM表現(xiàn)令人滿意。
請復(fù)制下方網(wǎng)址在瀏覽器打開,獲取AutoGLM的更多信息。
https://xiao9905.github.io/AutoGLM