近日,由蘇州市人工智能重點(diǎn)實(shí)驗(yàn)室自主研發(fā)的“蘇零”智能體在全球權(quán)威評(píng)測(cè)GAIA中一舉登頂。
GAIA是由國(guó)際頂尖團(tuán)隊(duì)聯(lián)合打造的評(píng)測(cè)基準(zhǔn),用466道“魔鬼考題”模擬真實(shí)世界挑戰(zhàn),涵蓋網(wǎng)頁(yè)瀏覽與信息整合、多模態(tài)理解、代碼執(zhí)行與數(shù)據(jù)分析、文件處理及復(fù)雜的推理和任務(wù)規(guī)劃。不同于其他聚焦于抽象模式識(shí)別的評(píng)測(cè)基準(zhǔn),GAIA更注重評(píng)估AI在真實(shí)世界任務(wù)中的表現(xiàn),包括推理、多模態(tài)處理(文本、圖像、音頻)以及工具使用能力。
自2023年11月份推出后,GAIA成為各大廠和創(chuàng)業(yè)公司爭(zhēng)相競(jìng)逐的權(quán)威評(píng)測(cè)榜單,不斷被刷新紀(jì)錄。此次,“蘇零”智能體憑借獨(dú)特的多智能體協(xié)作與辯論機(jī)制、靈活的工具調(diào)用、自主決策和實(shí)時(shí)修正能力,以76.41%的準(zhǔn)確率碾壓一眾國(guó)際選手。其中,在包含301個(gè)問(wèn)題的測(cè)試集上,超越了微軟、谷歌和硅谷AI獨(dú)角獸公司H2O智能體等許多國(guó)際頂尖競(jìng)爭(zhēng)對(duì)手。
蘇州市人工智能重點(diǎn)實(shí)驗(yàn)室由蘇州市政府聯(lián)合蘇州數(shù)智科技集團(tuán)、中國(guó)科學(xué)技術(shù)大學(xué)蘇州高研院等產(chǎn)學(xué)研龍頭單位共建,是長(zhǎng)三角區(qū)域首個(gè)以“人工智能+”為核心使命的創(chuàng)新平臺(tái)。