2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái) HiF-VLA: 以motion為中心打造「邊想邊作念」的寰宇動(dòng)作模子


本文第一作家為西湖大學(xué)科研助理藺聰明,通信作家為阿里巴巴達(dá)摩院算法眾人黃想騰和西湖大學(xué)東談主工智能系副主任王東林。通盤作家均來(lái)自西湖大學(xué)機(jī)器智能實(shí)驗(yàn)室(MiLAB)和西湖機(jī)器東談主科技有限公司,團(tuán)隊(duì)責(zé)任 ReconVLA 近期得到 AAAI 2026 最好論文獎(jiǎng)。
具身智能要想真著實(shí)復(fù)雜場(chǎng)景中落地,離不開(kāi)對(duì)長(zhǎng)程任務(wù)(Long-horizon tasks)的領(lǐng)路實(shí)踐。可是,現(xiàn)存的 VLA(視覺(jué)-說(shuō)話-動(dòng)作)模子大多停留在「動(dòng)作師法」階段,枯竭對(duì)物理寰宇動(dòng)態(tài)變換的深入不竭,在長(zhǎng)線操作中極易墮入因果污染;同期,傳統(tǒng)通過(guò)徑直堆疊多幀圖像來(lái)引入時(shí)間維度的順次,不僅容易引入無(wú)數(shù)靜態(tài)布景冗余,更會(huì)帶來(lái)厄運(yùn)性的推理延長(zhǎng)與顯存溢出。

為處理上述挑戰(zhàn),來(lái)自西湖大學(xué)、浙江大學(xué)、西湖機(jī)器東談主等機(jī)構(gòu)的盤問(wèn)團(tuán)隊(duì)建議了一種以理解(Motion)為中心的全新雙向時(shí)空推理框架 HiF-VLA。廢棄冗余的像素級(jí)輸入,HiF-VLA 玄機(jī)索要低維緊湊的 Motion 向量行動(dòng)動(dòng)態(tài)先驗(yàn),在一個(gè)調(diào)動(dòng)的「承接眾人」模塊中,同步完成將來(lái)視覺(jué)理解的瞻望與高精度動(dòng)作序列的生成。
比擬傳統(tǒng)的時(shí)空建圭臬式,HiF-VLA 澈底摒棄了不消的視覺(jué)布景攪擾,不僅在極長(zhǎng)的歷史不雅測(cè)窗口下依然保抓了恒定、極低的推理延長(zhǎng),更賦予了機(jī)器東談主竟然「邊想邊作念」的物理直觀。在 CALVIN 與 LIBERO-LONG 等長(zhǎng)程任務(wù)評(píng)測(cè)中,其生遵守顯赫卓越現(xiàn)存 SOTA 順次,為構(gòu)建竟然不竭寰宇啟動(dòng)軌則的 WAM(寰宇動(dòng)作模子)迷惑了全新旅途。
面前,該責(zé)任已被 CVPR 2026 羅致,代碼已開(kāi)源。
論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
01 盤問(wèn)動(dòng)機(jī):
從「動(dòng)作師法」到「不竭物理寰宇」

面前主流的 VLA(視覺(jué)-說(shuō)話-動(dòng)作)模子,實(shí)質(zhì)上大多是高等的「動(dòng)作師法」。它們羅致面前的圖像不雅測(cè),徑直映射出對(duì)應(yīng)的動(dòng)作。
這種范式在短視距任務(wù)中尚可交接,但在實(shí)踐長(zhǎng)程任務(wù)時(shí)卻屢屢翻車。為什么?因?yàn)槟W涌萁邔?duì)物理寰宇「動(dòng)態(tài)變化」的不竭。它們不知談我方剛才作念了什么,也無(wú)法預(yù)判面前動(dòng)作會(huì)對(duì)環(huán)境產(chǎn)生怎樣的影響,從而極易墮入因果污染。
要沖破這種「短視」魔咒,模子必須從單純的「動(dòng)作師法」走向「物理不竭」。這就條款咱們引入 World Action Model (WAM) 的宗旨——智能體不僅要會(huì)「作念」,還要能在腦海中「想」(推演環(huán)境的變化)。
如何賦予機(jī)器東談主「邊想邊作念」的時(shí)空推明智力?最直不雅的目的是把已往幀和將來(lái)幀的圖像統(tǒng)共塞進(jìn)大模子里。但推行是骨感的:圖像級(jí)別的時(shí)空建模不僅會(huì)導(dǎo)致算力爆炸,還會(huì)引入無(wú)數(shù)的靜態(tài)布景冗余,使得過(guò)錯(cuò)的物理變化被湮滅。HiF-VLA 團(tuán)隊(duì)找到了一個(gè)高效的切入點(diǎn):理解(Motion)。
02 核心有盤算:
HiF-VLA 的「三位一體」時(shí)空推理
比擬于冗余的像素,Motion 是捕捉物理寰宇動(dòng)態(tài)演變最地談、最高效、最實(shí)質(zhì)的表征。以 Motion 為中心,HiF-VLA 構(gòu)建了一個(gè)名為 Hindsight-Insight-Foresight (HiF) 的雙向時(shí)空推理框架。
1. Hindsight(后見(jiàn)之明):沖破馬爾可夫假定的「記念錨點(diǎn)」
智能體必須領(lǐng)有連貫的自我締結(jié)。HiF-VLA 將機(jī)器東談主已往的歷史幀通過(guò)視頻編解碼器(H.264、MPEG-4 等)索要為低維且緊湊的 Motion 動(dòng)態(tài)先驗(yàn)。這就像給機(jī)器東談主植入了一個(gè)記念核心,它不需要回看已往的攝像,就能精確感知到「環(huán)境剛剛閱歷了怎樣的理解變化」。這個(gè)歷史落魄文,是后續(xù)一切推理的基石。
2. Insight(瞻念察面前)和 Foresight(預(yù)知之明):走向 WAM 的「全知視角」
竟然的智能,既需要扎根當(dāng)下,更需要預(yù)判將來(lái)。在 HiF-VLA 框架中,這兩個(gè)智力被完滿解耦又縝密交匯,共同組成了邁向 WAM(寰宇動(dòng)作模子)的核心:
Insight(瞻念察面前):認(rèn)真深度解析面前的說(shuō)話提示和及時(shí)視覺(jué)不雅測(cè),讓機(jī)器東談主感知「我此時(shí)此刻瀕臨的是什么環(huán)境,需要完成什么具體標(biāo)的」。
Foresight(料想將來(lái)):基于當(dāng)下的 Insight,HiF-VLA 在輸挪動(dòng)作的同期,會(huì)初模式瞻望將來(lái)的理解趨勢(shì)。這至極于在模子里面鑲嵌了一個(gè)憑空物理模擬器,世界杯官方認(rèn)證平臺(tái)讓機(jī)器東談主大要提前推演自己的活動(dòng)后果。
3. 深度對(duì)王人:視覺(jué)與動(dòng)作的協(xié)同瞻望
這是 HiF-VLA 最為核心、也最出彩的調(diào)動(dòng)——?dú)v史調(diào)制的承接眾人(Hindsight-modulated joint expert)。淌若說(shuō) Hindsight 和 Foresight 拉長(zhǎng)了時(shí)間軸,那么承接眾人模塊則改變了模子的生成標(biāo)的。HiF-VLA 合計(jì),視覺(jué)與動(dòng)作的割裂是不容模子不竭物理軌則的絆腳石,因此想象的承接眾人模塊毫不是簡(jiǎn)便地將視覺(jué)特征和說(shuō)話提示拼接,而是實(shí)踐了一個(gè)雙標(biāo)的協(xié)同的戰(zhàn)略:
視覺(jué) Motion 瞻望 + 動(dòng)作序列生成:承接眾人在歷史信息(Hindsight)的動(dòng)態(tài)調(diào)制下,被強(qiáng)制條款同期輸出對(duì)將來(lái)視覺(jué) Motion 的瞻望以及高精度的實(shí)踐動(dòng)作序列。
為什么這很遑急?這種雙標(biāo)的的承接對(duì)王人,阻擋模子不可只死記硬背動(dòng)作,而是必須去不竭「我輸出這個(gè)動(dòng)作后,物理寰宇的視覺(jué)表征會(huì)發(fā)生怎樣的動(dòng)態(tài)變換」。
通過(guò)將「瞻望將來(lái)視覺(jué)變化(想)」與「籌謀動(dòng)作序列(作念)」深度綁定,HiF-VLA 好意思滿了竟然的 Think-while-acting(邊想邊作念)。它不再是盲目地師法眾人軌跡,而是產(chǎn)生了竟然的「物理直觀」。
03 實(shí)驗(yàn)死字
? Q1:HiF-VLA 與 SOTA 的 VLA 模子比擬較如何?
HiF-VLA 在種種化的短程和長(zhǎng)程任務(wù)中展現(xiàn)出了浩瀚的智力。


團(tuán)隊(duì)尤其關(guān)懷 HiF-VLA 在長(zhǎng)程任務(wù)上的進(jìn)展。在 LIBERO-LONG 任務(wù)套件以及 CALVIN ABC-D 長(zhǎng)程任務(wù)評(píng)測(cè)中,HiF-VLA 的進(jìn)展顯赫優(yōu)于諸多 SOTA 順次。同期,在竟然寰宇的長(zhǎng)程任務(wù)測(cè)試中,HiF-VLA 也展現(xiàn)出愈加領(lǐng)路且優(yōu)勝的任務(wù)完成性能(更多細(xì)心盤算請(qǐng)參閱原論文)。
? Q2:HiF-VLA 是否有用地緩解了傳統(tǒng)順次中的視覺(jué)冗余和低效問(wèn)題?

? 傳統(tǒng)作念法的窘境:當(dāng)簡(jiǎn)便惡毒地將歷史多幀圖像塞給模子時(shí),顯存一忽兒爆炸。峰值 GPU 顯存徑直翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延長(zhǎng)更是暴增到 229.5 ms(高達(dá) 3.15 倍)。更令東談主窒息的是,由于引入了海量冗余的靜態(tài)布景噪聲,模子反而被攪擾了視野,平均生遵守(Avg. SR)不升反降。
HiF-VLA 的處理有盤算:HiF-VLA 玄機(jī)地將歷史幀編碼為低維、結(jié)構(gòu)化的理解向量。引入 Hindsight 模塊后,模子面對(duì)不異長(zhǎng)度的歷史窗口,峰值顯存只是督察在 31.4 GB,相較于 Baseline 險(xiǎn)些作念到了「零背負(fù)」(僅增多極細(xì)微的 1.02 倍支撥)。同期,推理延長(zhǎng)(117.7 ms)也遠(yuǎn)低于傳統(tǒng)堆疊順次。最遑急的是,在剔除了視覺(jué)冗余后,它讓模子能專注不竭物理理解,生效將平均生遵守大幅擢升。
? Q3:跟著時(shí)間跨度的增多,HiF-VLA 在推理時(shí)的可推廣性如何?

終結(jié)指數(shù)級(jí)老本增長(zhǎng),沖破長(zhǎng)序列籌劃瓶頸。
從推理效果對(duì)比圖不錯(cuò)直不雅看出,跟著歷史時(shí)間跨度的增多,傳統(tǒng)堆疊圖像幀的順次會(huì)碰到指數(shù)級(jí)的籌劃延長(zhǎng)暴漲以至顯存溢出(OOM)。而 HiF-VLA 憑借索要低維緊湊的 Motion 特征,澈底沖破了長(zhǎng)序列推理的籌劃瓶頸,跟著歷史不雅測(cè)窗口變長(zhǎng),都?xì)v久保抓領(lǐng)路且極低的推理延長(zhǎng),展現(xiàn)出了在處理長(zhǎng)程動(dòng)態(tài)變換時(shí)浩瀚的時(shí)間可推廣性。
? Q4:HiF-VLA 所謂的「邊想邊作念」究竟是怎樣的經(jīng)由?

千聞不如一見(jiàn):motion 瞻望與 action 實(shí)踐的時(shí)空高度吻合。
從可視化死字中不錯(cuò)看到,HiF-VLA 在實(shí)踐動(dòng)作的并吞時(shí)刻,其里面承接眾人模塊也曾精確瞻望出了由紅色箭頭標(biāo)記的將來(lái)視覺(jué)體育場(chǎng)。這有勁地講解了模子并非在盲目背誦提示,而是竟然好意思滿了「邊想邊作念」。它能明晰地預(yù)判自己動(dòng)作將激勵(lì)環(huán)境中怎樣的物理動(dòng)態(tài)變換,從而在復(fù)雜任務(wù)中展現(xiàn)出精確的「物理直觀」。
04 講求
從機(jī)械的「動(dòng)作師法」進(jìn)化為不竭物理軌則的「寰宇動(dòng)作模子(WAM)」2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái),HiF-VLA 邁出了至關(guān)遑急的一步。它講解了機(jī)器東談主的動(dòng)作不應(yīng)只是對(duì)提示的盲目反應(yīng),而應(yīng)當(dāng)是在對(duì)已往的瞻念察與對(duì)將來(lái)的預(yù)判交匯下,當(dāng)可是然的物理反饋。關(guān)于具身智能走向更復(fù)雜、更竟然的物理寰宇,HiF-VLA 無(wú)疑提供了一個(gè)極具后勁和啟發(fā)性的全新范式。