2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái) HiF-VLA: 以motion為中心打造「邊想邊作念」的寰宇動(dòng)作模子

發(fā)布日期：2026-05-25 13:34 來(lái)源：未知作者：admin 瀏覽次數(shù)：

本文第一作家為西湖大學(xué)科研助理藺聰明，通信作家為阿里巴巴達(dá)摩院算法眾人黃想騰和西湖大學(xué)東談主工智能系副主任王東林。通盤作家均來(lái)自西湖大學(xué)機(jī)器智能實(shí)驗(yàn)室（MiLAB）和西湖機(jī)器東談主科技有限公司，團(tuán)隊(duì)責(zé)任 ReconVLA 近期得到 AAAI 2026 最好論文獎(jiǎng)。

具身智能要想真著實(shí)復(fù)雜場(chǎng)景中落地，離不開(kāi)對(duì)長(zhǎng)程任務(wù)（Long-horizon tasks）的領(lǐng)路實(shí)踐。可是，現(xiàn)存的 VLA（視覺(jué)-說(shuō)話-動(dòng)作）模子大多停留在「動(dòng)作師法」階段，枯竭對(duì)物理寰宇動(dòng)態(tài)變換的深入不竭，在長(zhǎng)線操作中極易墮入因果污染；同期，傳統(tǒng)通過(guò)徑直堆疊多幀圖像來(lái)引入時(shí)間維度的順次，不僅容易引入無(wú)數(shù)靜態(tài)布景冗余，更會(huì)帶來(lái)厄運(yùn)性的推理延長(zhǎng)與顯存溢出。

為處理上述挑戰(zhàn)，來(lái)自西湖大學(xué)、浙江大學(xué)、西湖機(jī)器東談主等機(jī)構(gòu)的盤問(wèn)團(tuán)隊(duì)建議了一種以理解（Motion）為中心的全新雙向時(shí)空推理框架 HiF-VLA。廢棄冗余的像素級(jí)輸入，HiF-VLA 玄機(jī)索要低維緊湊的 Motion 向量行動(dòng)動(dòng)態(tài)先驗(yàn)，在一個(gè)調(diào)動(dòng)的「承接眾人」模塊中，同步完成將來(lái)視覺(jué)理解的瞻望與高精度動(dòng)作序列的生成。

比擬傳統(tǒng)的時(shí)空建圭臬式，HiF-VLA 澈底摒棄了不消的視覺(jué)布景攪擾，不僅在極長(zhǎng)的歷史不雅測(cè)窗口下依然保抓了恒定、極低的推理延長(zhǎng)，更賦予了機(jī)器東談主竟然「邊想邊作念」的物理直觀。在 CALVIN 與 LIBERO-LONG 等長(zhǎng)程任務(wù)評(píng)測(cè)中，其生遵守顯赫卓越現(xiàn)存 SOTA 順次，為構(gòu)建竟然不竭寰宇啟動(dòng)軌則的 WAM（寰宇動(dòng)作模子）迷惑了全新旅途。

面前，該責(zé)任已被 CVPR 2026 羅致，代碼已開(kāi)源。

論文地址：HiF-VLA: Hindsight， Insight and Foresight through Motion Representation for Vision-Language-Action Models

01 盤問(wèn)動(dòng)機(jī)：

從「動(dòng)作師法」到「不竭物理寰宇」

面前主流的 VLA（視覺(jué)-說(shuō)話-動(dòng)作）模子，實(shí)質(zhì)上大多是高等的「動(dòng)作師法」。它們羅致面前的圖像不雅測(cè)，徑直映射出對(duì)應(yīng)的動(dòng)作。

這種范式在短視距任務(wù)中尚可交接，但在實(shí)踐長(zhǎng)程任務(wù)時(shí)卻屢屢翻車。為什么？因?yàn)槟Ｗ涌萁邔?duì)物理寰宇「動(dòng)態(tài)變化」的不竭。它們不知談我方剛才作念了什么，也無(wú)法預(yù)判面前動(dòng)作會(huì)對(duì)環(huán)境產(chǎn)生怎樣的影響，從而極易墮入因果污染。

要沖破這種「短視」魔咒，模子必須從單純的「動(dòng)作師法」走向「物理不竭」。這就條款咱們引入 World Action Model (WAM) 的宗旨——智能體不僅要會(huì)「作念」，還要能在腦海中「想」（推演環(huán)境的變化）。

如何賦予機(jī)器東談主「邊想邊作念」的時(shí)空推明智力？最直不雅的目的是把已往幀和將來(lái)幀的圖像統(tǒng)共塞進(jìn)大模子里。但推行是骨感的：圖像級(jí)別的時(shí)空建模不僅會(huì)導(dǎo)致算力爆炸，還會(huì)引入無(wú)數(shù)的靜態(tài)布景冗余，使得過(guò)錯(cuò)的物理變化被湮滅。HiF-VLA 團(tuán)隊(duì)找到了一個(gè)高效的切入點(diǎn)：理解（Motion）。

02 核心有盤算：

HiF-VLA 的「三位一體」時(shí)空推理

比擬于冗余的像素，Motion 是捕捉物理寰宇動(dòng)態(tài)演變最地談、最高效、最實(shí)質(zhì)的表征。以 Motion 為中心，HiF-VLA 構(gòu)建了一個(gè)名為 Hindsight-Insight-Foresight (HiF) 的雙向時(shí)空推理框架。

1. Hindsight（后見(jiàn)之明）：沖破馬爾可夫假定的「記念錨點(diǎn)」

智能體必須領(lǐng)有連貫的自我締結(jié)。HiF-VLA 將機(jī)器東談主已往的歷史幀通過(guò)視頻編解碼器（H.264、MPEG-4 等）索要為低維且緊湊的 Motion 動(dòng)態(tài)先驗(yàn)。這就像給機(jī)器東談主植入了一個(gè)記念核心，它不需要回看已往的攝像，就能精確感知到「環(huán)境剛剛閱歷了怎樣的理解變化」。這個(gè)歷史落魄文，是后續(xù)一切推理的基石。

2. Insight（瞻念察面前）和 Foresight（預(yù)知之明）：走向 WAM 的「全知視角」

竟然的智能，既需要扎根當(dāng)下，更需要預(yù)判將來(lái)。在 HiF-VLA 框架中，這兩個(gè)智力被完滿解耦又縝密交匯，共同組成了邁向 WAM（寰宇動(dòng)作模子）的核心：

Insight（瞻念察面前）：認(rèn)真深度解析面前的說(shuō)話提示和及時(shí)視覺(jué)不雅測(cè)，讓機(jī)器東談主感知「我此時(shí)此刻瀕臨的是什么環(huán)境，需要完成什么具體標(biāo)的」。

Foresight（料想將來(lái)）：基于當(dāng)下的 Insight，HiF-VLA 在輸挪動(dòng)作的同期，會(huì)初模式瞻望將來(lái)的理解趨勢(shì)。這至極于在模子里面鑲嵌了一個(gè)憑空物理模擬器，世界杯官方認(rèn)證平臺(tái)讓機(jī)器東談主大要提前推演自己的活動(dòng)后果。

3. 深度對(duì)王人：視覺(jué)與動(dòng)作的協(xié)同瞻望

這是 HiF-VLA 最為核心、也最出彩的調(diào)動(dòng)——?dú)v史調(diào)制的承接眾人（Hindsight-modulated joint expert）。淌若說(shuō) Hindsight 和 Foresight 拉長(zhǎng)了時(shí)間軸，那么承接眾人模塊則改變了模子的生成標(biāo)的。HiF-VLA 合計(jì)，視覺(jué)與動(dòng)作的割裂是不容模子不竭物理軌則的絆腳石，因此想象的承接眾人模塊毫不是簡(jiǎn)便地將視覺(jué)特征和說(shuō)話提示拼接，而是實(shí)踐了一個(gè)雙標(biāo)的協(xié)同的戰(zhàn)略：

視覺(jué) Motion 瞻望 + 動(dòng)作序列生成：承接眾人在歷史信息（Hindsight）的動(dòng)態(tài)調(diào)制下，被強(qiáng)制條款同期輸出對(duì)將來(lái)視覺(jué) Motion 的瞻望以及高精度的實(shí)踐動(dòng)作序列。

為什么這很遑急？這種雙標(biāo)的的承接對(duì)王人，阻擋模子不可只死記硬背動(dòng)作，而是必須去不竭「我輸出這個(gè)動(dòng)作后，物理寰宇的視覺(jué)表征會(huì)發(fā)生怎樣的動(dòng)態(tài)變換」。

通過(guò)將「瞻望將來(lái)視覺(jué)變化（想）」與「籌謀動(dòng)作序列（作念）」深度綁定，HiF-VLA 好意思滿了竟然的 Think-while-acting（邊想邊作念）。它不再是盲目地師法眾人軌跡，而是產(chǎn)生了竟然的「物理直觀」。

03 實(shí)驗(yàn)死字

? Q1：HiF-VLA 與 SOTA 的 VLA 模子比擬較如何？

HiF-VLA 在種種化的短程和長(zhǎng)程任務(wù)中展現(xiàn)出了浩瀚的智力。

團(tuán)隊(duì)尤其關(guān)懷 HiF-VLA 在長(zhǎng)程任務(wù)上的進(jìn)展。在 LIBERO-LONG 任務(wù)套件以及 CALVIN ABC-D 長(zhǎng)程任務(wù)評(píng)測(cè)中，HiF-VLA 的進(jìn)展顯赫優(yōu)于諸多 SOTA 順次。同期，在竟然寰宇的長(zhǎng)程任務(wù)測(cè)試中，HiF-VLA 也展現(xiàn)出愈加領(lǐng)路且優(yōu)勝的任務(wù)完成性能（更多細(xì)心盤算請(qǐng)參閱原論文）。

? Q2：HiF-VLA 是否有用地緩解了傳統(tǒng)順次中的視覺(jué)冗余和低效問(wèn)題？

? 傳統(tǒng)作念法的窘境：當(dāng)簡(jiǎn)便惡毒地將歷史多幀圖像塞給模子時(shí)，顯存一忽兒爆炸。峰值 GPU 顯存徑直翻倍飆升至 63.6 GB（漲幅 2.06 倍），推理延長(zhǎng)更是暴增到 229.5 ms（高達(dá) 3.15 倍）。更令東談主窒息的是，由于引入了海量冗余的靜態(tài)布景噪聲，模子反而被攪擾了視野，平均生遵守（Avg. SR）不升反降。

HiF-VLA 的處理有盤算：HiF-VLA 玄機(jī)地將歷史幀編碼為低維、結(jié)構(gòu)化的理解向量。引入 Hindsight 模塊后，模子面對(duì)不異長(zhǎng)度的歷史窗口，峰值顯存只是督察在 31.4 GB，相較于 Baseline 險(xiǎn)些作念到了「零背負(fù)」（僅增多極細(xì)微的 1.02 倍支撥）。同期，推理延長(zhǎng)（117.7 ms）也遠(yuǎn)低于傳統(tǒng)堆疊順次。最遑急的是，在剔除了視覺(jué)冗余后，它讓模子能專注不竭物理理解，生效將平均生遵守大幅擢升。

? Q3：跟著時(shí)間跨度的增多，HiF-VLA 在推理時(shí)的可推廣性如何？

終結(jié)指數(shù)級(jí)老本增長(zhǎng)，沖破長(zhǎng)序列籌劃瓶頸。

從推理效果對(duì)比圖不錯(cuò)直不雅看出，跟著歷史時(shí)間跨度的增多，傳統(tǒng)堆疊圖像幀的順次會(huì)碰到指數(shù)級(jí)的籌劃延長(zhǎng)暴漲以至顯存溢出（OOM）。而 HiF-VLA 憑借索要低維緊湊的 Motion 特征，澈底沖破了長(zhǎng)序列推理的籌劃瓶頸，跟著歷史不雅測(cè)窗口變長(zhǎng)，都?xì)v久保抓領(lǐng)路且極低的推理延長(zhǎng)，展現(xiàn)出了在處理長(zhǎng)程動(dòng)態(tài)變換時(shí)浩瀚的時(shí)間可推廣性。

? Q4：HiF-VLA 所謂的「邊想邊作念」究竟是怎樣的經(jīng)由？

滾球app中國(guó)官網(wǎng)下載入口

千聞不如一見(jiàn)：motion 瞻望與 action 實(shí)踐的時(shí)空高度吻合。

從可視化死字中不錯(cuò)看到，HiF-VLA 在實(shí)踐動(dòng)作的并吞時(shí)刻，其里面承接眾人模塊也曾精確瞻望出了由紅色箭頭標(biāo)記的將來(lái)視覺(jué)體育場(chǎng)。這有勁地講解了模子并非在盲目背誦提示，而是竟然好意思滿了「邊想邊作念」。它能明晰地預(yù)判自己動(dòng)作將激勵(lì)環(huán)境中怎樣的物理動(dòng)態(tài)變換，從而在復(fù)雜任務(wù)中展現(xiàn)出精確的「物理直觀」。

04 講求

從機(jī)械的「動(dòng)作師法」進(jìn)化為不竭物理軌則的「寰宇動(dòng)作模子（WAM）」2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái)，HiF-VLA 邁出了至關(guān)遑急的一步。它講解了機(jī)器東談主的動(dòng)作不應(yīng)只是對(duì)提示的盲目反應(yīng)，而應(yīng)當(dāng)是在對(duì)已往的瞻念察與對(duì)將來(lái)的預(yù)判交匯下，當(dāng)可是然的物理反饋。關(guān)于具身智能走向更復(fù)雜、更竟然的物理寰宇，HiF-VLA 無(wú)疑提供了一個(gè)極具后勁和啟發(fā)性的全新范式。

上一篇：上一篇：世界杯官方認(rèn)證平臺(tái) 外媒：魯比奧抵達(dá)印度，開(kāi)啟初度訪印之行

下一篇：下一篇：2026世界杯(中國(guó)) 這些硬核科技為神舟二十三號(hào)“添磚加瓦”

国产精品剧情一区-国产精品可站18-国产精品狼友-国产精品乱-国产精品乱伦-国产精品乱伦视频-国产精品乱伦一区-国产精品乱码

2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái)

世界杯積分榜

2026世界杯官方指定中國(guó)區(qū)認(rèn)證平臺(tái) HiF-VLA: 以motion為中心打造「邊想邊作念」的寰宇動(dòng)作模子