
开源堆栈:https://github.com/ziplab/CoVarXiv链接:https://arxiv.org/abs/2601.05172
亮点直击
CoV 框架:首创“视链提醒”(Chain-of-View, CoV),一个免练习、测试时(test-time)的具身问答智能体框架。自动视觉推理:将传统被动的视觉语言模子(VLM)改变为自动的视点搜刮者,使其可以或许像人类同样经由过程挪动视角来摸索情况。验证测试时扩大性(Test-Time Scaling):经由过程增长推理时的“步履预算”(即答应模子多走几步、多看频频),可以连续晋升模子机能,而无需从头练习模子。显著的通用晋升:该要领是模子无关的(Model-Agnostic),于多个主流 VLM(如 GPT-4o, Gemini, Qwen)上均取患了显著的机能晋升。从宇树呆板人登上春晚舞台,到首届“世界人形呆板人运动会”火遍全世界,“具身智能”堪称是本年AI范畴最出圈的要害词之一。人工智能正大肆从数字范畴迈向物理实际,于这一配景下,具身问答使命(EQA)显患上愈发主要。EQA使命的焦点挑战于在,智能体必需像人类同样,于繁杂的物理空间中定位要害信息,并天生正确谜底。
传统要领往往依靠有限且视角固定的图象输入,这使患上VLM难以获取充足多与问题相干的视觉线索。于繁杂的具身问答场景中,谜底并不是一目明了,年夜大都问题都需要颠末多步推理才能解决。
例如,面临“哪里可以找到汽水?”如许的问题,场景中可能并未直接呈现汽水。智能体不仅需要挪用“汽水凡是存放于冰箱里”这种知识常识,还有需自立计划路径,于情况中征采冰箱等联系关系物体。这种问题的解答,依靠VLM于充实、相干的上下文信息中举行持续推理,而没法经由过程单次的天生步调来完成。
研究职员提出了一种多步推理的具身问答智能体框架:Chain of View(CoV),旨于实现从被动不雅察到迭代式自立摸索的改变。运用CoV框架后,模子总体机能于最新的EQA基准测试上平均晋升了10.82%。此中,Qwen3-VL-Flash模子晋升到达了13.62%。

CoV的总体流程包罗两个阶段:粗粒度视角筛选(Coarse-grained View Selection)与细粒度视角调解(Fine-grained View Adjustment)。
于现实场景中,智能体获取的视觉输入凡是来历在一段持续的视频片断。这些原始帧往往包罗年夜量冗余信息。对于在任何一个详细问题,凡是只有少数几帧图象与其相干。而过量的无关视觉信息,反而会滋扰模子的判定。
为此,CoV引入了视角粗选智能体,其焦点使命是从原始可用的视角中,自动筛选出与当前问题最相干的要害视角,从而为后续的推理步调提供与问题强相干的视角基础。
细粒度调解,切确锁定问题相干视角以往的要领凡是将智能体置在被动,它只能从一组预先给定的、有限的固定图象中寻觅谜底。这类“一步天生”的模式,抛却了进一步征采相干情况细节的可能性,也是以限定了模子举行深度、多步思索的能力。
受思维链(CoT)开导,研究职员提出细粒度的视角调解机制。该要领能为模子动态增补与问题相干的情况信息,让智能体于连续的不雅察与思索中慢慢迫近谜底。对于粗粒度视角筛选阶段获得的视觉锚点,VLM会计划并履行一系列视角调解动作,包括平移、扭转以和于差别视角间切换三类操作。
这一系列视角调解使患上智能体可以或许自动地、有目的地调解其不雅察位置与朝向,从而获取对于解答问题至关主要的情况细节,晋升EQA体现。 当智能体认为已经经获取到充足的信息回覆问题时,住手视角调解,并基在精心构建的视觉上下文给出终极谜底。

研究职员于包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试长进行了年夜量试验。于反应天生文本与人类回覆相似度的CIDEr指标上,CoV患上分到达116;于ScanQA数据集上的初次回覆正确率(EM@1)也到达31.9%。运用CoV框架后,VLM总体机能于OpenEQA测试基准上平均晋升了10.82%。




研究职员还有发明,智能体自立步履步数越多,获取的信息越多,EQA使命的体现也会出现上升趋向。于不限定步履步数的环境下,绝年夜大都问题所触及的步履步数偏少,集中于1到3步。跟着动作步数的增长,模子于响应问题上的患上分出现出较着的上升趋向。
经由过程于提醒词中限定VLM的最小步履步数,与仅答应单步步履的设置比拟,晋升动作步数上限后VLM机能平均提高了2.51%。这一成果注解,多步推理能有用加强智能体于具身问答使命中的体现。CoV无需分外练习,仅经由过程增长步履步数便可实现机能增益,揭示出显著的“无需练习,测试扩大”潜力。
总的来说,CoV是一个多步推理具身问答Agent框架,能答应VLM自立获取更多及问题相干的视角。这项事情有用晋升了VLM于EQA使命上的体现,而且具有test-time scaling的潜力,为通向于繁杂空间中步履、顺应并摸索的具身智能体系,提供了新的可能性。
本文转自AI天生将来 ,作者:AI天生将来
原文链接:https://mp.weixin.qq.com/s/gNos4QjcsFxn2_FxlNYtvg
-本文由开云·Kaiyun(中国)官方网站-科技股份有限公司-www.kaiyun.com(kaiyun.com)技术部原创提供,更多官方资讯请认准本站(dysp777.com)。