【开云发布】-Qwen3

2026 15:24:35.01 15:24:35.14 15:24:35

开源堆栈：https://github.com/ziplab/CoVarXiv链接：https://arxiv.org/abs/2601.05172

亮点直击

CoV 框架：首创“视链提醒”（Chain-of-View, CoV），一个免练习、测试时（test-time）的具身问答智能体框架。自动视觉推理：将传统被动的视觉语言模子（VLM）改变为自动的视点搜刮者，使其可以或许像人类同样经由过程挪动视角来摸索情况。验证测试时扩大性（Test-Time Scaling）：经由过程增长推理时的“步履预算”（即答应模子多走几步、多看频频），可以连续晋升模子机能，而无需从头练习模子。显著的通用晋升：该要领是模子无关的（Model-Agnostic），于多个主流 VLM（如 GPT-4o, Gemini, Qwen）上均取患了显著的机能晋升。

从宇树呆板人登上春晚舞台，到首届“世界人形呆板人运动会”火遍全世界，“具身智能”堪称是本年AI范畴最出圈的要害词之一。人工智能正大肆从数字范畴迈向物理实际，于这一配景下，具身问答使命（EQA）显患上愈发主要。EQA使命的焦点挑战于在，智能体必需像人类同样，于繁杂的物理空间中定位要害信息，并天生正确谜底。

传统要领往往依靠有限且视角固定的图象输入，这使患上VLM难以获取充足多与问题相干的视觉线索。于繁杂的具身问答场景中，谜底并不是一目明了，年夜大都问题都需要颠末多步推理才能解决。

例如，面临“哪里可以找到汽水？”如许的问题，场景中可能并未直接呈现汽水。智能体不仅需要挪用“汽水凡是存放于冰箱里”这种知识常识，还有需自立计划路径，于情况中征采冰箱等联系关系物体。这种问题的解答，依靠VLM于充实、相干的上下文信息中举行持续推理，而没法经由过程单次的天生步调来完成。

研究职员提出了一种多步推理的具身问答智能体框架：Chain of View(CoV），旨于实现从被动不雅察到迭代式自立摸索的改变。运用CoV框架后，模子总体机能于最新的EQA基准测试上平均晋升了10.82%。此中，Qwen3-VL-Flash模子晋升到达了13.62%。

粗粒度筛选，快速确定视角锚点

CoV的总体流程包罗两个阶段：粗粒度视角筛选（Coarse-grained View Selection）与细粒度视角调解（Fine-grained View Adjustment）。

于现实场景中，智能体获取的视觉输入凡是来历在一段持续的视频片断。这些原始帧往往包罗年夜量冗余信息。对于在任何一个详细问题，凡是只有少数几帧图象与其相干。而过量的无关视觉信息，反而会滋扰模子的判定。

为此，CoV引入了视角粗选智能体，其焦点使命是从原始可用的视角中，自动筛选出与当前问题最相干的要害视角，从而为后续的推理步调提供与问题强相干的视角基础。

细粒度调解，切确锁定问题相干视角

以往的要领凡是将智能体置在被动，它只能从一组预先给定的、有限的固定图象中寻觅谜底。这类“一步天生”的模式，抛却了进一步征采相干情况细节的可能性，也是以限定了模子举行深度、多步思索的能力。

受思维链（CoT）开导，研究职员提出细粒度的视角调解机制。该要领能为模子动态增补与问题相干的情况信息，让智能体于连续的不雅察与思索中慢慢迫近谜底。对于粗粒度视角筛选阶段获得的视觉锚点，VLM会计划并履行一系列视角调解动作，包括平移、扭转以和于差别视角间切换三类操作。

这一系列视角调解使患上智能体可以或许自动地、有目的地调解其不雅察位置与朝向，从而获取对于解答问题至关主要的情况细节，晋升EQA体现。当智能体认为已经经获取到充足的信息回覆问题时，住手视角调解，并基在精心构建的视觉上下文给出终极谜底。

刷新EQA基准测试

研究职员于包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试长进行了年夜量试验。于反应天生文本与人类回覆相似度的CIDEr指标上，CoV患上分到达116；于ScanQA数据集上的初次回覆正确率（EM@1）也到达31.9%。运用CoV框架后，VLM总体机能于OpenEQA测试基准上平均晋升了10.82%。

强盛的Test-time Scaling机能

研究职员还有发明，智能体自立步履步数越多，获取的信息越多，EQA使命的体现也会出现上升趋向。于不限定步履步数的环境下，绝年夜大都问题所触及的步履步数偏少，集中于1到3步。跟着动作步数的增长，模子于响应问题上的患上分出现出较着的上升趋向。

经由过程于提醒词中限定VLM的最小步履步数，与仅答应单步步履的设置比拟，晋升动作步数上限后VLM机能平均提高了2.51%。这一成果注解，多步推理能有用加强智能体于具身问答使命中的体现。CoV无需分外练习，仅经由过程增长步履步数便可实现机能增益，揭示出显著的“无需练习，测试扩大”潜力。

总的来说，CoV是一个多步推理具身问答Agent框架，能答应VLM自立获取更多及问题相干的视角。这项事情有用晋升了VLM于EQA使命上的体现，而且具有test-time scaling的潜力，为通向于繁杂空间中步履、顺应并摸索的具身智能体系，提供了新的可能性。

本文转自AI天生将来，作者：AI天生将来

原文链接:https://mp.weixin.qq.com/s/gNos4QjcsFxn2_FxlNYtvg

-本文由开云·Kaiyun(中国)官方网站-科技股份有限公司-www.kaiyun.com（kaiyun.com）技术部原创提供，更多官方资讯请认准本站（dysp777.com）。

返回列表