于 AI 辅助编程范畴,恒久以来存于一个焦点博弈:是寻求更强、上下文更长的基座模子(Backbone Model),还有是构建更周详的外部工程架构(Scaffold)?
近日,Meta 与 Harvard 的研究职员结合开源了Confucius Code Agent (CCA),给出了一个使人寻思的谜底。这是一个基在Confucius SDK构建的开源 AI 软件工程师,专为处置惩罚工业级范围的软件堆栈及长周期会话而设计。
本文将基在 arXiv 最新论文(Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases),深度解析 CCA 怎样经由过程层级事情影象、长期化条记以和元朝理设计,于 SWE-Bench Pro 等硬核基准测试中,让中等体量的模子体现逾越了顶配模子。

论文地址:https://arxiv.org/pdf/2512.10398
1. 焦点理念:脚手架(Scaffold)即本体Confucius SDK 的设计哲学并没有将脚手架视为年夜语言模子(LLM)的一层薄薄包装,而是将其视为首要的设计问题。研究团队认为,认真正的立异从模子自己转移到代办署理脚手架及东西栈时,中等范围模子的潜力将被极年夜地开释。
该 SDK 缭绕三个维度举行架构:
Agent Experience (代办署理体验):节制模子“看”到了甚么,包括上下文结构、事情影象及东西履行成果。User Experience(用户体验):存眷人类工程师的可读性,如履行轨迹、代码 Diff 及安全防护。Developer Experience(开发者体验):偏重在代办署理自己的可不雅测性、配置与调试。CCA 恰是这一架构的详细实例化,它经由过程一种被称为“元朝理”(Meta Agent)的机制,经由过程构建、测试、改良的轮回,主动化地合成及优化代办署理配置。
2. 霸占长窗口难题:层级事情影象于 SWE-Bench Pro 的真实测试中,解决一个繁杂的 issue 往往需要推理数十个文件并举行多轮交互。传统的“滑动窗口”机制(只保留近来的 N 条动静)于面临这类长视距(Long Horizon)使命时显患上捉襟见肘——要末丢掉要害上下文,要末迅速爆失 Token 限定。

Confucius SDK 引入了层级事情影象 (Hierarchical Working Memory)机制:
轨迹分区:它将交互轨迹划分为差别的作用域(Scopes)。压缩与择要:它不仅记载流水账,还有会对于已往的步调举行择要,并为后续轮次保留压缩后的上下文。
这类设计确保了代办署理于连结 Token 用量于模子限定规模内的同时,依然能“记住”要害的补钉(Patches)、过错日记及设计决议计划。这证实了高效的编码代办署理需要显式的内存架构,而不单单依靠模子自身的上下文窗口。
3. 像人类同样发展:跨会话的长期化条记CCA 的另外一年夜冲破于在其长期化条记体系 (Persistent Note Taking)。
于人类工程师的发展路径中,经验堆集至关主要。CCA 利用一个专门的代办署理,将履行轨迹转化为布局化的 Markdown 条记。这些条记捕获了特定使命的计谋、代码堆栈的商定俗成(Repository Conventions)以和常见的掉败模式。
数据验证效果:研究团队于 151 个 SWE-Bench Pro 实例长进行了对于比测试(利用 Claude 4.5 Sonnet):
第一轮(无条记):代办署理从零最先解决使命并天生条记。第二轮(有条记):代办署理读取第一轮天生的条记。成果显示,于引入条记机制后:
平均交互轮次从 64 降至61。Token 利用量从约 104k 降至93k。一次经由过程率 (Resolve@1) 从 53.0% 晋升至54.4%。这注解条记不单单是日记,它们真正充任了有用的“跨会话影象”,让 AI 具有了进修及进化的能力。
4. 机能实测:脚手架优在模子尺寸于 SWE-Bench Pro(包罗 731 个需要修改真实 GitHub 堆栈并经由过程测试的 issue)的评估中,Confucius Code Agent 揭示了惊人的“下克上”能力。
下表展示了差别架构与模子组合的 Resolve@1 患上分:
模子 (Model)
架构 (Scaffold)
Resolve@1
Claude 4 Sonnet
SWE Agent
42.7
Claude 4 Sonnet
Confucius Code Agent
45.5
Claude 4.5 Sonnet
SWE Agent
43.6
Claude 4.5 Sonnet
Live SWE Agent
45.8
Claude 4.5 Sonnet
Confucius Code Agent
52.7
Claude 4.5 Opus
Anthropic System Card Scaffold
52.0
Claude 4.5 Opus
Confucius Code Agent
54.3
要害洞察:利用 Confucius Code Agent 脚手架的Claude 4.5 Sonnet(中杯模子)患上分为52.7,击败了利用平凡脚手架的Claude 4.5 Opus(超年夜杯模子,患上分 52.0)。
这一数占有力地证实了本文的焦点论点:一个强盛的工程脚手架(Strong Scaffold)对于终极效果的孝敬,可以抵消甚至逾越模子参数范围带来的上风。
此外,于多文件编纂的不变性上,CCA 也体现精彩。数据显示,纵然需要编纂的文件数目跨越 10 个,其 Resolve@1 依然连结于 44.4 的高位,证实了其于年夜型代码库中的鲁棒性。
5. 东西繁杂度的影响除了了影象机制,东西的利用计谋(Tool Use Sophistication)也是要害变量。研究团队于 SWE-Bench Pro 的 100 个子集长进行了溶解试验。
于利用 Claude 4.5 Sonnet 的环境下:
简朴的东西配置:Resolve@1 为 44.0。富厚的高级东西处置惩罚:Resolve@1 飙升至51.6。这申明,代办署理怎样选择东西、怎样对于东西挪用举行排序,以和怎样从东西报错中恢复,其主要性险些等同在基座模子的选择。

Confucius Code Agent 的发布标记着 AI 软件工程的一个迁移转变点。它告诉咱们,纯真依靠基座模子能力的晋升(Scaling Laws)其实不是解决繁杂工程问题的独一路径。
经由过程层级事情影象解决上下文限定,经由过程长期化条记实现经验复用,再共同元朝理举行主动化调优,Confucius SDK 展示了一条更为落地的工程化路径。对于在开发者而言,这象征着将来的 AI 编程助手将再也不是一个只会补全代码的“插件”,而是一个真正可以或许理解项目架构、具有持久影象并能自我进化的“数字同事”。
本文转载自Halo咯咯 作者:基咯咯
©著作权归作者所有,如需转载,请注明来由,不然将究查法令责任-本文由开云·Kaiyun(中国)官方网站-科技股份有限公司-www.kaiyun.com(kaiyun.com)技术部原创提供,更多官方资讯请认准本站(dysp777.com)。