你的位置:开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 > 新闻资讯 > 开云体育模拟调用电影数据库的REST立场API接口-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

开云体育模拟调用电影数据库的REST立场API接口-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

时间:2026-06-15 11:05 点击:74 次

开云体育模拟调用电影数据库的REST立场API接口-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

开云体育

这项由北京航空航天大学翌日区块链与秘籍野心高精尖更始中心东谈主工智能学院与清华大学连合开展的接洽,于2026年6月1日以预印本神色发布,编号为arXiv:2606.01779,接洽效用被定名为HarnessForge框架。有深嗜潜入了解的读者不错通过该编号在arXiv平台查阅完好论文。

**一个让AI干活的费劲**

假定你雇了一位助手,你给他一册操作手册(告诉他该按照什么方法使命),然后让他去完成各式任务。问题来了:当任务越来越复杂、越来越各种时,手册里的方法可能根柢跟不上需要,而助抄自己的能力也偶而能统统实行手册里要求的那些复杂操作。更灾祸的是,手册和助手之间可能存在"代沟"——手册写得很好,但助手根柢没办法照着作念;或者助手很机灵,但手册太大概,导致他阐述不出来。

这恰是咫尺AI助手(也等于"大言语模子智能体",通俗颐养成能实行复杂任务的AI圭表)濒临的中枢逆境。北航和清华的接洽团队发现,以往的方法要么只更正"手册"(专科上叫"外部实行框架"或"harness"),要么只素养"助手"(专科上叫"战略"或"policy"),从莫得东谈主发扬斟酌过把这两者**一齐**进化——让手册和助手相互磨合、相互顺应。HarnessForge等于为了处理这个问题而生的。

**一、AI助手为什么老是"换个场景就不可了"**

回到阿谁雇员的譬如。当你的助手只需要在一家公司作念固定使命时,一册写好的操作手册就够了。但当代AI助手面对的挑战远不啻于此——它既要搜索网页查府上,又要调用各式器用和API接口,还要记着高下文、观点复杂任务、与多个系统交互。每换一个场景,对"手册"的形式要求就统统不同。

接洽团队把这种逆境玄虚为三种典型失败模式。第一种是"动作证据书写错了",也等于手册规矩的器用调用形式和方法根分内歧,AI按照手册操作只会束缚出错。第二种是"任务拆解方式分歧",手册莫得教AI如何把一个复杂问题拆成不错冉冉处理的小问题,导致AI在面对多方法任务时安坐待毙。第三种是"记念没被正确运用",手册莫得告诉AI什么时候该记着什么、该回忆什么,导致AI在实行过程中渐忘了谬误信息。

以往的处理决策就像在修一辆车时,有东谈主格外负责换引擎,有东谈主格外负责调标的盘,但从来莫得东谈主把整台车放在一齐统筹斟酌——引擎换了,标的盘如旧友的,两者不配套,跑起来照样出问题。

**二、HarnessForge的中枢念念路:让手册和助手一齐进化**

HarnessForge的中枢洞悉相当径直:与其区分优化手册或助手,不如把"手册+助手"这个组合算作一个举座来优化。接洽团队把这个组合持重界说为一个"智能体系统",用公式抒发等于:智能体系统 = (实行手册,推理助手)。

实行手册由三个部分构成。第一部分是"经营模块",负职守务观点、再行经营和何时罢手;第二部分是"动作模块",负责器用调用的形式范例、扮装分拨和配合国法;第三部分是"记念模块",负责什么信息该被存储、什么时候该被调取、如何被整理后呈现给AI。推理助手则是在手册界说的框架内履行实行推理的AI模子,它有一个不错微调的"适配器",不错在不改变基础模子的情况放学习生手段。

悉数这个词HarnessForge框架分红多轮进化,每一轮皆像是给这对"搭档"进行一次深度磨合素养。具体来说,每轮进化包含两个相互促进的阶段:先更正手册,再让助手顺应更正后的手册。两者束缚螺旋高潮,直到这对搭档越来越认知。

**三、"故障诊断+档案参考":手册是若何被更正的**

手册的更正过程有点像病院的诊断轨制。当AI在实行任务时出了问题,HarnessForge不会迁延地说"这个AI出错了",而是会仔细分析:到底是手册的哪个部分导致了失败?是经营模块莫得正确分撤职务?是动作模块的器用调用形式出了问题?如故记念模块莫得实时提供谬误信息?

这个诊断使命由一个格外的"元智能体"(不错颐养成一个格外负责分析和更正的高档AI,本接洽中使用的是GPT-5.5)来完成。元智能体会同期稽查现时手册的瞎想、失败轨迹的具体过程以及举座显露数据,然后输出一份详备的"故障阐发",明确指出是经营、动作如故记念出了问题。

诊断完成后,系统并不会从零开动再行写一册手册,而是会先查阅一个"历史档案库"。这个档案库存储了之前悉数版块的手册偏激显露数据。元智能体会从中找出那些在近似故障情况下显露精良的历史手册,提真金不怕火出可复用的更正标的,变成一份"更正建议书"。

有了更正建议书,系统才开动生成新版块的手册候选决策。每一轮会生成8个候选手册,然后通过一个"半淘汰赛"机制冉冉筛选:先用200个任务测试,淘汰一半;再用200个任务测试,再淘汰一半,最终留住2个最优手册干预下一阶段。这种分阶段筛选的自制是省俭野心资源,不需要把悉数候选手册皆在全量数据上跑一遍。

筛选圭表并不单看任务完成率,而是同期斟酌三个维度:任务完成质料、糜掷的token数目(很是于AI的"念念考本钱")以及反应蔓延。这种多方针衡量的方式,保证了最终留住来的手册不仅仅"能完成任务",还要"高效地完成任务"。

**四、"量身定制的素养":助手是若何顺应生手册的**

手册升级之后,老助手可能一时半会儿顺应不了新的操作过程。这就好比公司换了一套全新的使命范例,老职工还在用旧民俗干活——手册再好,实行起来也会打扣头。HarnessForge的处理决策是为每一册手册格外素养一个配套的"适配器"。

这里的"适配器"是一种轻量级的微调时候(学名叫LoRA,低秩自顺应),不错在不调动基础AI模子的前提下,给模子附加一层格外针对特定手册的活动民俗。这么作念的自制是生动——基础模子唯有一个,但不错搭配不同的手册配上不同的适配器,就像吞并个东谈主不错根据不同岗亭的操作范例疏通我方的使命方式。

素养数据的来源相当机灵:径直复用手册筛选阶段照旧鸠合到的成效实行轨迹,而不需要稀奇再跑一批任务来鸠合数据。唯有那些成效完成任务的轨迹才会被保留,然后被观点成一个个"输入-输出"对:输入是现时任务刻画、手册接口范例、已累积的不雅察纪录、现时记念景况和可用动作;输出是在这个手册框架下应该作念出的下一走路为。通过这种方式素养出来的适配器,能让助手更准确地按照生手册的范例行事——岂论是调用器用的形式、经营任务的方法如故管束记念的方式,皆会更稳健生手册的要求。

这种素养方式使用的是监督微调(SFT),很是于"照着成效案例效法"。接洽团队还探索了更强力但更耗资源的强化学习方法(GRPO和RLOO),发现它们不错进一步擢升效果,但代价是需要更多野心资源——这个衡量关系在后续实验中有详备考据。

**五、五个科场、两种AI范围的全面考研**

接洽团队在五个各具特点的测试场景中考据了HarnessForge的效果,使用了两种范围的基础模子:Qwen3-4B(40亿参数,较小)和Qwen3-8B(80亿参数,较大)。

第一个场景是ToolHop,格外测试多跳器用使用能力。什么叫"多跳"?等于为了回复一个问题,AI需要先调用器用A得到中间胁制,再用中间胁制去调用器用B,再把器用B的胁制用于器用C……就像解一谈需要多个方法的数学题,每一步皆依赖上一步的胁制。第二个场景是SearchQA,由HotpotQA和2WikiMultiHopQA两个数据集构成,进修AI在腹地文档库中检索信息并回复多跳问题的能力。第三个场景是RestBench-TMDB,模拟调用电影数据库的REST立场API接口,测试AI能否正确取舍API端点并组合调用。第四个场景是API-Bank,测试AI面对各种用户需求时能否准确调用结构化API接口。

实验胁制露馅,与悉数竞争方法比较,HarnessForge在绝大大皆测试方针上皆达到了最优水平,平均比最强的单一竞争方法高出3.56个百分点。最亮眼的胁制出现在TMDB场景:在4B范围的模子上,成效用比最强基线擢升了12个百分点;在8B范围的模子上,擢升幅度也有6个百分点。在API-Bank场景,API调用准确率平均擢升了近5个百分点。在ToolHop场景,最终谜底正确率平均擢升了约3.3个百分点。SearchQA的总体得分也达到了悉数方法中的最高值42.83%。

值得慈祥的是,那些格外作念战略素养的竞争方法(RLOO和GRPO)糜掷的野心资源比HarnessForge多得多,但大大皆方针仍然不如HarnessForge——这证据连合进化的效果并不仅仅靠"烧更多野心资源"换来的。

**六、缺哪一半皆不可:终止望望才知谈**

为了评释手册进化和助手素养这两个部分不可偏废,接洽团队作念了一组对如实验:区分去掉手册进化(只素养助手)和去掉助手素养(只更正手册),然后对比三轮进化后的效果差距。

胁制相当清楚。去掉手册进化之后,ToolHop的正确率在第三轮下跌了6.15个百分点,SearchQA下跌了5个百分点——而且跟着轮数鼓舞,差距越来越大,证据手册进化的价值是累积性的,越往后孝顺越紧迫。去掉助手素养之后,第三轮的ToolHop下跌了2.56个百分点,SearchQA下跌了3个百分点。两者比较,手册进化对最终效果的孝顺更大,但助手素养的缺失也会带来不可淡薄的亏空。

这个胁制很好地回复了一个可能有东谈主会质疑的问题:既然手册进化孝顺更大,为什么不干脆只作念手册进化?谜底是,手册再好,如若助手莫得经过格外顺应性素养,实行质料仍然会打扣头——两者是相得益彰的关系,不可偏废。

**七、留几本手册备选,如故只留一册?**

在每轮进化中,最终留住些许本备选手册,会对效果产生多大影响?接洽团队格外测试了留1本、2本和3本三种竖立。

只留1本手册时常太过保守,会错过可能更优的探索标的。从第三轮的胁制来看,从1本增多到2本,ToolHop擢升了3.6个百分点,TMDB擢升了6个百分点,API-Bank擢升了2.6个百分点,SearchQA擢升了0.7个百分点,平均擢升约3.2个百分点。但接续从2本增多到3本,大大皆场景的擢升就聊胜于无了,有时候反而略有下跌。背后的逻辑是,保留太多手册会稀释取舍压力——很是于你在遴荐优秀职工时,留的东谈主太多,就失去了筛选的深嗜。2本这个数字在"保留填塞各种性"和"保握填塞高的遴荐圭表"之间找到了一个均衡点。

**八、手册和助手到底有莫得"专属搭档效应"?**

接洽中最有劝服力的一组实验,是把悉数进化过的手册和悉数进化过的助手两两配对,测试每种组合的效果。这就像是把悉数版块的操作手册和悉数版块的职工当场搭配,望望哪些组合显露好、哪些显露差。

在API-Bank场景,最基础的手册+基础助手组合的成效用是69.30%。沿着对角线(也等于手册和助手永远保握配套的进化旅途),最终版块的配对成效用达到了77.19%。但如若把最终版手册配上早期助手,平均成效用唯有71.93%;把最终版助手配上早期手册,平均成效用也唯有71.06%。这种差距相当清楚地证据了一件事:HarnessForge的越过不是靠着零丁打造了一个"超强手册"或一个"超强助手",而是靠着让手册和助手在相互磨合中变成了专属的配合认知。把它们终止来,效果就会大打扣头。

在ToolHop场景,近似的矩阵分析也露馅出相通的规定:配套组合永远优于错配组合,况且跟着进化轮次增多,配套效果的擢升幅度也在累积增长。

**九、用更强的素养方法,效果还能再擢升**

HarnessForge默许使用的是最通俗的监督微调(SFT),也等于"照着成效案例效法"。接洽团队还测试了用强化学习方法(GRPO和RLOO)来替换这个要津。

在第三轮,使用GRPO时ToolHop的谜底准确率从50.77%擢升到了52.31%;使用RLOO时API-Bank的成效用从71.05%擢升到了72.80%。但代价是野心资源的大幅增多——第三轮使用强化学习需要糜掷45600次模子调用,而使用SFT只需要12000次。这个对比揭示了一个很履行的取舍逻辑:如若野心资源充裕,强化学习不错进一步挖掘后劲;如若野心资源有限,SFT照旧能在相对低的本钱下获取大部分收益。HarnessForge的框架瞎想对两种方式皆兼容,使用者不错根据履行需求生动取舍。

**十、三轮进化的具体故事:手册改了什么**

接洽团队通过一个具体的ToolHop场景,展示了手册在三轮进化中究竟阅历了什么样的改变。

第一轮进化主要改善了两件事:一是任务观点变得更精细,把大方针拆成了更清楚的子方针;二是记念管束变得更有规定,会把紧迫的高下文更一致地注入给AI。这轮更正带来了2.14%的性能擢升,随后配套的助手素养又稀奇孝顺了1.57%的擢升。

第二轮进化的要点转向了经营的可靠性和动作实行的沉稳性:加入了"字据台账"机制(让AI明确纪录每个中间方法的字据来源),并更正了器用调用的考据逻辑(在提交最终谜底前搜检是否有填塞的撑握字据)。这一轮的手册更正孝顺了2.51%,助手素养孝顺了2.10%。

第三轮进化聚焦于记念检索:更正了如何根据现时任务阶段和问题结构来索求关系历史信息,幸免把沉沦或无关的纪录带入现时推理过程。终末一轮手册更正孝顺了0.94%,助手素养孝顺了1.11%。三轮累计下来,性能从着手的41%擢升到了52.82%,每一步的累积皆清楚可见。

**失败案例里藏着什么规定**

接洽团队还系统分析了不同场景下失败的原因散布。在API-Bank和TMDB这类重度依赖API调用的场景中,节略四分之一的失败来自"动作模块"的问题——形式分歧、接口调用方法有误、器用反复调用堕入轮回。在SearchQA这类多跳问答场景中,经营类失败占了很是大比例,主要显露为AI用了逾期的查询词在重叠搜索,而不是根据最新进展疏通搜索标的。在ToolHop场景,多跳器用链的保重失败和最终谜底的荒唐撑握是主要问题。记念关系的成立诚然占比较小,但时常以"配合成立"的神色出现,沉稳着经营和动作的实行。

接洽团队通过五个具体的父子轨迹对比案例,更直不雅地展示了手册更正的效果。举例,在一个需要比较两位历史东谈主物诞生辰期的任务中,更正前的AI会反复提交莫得字据撑握的最终谜底,更正后的手册要求AI必须找到有履行字据撑握的谜底才能提交。在一个波及账户删除的API任务中,更正前的AI会在认证方法反复卡壳,更正后的手册明确了认证和删除操作的方法范例以及输出形式要求,AI一次性就完成了任务。

**归根结底,这项接洽证据了什么**

说到底,HarnessForge揭示了一个对于AI助手系统的履行规定:让一个AI系统真赶巧用,不是单独打磨某一个零件就能作念到的,而是要让"操作手册"和"实行者"变成真确的认知配合。这听起来可能像是一句知识,但在AI规模,曩昔莫得东谈主把这对搭档算作一个举座来系统优化。

对于普通用户而言,这项接洽意味着翌日基于AI的智能助手和自动化器用可能会在多方法、多器用的复杂场景中愈加可靠——岂论是帮你查询和整合多来源信息、调用各种应用接口完成复杂操作,如故在万古期对话中保握准确的高下文记念。更紧迫的是,这种越过并不需要换用更大的AI模子,就连40亿参数这种相对"轻量"的模子,经过HarnessForge的连合进化,皆能在多项测试中越过那些单独优化的更大模子。

天然,接洽团队也坦诚地指出了这项使命的局限性。咫尺的测试主要在4B和8B范围的模子上进行,对于那些参数目大得多的顶尖模子,手册与助手连合进化能带来多大的改善空间还有待探索。此外,每轮进化皆需要屡次运行任务来鸠合数据,在相当复杂的长过程场景中,这个本钱可能会很是可不雅。接洽团队提议了几个潜在的更正标的,包括用更快的代理评估替代完好运行、自顺应分拨野心资源,以及引入更平方的手册剪辑操作(比如完好的代码重写或全新器用接口瞎想)。

这项接洽还有一个更宏不雅的深嗜:它为如安在资源受限的条目下让小模子也能胜任复杂任务提供了一条清楚的旅途,不是靠堆算力,而是靠让手册和助手相互顺应、相互成就。有深嗜潜入了解时候细节的读者,不错通过arXiv编号2606.01779查阅完好论文。

Q&A

Q1:HarnessForge框架的"手册"(harness)具体指的是什么?

A:HarnessForge中的"手册"是指规矩AI如何实行任务的外部结构,由三个部分构成:经营模块(负职守务观点和再行经营)、动作模块(负责器用调用形式和配合国法)以及记念模块(负责信息的存储、调取和整理)。它不是AI模子自己,而是告诉AI"按什么方法干活"的实行框架,近似于职工的操作手册。

Q2:HarnessForge和只素养AI模子的方法比较有什么上风?

A:单独素养AI模子(战略)的方法假定实行手册是固定不变的,AI只可在既有框架内优化。HarnessForge同期进化手册和AI适配器,让两者变成专属配合。实验露馅,即使单独素养方法糜掷了更多野心资源(如GRPO和RLOO需要的调用次数是HarnessForge的近4倍),在大大皆测试方针上仍不如HarnessForge,最大差距可达12个百分点。

Q3:HarnessForge需要多大范围的AI模子才能有用运作?

A:HarnessForge在40亿参数(Qwen3-4B)和80亿参数(Qwen3-8B)两种范围的模子上皆经过了测试,两种范围皆取得了显赫效果。接洽标明,即使是相对轻量的4B模子开云体育,经过连合进化后也能在多项测试中超越单独优化的较大模子,证据这套方法并不依赖超大范围模子,在资源受限的场景下相通有用。

www.dalcargo.net

官方网站

关注我们

新闻资讯商贸科技园7516号

联系地址

Powered by 开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 RSS地图 HTML地图


开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口-开云体育模拟调用电影数据库的REST立场API接口-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口