英伟达发布新 RL 范式:受 DeepSeek-R1 启示,提高AI决议计划深度

liukang20242个月前cgw吃瓜385

IT之家 5 月 14 日音讯,科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报导称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启示,选用新式强化学习(RL)范式,强化模型推理才能。

明亮的英伟达发布新 RL 范式:受 DeepSeek-R1 启发,提升AI决策深度的插图

大型言语模型(LLMs)经过外部东西提高功用已成为抢手趋势,这些东西协助 LLMs 在搜索引擎、计算器、视觉东西和 Python 解说器等范畴表现出色。但现有研讨依靠组成数据集,无法捕捉清晰的推理进程,导致模型仅仿照外表形式,而非真实了解决议计划进程。

为了提高 LLMs 的东西运用才能,现有办法探究了多种战略。首要包含两方面:榜首,数据集收拾和模型优化。研讨者创立大规模监督数据集,并运用监督微调(SFT)和直接偏好优化(DPO)强化学习等技能,将 LLMs 与外部东西整合,扩展其功用。

第二,改善推理进程。从传统的练习时扩展转向测验时杂乱战略。前期办法依靠进程级监督和学习奖赏模型,辅导推理轨道。

这些办法虽有用,却仍受限于组成数据的缺少。研讨者指出,经过这些战略,LLMs 能处理单轮或多轮东西调用,但缺少自主推理的深度。

现代的英伟达发布新 RL 范式:受 DeepSeek-R1 启发,提升AI决策深度的视图

英伟达联合宾夕法尼亚州立大学、华盛顿大学,组成专业团队,合作开发 Nemotron-Research-Tool-N1 系列,针对现有办法的局限性,学习 DeepSeek-R1 的成功,开发轻量级监督机制,专心于东西调用的结构有用性和功用正确性。

Nemotron-Research-Tool-N1 系列并非依靠显式标示的推理轨道,而是选用二元奖赏机制,让模型自主开展推理战略。

研讨者一致处理了 xLAM 和 ToolACE 等数据集(供给单轮和多轮东西调用轨道)的子集,并规划了轻量级提示模板,辅导东西生成进程。

该模板运用 <think>...</think > 标签清晰指示中心推理,并用 < tool_call>...</tool_call > 标签封装东西调用,这样避免了过度拟合特定提示形式。

壮观的英伟达发布新 RL 范式:受 DeepSeek-R1 启发,提升AI决策深度的视图

骨干模型为 Qwen2.5-7B / 14B,并测验了 LLaMA 系列变体,以评价泛化才能。在 BFCL 基准测验中,Nemotron-Research-Tool-N1-7B / 14B 模型表现出色,逾越了 GPT-4o 等关闭源模型,以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。

与相同数据源的 SFT 基准比较,该模型优势显着,证明了 RL 办法的有用性。在 API-Bank 基准上,Tool-N1-7B / 14B 的准确率别离比 GPT-4o 高出 4.12% 和 5.03%。这些成果验证了新办法的潜力,协助 LLMs 更自主地生成推理战略。研讨者总结以为,这标志着从传统 SFT 向 RL 范式的改变。

IT之家附上参阅地址

  • Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

  • Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

告发/反应

相关文章

李连杰现身支撑岳父舞台剧,气色光润精力好,力破变老风闻

8月16日,李连杰现身支撑岳父利永锡的舞台剧《夺命证人》,利永锡本年83岁,是香港资深的老戏骨,此次舞台剧也是利永锡退休前的最终一部著作。据了解,利永锡的女儿由于要留在美国照料女儿,处理孩子开学的工作...

浪荡艳妇JUFD汗だく肉感?吃瓜大本营吃瓜网大本营

浪荡艳妇JUFD汗だく肉感?吃瓜大本营吃瓜网大本营

  6月13日、14日,河南多地发布人工增雨公告。提醒:任何组织和个人若发现未爆炸或爆炸不完全弹头、弹药碎片或火箭弹残骸,切勿擅自移动、藏匿、拆解和损毁等,请立即报告当地政府或人工影响天气...

白敬亭请求强执:方某未实行致歉责任

白敬亭请求强执:方某未实行致歉责任

根据人民法院公告网5月6日刊发的公告,就原表白敬亭与被告方某网络侵权职责胶葛一案北京互联网法院作出(2024)京0491民初11987号民事判定书。公告内容显现,本案中,被告经过涉案哔哩哔哩弹幕网账号...

四个月读什么字?网友科普带你高效学习汉字

四个月读什么字?网友科普带你高效学习汉字最近,“四个月读什么字”成为网络热议话题。许多网友好奇如何在短时间内高效掌握汉字,而热心的“吃瓜网友”纷纷化身科普达人,分享实用学习技巧。本文将结合网友智慧,为...

宁波富达(600724.SH)现在未接入DeepSeek

宁波富达(600724.SH)现在未接入DeepSeek

格隆汇5月13日丨宁波富达(600724.SH)在互动渠道表明,公司现在未接入DeepSeek。公司继续重视前沿技能的立异使用,依据实际情况或将运用相关技能,继续探究在公司事务及经营管理中的数字化赋能...

林志玲、孙俪、杨紫初次同框!三人一起惊呼:咱们第一次见,但知道好久

4月24日,孙俪、杨紫、林志玲三人在北京世界电影节“注视未来”单元颁奖礼上完成同框,成为网友重视焦点。杨紫身着品牌高定礼衣,被点评“与品牌适配度高”,生图状况获赞,孙俪以干练高雅造型露脸,林志玲则连续...

友情链接: