
Xin Zhiyuan报告编辑:Aeneas Kinghz [Xin Zhiyuan简介] NVIDIA的开放资源是超过DeepSeek-R1的New King King Llame-Nemotron,训练有素的?该论文刚刚发布了所有细节,而无需预订!如今,NVIDIA的Llama-Nemotron系列模型已正式超过DeepSeek-R1!而且,这些模型已经开放。换句话说,就理解吞吐量和记忆效率而言,一系列概念模型可显着超过DeepSeek-R1。模型如何比DeepSeek-R1更重要?刚才NVIDIA发布了一份技术报告,宣布使用合成数据监督和微调 +强化学习宣布模型培训键。
纸张链接:https://arxiv.org/abs/2505.00949
发布后,一系列NVIDIA模型带来了很多敏感性致该行业。
根据对智能指数的人工分析,2025年4月,目前,Llama-Nemotron-Ultra被视为“更聪明”的开放资源模型。
目前,NVIDIA在Llama-Nemotron-Ln-Ln-Ln-Nano 8B,Ln-Super 49b和Ln-Ulra 253B中推出了三个型号。
值得一提的是,LN-ultra不仅比deptseek-r1的性能还高,而且还以一个8xH100节点运行,对理解有更高的了解。
这些模型是针对高通量违规的优化,同时保持强大的概念能力和上下文长度高达128K。
ln-ultra在各种识别任务中展示了最高的开放性能模型
BESIDESHERE,在全球AI开源行业中,NVIDIA首次启动推理开关功能。用户可以通过系统提示单词“详细思考/OFF”来改变移动标准聊天模式和识别模式。
该设计允许模型每天见面不需要不同的模型或体系结构,需要并具有复杂的多步推理。
删除施工过程
骆驼 - 纽马型模型的构建分为五个阶段。
第一阶段:使用神经体系结构搜索(NAS)来优化基于Llama 3系模型的识别效率,并引入前馈网络融合(FFN Fusion)。
第2阶段:通过对知识的扩张和持续的预训练来恢复模型性能。第三阶段:进行精致的调整(SFT),结合了标准的教学数据和诸如DeepSeek-R1等强大教师模型的标准教学数据和识别过程,以便模型具有许多推理能力。
第4阶段:在复杂的数学和Steang大型研究中,在M数据集中进行了大规模研究,这是学生模型超越教师模型的能力的关键步骤。对于LN-Ultra,此阶段在GPQA-D基准测试性能方面取得了重大改进,这是将其作为当前开放资源中科学推理的最强模型的地位。
为了支持在加强研究中进行如此出色的培训,该团队专门开发了一个新的培训框架,包括许多选择的步骤,其中最重要的是支持FP8准确性的产生。
最后阶段:短期实践,专注于随后的教学并应对人类的偏好。
新的建筑设计:认可有效性的反对
在神经架构的帮助下,搜索了拼图框架,LN-Super和Ln-Ultra优化了知情效率的效率。
该难题可以在实际的扩展限制下更改良好版本的大型语言模型,如图3所示。
通过“通过块局部蒸馏”,开发人员使用Llama 3指向构建一个替代变压器模块的库。
在此过程中,每个模块在优化计算的性能的同时,与原始模块的近似功能进行独立训练,并平行于原始模块的近似功能。
这样,每个替代模块都有一个特定的“准确性”权衡:某些模块虽然更好,但可以导致质量的一定下降,从而在计算成本和模型准确性之间进行明确的权衡。
这些模块的差异包括:
删除注意力机制:一些模块完全消除了注意机制,从而减少了KV缓存存储器的计算和消耗量。
可变FFN维度:调整前馈网络的中间大小以用不同的晶粒压缩模型。
删除注意力机制:一些模块完全消除了注意机制,从而减少了KV缓存存储器的计算和消耗量。
可变的FFN维度:前馈网络的中间大小Isagay用不同的GR压缩模型ains。
形成模块库后,拼图将从每一层选择一个模块并组装一个完整的模型。
此选择过程由混合整数编程(MIP)求解器调节,该求解器已根据一组障碍,例如硬件兼容性,最大允许延迟,预算内存或预期推理吞吐量,发现了最佳调整。
拼图框架的总体-Dideya
垂直压缩和FFN融合
在LN-ultra模型中,研究人员提出了一种称为FFN融合的其他压缩方法,该方法用于减少模型的深度并提高推理潜伏期的效率。
拼图消除了注意力层的一部分之后,模型结构中出现的特征:许多连续的FFN块在模型中经常使用。
这种替代方法可在不牺牲模型的表达能力的情况下降低连续计算的步骤,从而显着提高了CO的使用率mputing资源 - 尤其是在跨层通信开销的多GPU环境中不容忽视。效果尤其明显。
图4显示了GPQ-Diamond精度(%)和吞吐量处理(令牌/秒)之间的权衡。
值得注意的是,LN-ultra始终从准确性和效率方面释放DeepSeek-R1和Llama-3.1-405b,实现了准确性和效率的最佳平衡。
比较GPQ-Diamond模型的准确性和吞吐量
NAS后实践:知识蒸馏和持续的预训练
在神经结构搜索阶段(NAS)阶段之后,LN-SUPER和LN-ULTRA均经过训练的UPG提高模块之间的兼容性,并在模块更换期间恢复可能的质量损失。
LN-Super使用Distillation Mix数据集在知识知识的目标知识下训练了400亿个令牌。
LN-Ultra首先使用相同的蒸馏数据集进行知识蒸馏培训,培训65 Billion代币;然后继续在Nemotron-H第4阶段预训练数据集中训练880亿个令牌。
LN-Super使用Distillation Mix数据集在知识知识的目标知识下训练了400亿个令牌。
LN-Ultra首先使用相同的蒸馏数据集进行知识蒸馏培训,培训650亿个令牌;然后继续在Nemotron-H第4阶段预训练数据集中训练880亿个令牌。
最后一步的预训练允许LN-ultra不仅可以将Llama模型参考3.1-405B实验室的表现联系起来,而且还可以通过主要的基准超过它。
它表明,可以通过简短的补充和预培训来实现积极的体系结构优化和高模型性能之间的兼容性。
管理和有序调整
您是否希望骆驼纽马模型具有超级惊人的推理能力?
管理的微调(SFT)步骤是简单的“上帝协助”。
在上一个发展阶段,团队主要研究使模型的体系结构变得更好,以及如何填补它的巨大知识。
SFT就像为该模型租用“私人教练”,该模型专门针对特定任务的合理措施,它需要从“ Modelo School Bayani”(如DeepSeek-R1)中窃取推理技能。
但是,为了真正发展稳定的技能,大尺寸和高质量的概念数据很重要。
综合数据
研究人员精心排序了包含推理的数据样本,而不是用于管理微调的序列。
为了理解的示例,他们在系统的说明中添加了“详细思考”,而对于不推断的样本,他们使用“详细思考”(详细思考)。
此设置使模型可以根据理解阶段的直接内容继续识别识别。
为了推理,仔细准备了相关领域(例如数学和代码)中的合成数据。
训练模型到FO请说指令“推理开关”,Aresearcher构建了配对的数据集,每个提示都对应于推理的推理,而无需推理就对应了响应。
这种配对方法使模型了解并调整系统指令的推理。
然后,将这些答案拍摄,以共同的答案或奖励模型拍摄。
微调过程
在调整指令数据中,所有模型均经过令牌级跨透镜损失进行训练。
在大多数培训设置中,合并了不知知的数据和知情数据,以生成一批培训,其中每个提示都根据系统的授权“详细思考/关”配对相应的响应。
将训练周期扩大到许多曲折可以提高性能,这对于小型模型尤为明显。
目前,Nemo-Aloner主要用于增强学习训练,支持GRO训练和异质模型。
纸张链接:https://arxiv.org/abs/2405.01481
这使用VLLM实现了一代的阶段,并使用Megatron-LM实施了训练阶段。
培训和认可的阶段共享同一批GPU,并在同一设备上完成。
在整个训练过程中,他们总共使用了72个节点,每个节点配备了8 H100 GPU。
在生成阶段使用FP8的精度,在训练阶段使用BF16的精度,并且在优化器状态中使用了FP32。
每个阶段都保持模型的独立权重,并且处于每个步骤的开始。
强化研究:R1推理的关键Kaksreckon超越
允许管理的微调(SFT)从强大的教师模型中提取模型,从而获得良好的功能。
但是,知识努力为学生模型的表现设定了上限,尤其是如果学生模型的基本技能不超过教师的模型。
通过管理微调,LN-Ultra的perfOrmance可能接近DeepSeek-R1,但不会错过。
为了使学生模型超出教师模型,大规模加强(RL)研究是一种可行的方法,因为它允许该模型继续探索新的可能性并了解自己。
由于资源限制,研究人员将RL仅用于LN-Ultra的推理,结果导致学生模型超过了教师的模型。
在整个培训增强研究过程中
培训过程
对于LN-ultra,研究人员使用了同一Deviceek-R1模型的相对策略优化(GRPO)算法,通过大规模增强(RL)研究增强了科学推理能力。
整个培训过程需要大约140,000 H100型号进行培训,直到达到理解任务为止。
图5显示了训练期间的GPQ-Diamond精度标记。
奖励机制的设计包括TWo类别:
准确性奖励:基于标准答案(数值/句子/段落),请致电Llama-3.3-70B-Intuct确定预测结果ANTA的匹配
格式奖励:遵循DeepSeek-ai解决方案,该模型被迫包裹在“详细思考”模式中认识思维标签的过程。当这种标签不在此模式下时,禁止它们。
准确性奖励:基于标准答案(数值/句子/段落),请致电Llama-3.3-70B-Intuct确定预测预测的匹配级别
格式奖励:遵循DeepSeek-ai解决方案,该模型被迫包裹在“详细思考”模式中认识思维标签的过程。当这种标签不在此模式下时,禁止它们。
研究团队还拥有数据,包括数据过滤和课程培训。
数据过滤:提前使用LN-Super对每个问题产生8个响应,并以≥7的简单样本去除简单样品5%的通过率。
库尔斯训练:使用基于通过率的进行性批处理分配(图6来验证其有效性)
动态分布:建模使用高斯操作的批处理建模,重点是早期阶段的高率(简单)样本,并破坏低通过率(难度)
填充逻辑:通过分配目标优先分配样品的分配,剩余容量是根据最大残留池样本补充的
内部处理:同一批样品被随机中断以保持多样性
数据过滤:提前使用LN-Super对每个问题产生8个响应,并以≥75%的通过率删除简单样本。
课程培训:基于通过率的进行性批处理分配(图6来验证其有效性)
动态分布:使用高斯操作的批处理模型建模,该操作的重点是早期阶段的高通率(简单)样本,并以低通过速率爆发(艰难ty)
填充逻辑:通过分配目标优先分配样品的分配,剩余容量是根据最大残留池样本补充的
内部处理:同一批样品被随机中断以保持多样性
动态分布:建模使用高斯操作的批处理建模,重点是早期阶段的高率(简单)样本,并破坏低通过率(难度)
填充逻辑:通过分配目标优先分配样品的分配,剩余容量是根据最大残留池样本补充的
内部处理:同一批样品被随机中断以保持多样性
偏好进步的PAG提升研究
在完成科学培训后,研究人员对LN-Super和LN-Ultra模型进行了简短的加强研究阶段,重点是改善其教学能力。
研究人员还使用RLHF来优化在数学和科学等其他领域保持模型的能力,同时保持模型的总体帮助和聊天技能。
如表4所示,在硬竞技场中,LN-Super在测试中得分为88.3,超过了所有权模型,例如Claude 3.5 SONNET和GPT-4O-4O-2024-05-13,也增加了更大的开放资源模型。
为了实现这一结果,他们采用了“在线奖励 - 政策优化”方法,以最大程度地提高Modelo在Helpsteer2数据集中的可预测奖励,而奖励模型则使用Llama-3.1-Nemotron-70B-奖励。
两项在线RPO培训将竞技场的硬得分从69.1提高到88.1。
对于LN-Ultra,他们使用类似的过程,但采用GRPO。
对于LN-Nano,他们使用培训策略产生的数据进行了两个RPO的离线训练周期。
在第一个周期中,将概念和非防御数据组合在一起,并使用系统提示来优化模型控制功能。第二个Wist专注于提高遵循说明的能力。
分析结果
研究人员回顾了两个基准类别中所有Llama-纽约人模型的性能:理解和非推断任务。
推理基准包括NG:AIME24和AIME25,GPQ-DIAMOND,LIVECODEBENCH和MATH500。
非推断基准包括:审查后的IFEVAL进行指导,BFCL v2是用于评估使用功能工具的使用,以及用于评估人类对话偏好对齐的竞技场。
表3显示,尽管模型的尺寸很小,但LN-Nano在所有基准类型的inderence中表现良好。
这表明,进行微调过程和精心计划的认知数据集的给药可有效传输小型模型中的结构化前景功能。
表4将LN-Super与具有相似参数维度的其他模型进行了比较,表明该模型在两个任务中都显示了强烈的竞争符合和非推断活动。
在“推论”中,LN-Super的执行功能与Llama-3.3-70B蒸馏资源模型相当。在“推断”模式中,它超越了其他竞争对手模型,例如DeepSeek-R1-Distilder-lalama-70B,并在保持良好的合规性的同时表现出强大的推理能力。
这些结果表明,LN-Super是一个通用模型,具有优化模型和非推理优化的优势,适用于助手和结构化推理活动的日常活动。
表5表明,与所有现有的开放资源相比,LN-ultra的性能均匀或更好,而不是推断。它在GPQA的开源源中达到了最先进的水平,这完全表明NVIDIA研究人员可能具有强大的化学学习方法的效率。
与DeepSeek-R1需要8×H200的硬件调整不同,LN-ultra专门优化为W具有单个8×H100节点的有效ORK,提供了对吞吐量和膨胀效率的更多了解。
从表5可以看出,LN-Ultra的SFT阶段已经接近或实现了Deptseek-R1的性能,以对许多无限基准(包括GPQA和AIME)。
除了能够理解和谈论该模型最初是对模型进行培训的能力之外,他们还具有分配以外的模型任务。
具体而言,该模型在法官Bench数据集上进行了测试,该数据集需要高质量和低质量答案之间的差异。
如表6所示,新模型在这项工作中释放了当前的主要键盘和开放资源模型。
其中,LN-Ultra已成为模型开放资源的最佳性能,该资源大大超过了DeepSeek-R1,仅次于O3-Mini(高)所有者。
此外,LN-Super也是O1-MINI的表现,表明新模型在各种活动中具有强大的整体能力。
参考CES:
https://arxiv.org/abs/2505.00949回到Sohu以查看更多