三易生活 09-14
昆仑万维发布两款奖励模型,采用特定筛选策略
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,昆仑万维方面发布两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。

公开信息显示,奖励模型(Reward Model)是强化学习(Reinforcement Learning)中的核心概念和关键组成。此类模型可用于评估智能体在不同状态下的表现,并为智能体提供奖励信号以指导其学习过程,从而让智能体能够学习到在特定环境下如何做出最优选择。据悉,在大语言模型(LLM)的训练过程中奖励模型尤为重要,其可以帮助 LLM 更好地理解和生成符合人类偏好的内容。

据昆仑万维方面介绍,Skywork-Reward 奖励模型基于从公开数据中精心挑选小而精的偏序数据集,以及使用相对较小的基座模型打造。值得一提的是,与现有奖励模型不同,Skywork-Reward 的偏序数据仅来自于网络公开数据,但采用了特定的筛选策略,以获得针对特定能力和知识领域的高质量偏好数据集。

同时为了进一步优化数据集,昆仑万维方面还利用数据集的统计信息来进行筛选,在不牺牲整体性能的情况下、实现了在 RewardBench 各领域之间的性能平衡提升。据称,这一偏好数据集最终包含约 80000 个样本。

据了解,在 RewardBench 奖励模型评估基准排行榜上,Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B 的排名分别为第一和第三名。在测试过程中,Skywork-Reward 模型在对话、安全性等领域表现出色。例如在对话、安全、代码推理、数据推理等方向的困难样本中,只有 Skywork-Reward-Gemma-2-27B 给出了正确的预测(对比模型包括 ArmoRM 和 InternLM2-20B-Reward)。

在不久前举行的 2024 Inclusion · 外滩大会上,昆仑万维首席科学家颜水成还围绕高效能大模型研究,分享了该公司在 MoE 架构研究上的最新进展,以及在 Attention 层和 FFN 层的最新成果。

其中在优化模型架构方面,据称昆仑万维团队将 Transformer 结构的计算效率提升到了原来的两倍。对此颜水成表示," 模型结构还会继续升级,每 1 到 2 年都会有新的模型架构和模型改进的方案提出来,以便提升模型训练的效率和泛化能力,让模型更加实用化 "。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

昆仑万维 外滩 指导
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论