苹果AI“偷师”大模型:小模型学得更快,但真能出师吗?
苹果AI“偷师”大模型:小模型学得更快,但真能出师吗?在人工智能技术快速迭代的背景下,如何高效提升模型能力成为行业焦点。近日,苹果研究团队提出一项名为“基于清单反馈的强化学习”(Reinforcement Learning from Checklist Feedback,简称RLCF)的新方法,试图通过借鉴大模型的“知识”来优化小模型表现,引发广泛关注。传统上,人类反馈强化学习(RLHF)依赖人工对模型输出进行点赞或点踩,以此作为模型优化的依据。但这种方式主观性强,尤其在处理复杂指令时,难以提供细致、结构化的改进方向。苹果的RLCF方法则另辟蹊径:它通过生成任务清单替代简单评分,每一项清...

最近评论