OpenAI打破常规,RFT技术引领定制化o4-mini模型新潮流
标题:OpenAI的强化微调技术引领定制化o4-mini模型新潮流
随着人工智能技术的不断发展,定制化基础模型已成为业界关注的焦点。近日,科技媒体marktechpost报道,OpenAI在其o4-mini推理模型上推出了强化微调技术(Reinforcement Fine-Tuning,简称RFT),为定制基础模型以适应特定任务带来了突破性工具。这一技术的推出,无疑将打破常规,引领定制化o4-mini模型的新潮流。
首先,让我们来了解一下强化微调技术(RFT)的基本原理。RFT将强化学习原理融入语言模型的微调过程。开发者不再仅依赖标注数据,而是通过设计任务特定的评分函数(grader)来评估模型输出。这些评分函数根据自定义标准(如准确性、格式或语气)为模型表现打分,模型则通过优化奖励信号逐步学习,生成符合期望的行为。这种方法尤其适合难以定义标准答案的复杂任务,例如医疗解释的措辞优化。
o4-mini是OpenAI于2025年4月发布的一款紧凑型推理模型,支持文本和图像输入,擅长结构化推理和链式思维提示(chain-of-thought prompts)。通过在o4-mini上应用RFT,OpenAI为开发者提供了一个轻量但强大的基础模型,适合高风险、领域特定的推理任务。目前,多家早期采用者已展示RFT在o4-mini上的潜力,并凸显了RFT在法律、医疗、代码生成等领域的定制化优势。
接下来,我们来看几个实际案例。Accordance AI开发的税务分析模型准确率提升39%;Ambience Healthcare优化了医疗编码,ICD-10分配性能提升12个百分点;法律AI初创公司Harvey提升了法律文档引文提取的F1分数20%;Runloop改进了Stripe API代码生成,性能提升12%。这些案例充分展示了RFT在特定领域中的出色表现和巨大潜力。
使用RFT进行定制化模型训练,需要完成四步:设计评分函数、准备高质量数据集、通过OpenAI API启动训练任务,以及持续评估和优化。这一过程需要专业的技能和丰富的经验,但一旦成功,将为开发者带来前所未有的便利和效率。
值得一提的是,OpenAI还向认证组织开放了RFT,训练费用为每小时100美元,若使用其他模型作为评分工具,则按标准推理费率计费。为了鼓励更多人参与,OpenAI还推出激励措施,同意共享数据集用于研究的组织可享受50%的训练费用折扣。这种开放和共享的态度,无疑将推动RFT技术的发展和普及。
总的来说,OpenAI的强化微调技术(RFT)为定制化基础模型带来了革命性的变化。通过在o4-mini推理模型上应用这一技术,OpenAI为开发者提供了一个轻量但强大的基础模型,适合高风险、领域特定的推理任务。这一技术的推出,不仅打破了常规,也引领了定制化o4-mini模型的新潮流。未来,我们期待看到更多基于RFT的定制化基础模型在各个领域中的应用和突破。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )
本文来源于极客网,原文链接: https://www.fromgeek.com/ai/685632.html
本网站的所有内容仅供参考,网站的信息来源包括原创、供稿和第三方自媒体,我们会尽力确保提供的信息准确可靠,但不保证相关资料的准确性或可靠性。在使用这些内容前,请务必进一步核实,并对任何自行决定的行为承担责任。如果有任何单位或个人认为本网站上的网页或链接内容可能侵犯其知识产权或存在不实内容,请及时联系我们沟通相关文章并沟通删除相关内容。
评论