作业帮PoFT技术再获国际认可,入选AAAI 2025
近日,第39届国际人工智能大会(AAAI 2025)顺利举行,来自全球的人工智能领域专家学者齐聚一堂,分享前沿研究成果。在本次大会上,作业帮研发的“偏好导向监督微调(Preference-oriented Fine-Tuning, PoFT)”技术成功入选,成为智能教育领域一项备受关注的创新成果。
AAAI是中国计算机学会推荐的A类国际学术会议,其收录的论文需经过多轮严格评审,代表人工智能领域的较高学术水准。作业帮PoFT技术的入选,反映出该技术在国际同行中的认可度。
在智能教育应用中,大语言模型的核心任务在于准确理解用户指令并生成高质量响应。以数学题目讲解为例,模型不仅需要保证解题过程的严谨性,还应以清晰易懂的方式表达,这对模型的“对齐训练”提出了较高要求。然而,构建高质量的教学类训练数据成本极高,而传统监督微调(SFT)方法采用的交叉熵损失函数难以区分样本质量,导致模型可能过度学习低价值内容,进而引发解题偏差、表达混乱等问题。
PoFT技术针对上述痛点提出了一种创新解决方案。其核心思路是通过多个“专家模型”对训练样本进行权重评估,使目标模型能够有选择、有重点地学习优质数据。具体而言,在训练阶段,目标模型需对同一数据的置信度超过一组标杆模型的平均置信水平,以此提升学习的有效性和可靠性。
此外,PoFT展现出良好的兼容性与扩展性。它既可结合数据过滤技术(如IFD、Instag)预先筛除低质样本,再通过加权机制优化学习过程;也可与偏好对齐算法(如DPO)协同,构建“两步训练”流程。根据AlpacaEval 2.0基准测试结果,PoFT与DPO结合的方案胜率较传统DPO提升2.74%,且在复杂教学场景中表现出更低的过拟合风险。
教育类应用对模型的准确性要求极为严格。同一题目可能存在多种合理解法,模型需识别出符合“逻辑清晰”“步骤简洁”等教学偏好的答案。若模型因学习低质量数据而产生错误输出,极易对学习者造成误导。PoFT通过引入多模型打分机制,使目标模型优先学习高质量和高信息密度的内容,从而更精准地捕捉教学场景中的特殊需求。据悉,该技术目前已应用于作业帮的智能题目解析和个性化辅导等产品中。
作业帮PoFT技术入选AAAI 2025,不仅体现了企业在人工智能优化方面的技术积累,也为教育大模型的适配与改进提供了新思路——即在不完全依赖高成本标注数据的情况下,仍可实现模型性能的稳步提升。作业帮自创立以来,持续投入教育科技研发,在语音识别、自然语言处理、计算机视觉等多个技术领域取得多项突破,其成果曾获中国信通院、MIT等机构奖项认可。
总体来看,PoFT技术的提出与应用,是人工智能与教育深度融合的一次有益探索,也为相关领域的研究与实践提供了重要参考。
(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)
本文来源于极客网,原文链接: https://www.fromgeek.com/latest/702508.html
本网站的所有内容仅供参考,网站的信息来源包括原创、供稿和第三方自媒体,我们会尽力确保提供的信息准确可靠,但不保证相关资料的准确性或可靠性。在使用这些内容前,请务必进一步核实,并对任何自行决定的行为承担责任。如果有任何单位或个人认为本网站上的网页或链接内容可能侵犯其知识产权或存在不实内容,请及时联系我们沟通相关文章并沟通删除相关内容。
评论