近日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持LongCat-Flash-Chat极致速度的基础上,进一步提升了推理能力与专业水平,成为当前开源领域的重要突破。综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体及形式化推理等多个关键任务中达到全球开源模型的最高水平,部分任务表现接近闭源模型GPT-5,展现出卓越的综合实力。

在通用推理能力方面,LongCat-Flash-Thinking在需要高度结构化逻辑的任务中表现突出。根据ARC-AGI基准测试结果,该模型以50.3分的成绩超越了OpenAI o3、Gemini2.5 Pro等顶尖闭源模型,显示出其在复杂认知任务中的强大潜力。这一成绩不仅体现了模型在抽象推理和问题分解方面的优势,也为开源模型在通用人工智能基准测试中的竞争力提供了有力证明。

数学能力是LongCat-Flash-Thinking的另一大亮点。在更具挑战性的HMMT和AIME相关基准测试中,该模型取得了突破性成绩,超越了OpenAI o3,并与Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果表明,LongCat-Flash-Thinking在解决复杂、多步骤数学问题方面具备显著优势,能够有效处理高难度的数学推理任务。

在编程领域,LongCat-Flash-Thinking展现出开源模型最先进的性能。在LiveCodeBench测试中,该模型以79.4分的成绩显著超越其他参与评估的开源模型,并与顶级闭源模型GPT-5表现相当。此外,在OJBench基准测试中,LongCat-Flash-Thinking以40.7的得分保持极强竞争力,接近领先模型Gemini2.5-Pro的水平。这些成果证明了该模型在解决高难度编程竞赛问题方面的卓越能力。

智能体能力方面,LongCat-Flash-Thinking在复杂的工具增强型推理任务中表现突出。在τ2-Bench测试中,该模型以74.0分刷新开源SOTA成绩,并在SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。这表明该模型在自主调用工具、执行复杂任务方面具备显著优势,为智能体应用的发展提供了有力支持。

特别值得关注的是,LongCat-Flash-Thinking在形式化定理证明方面取得重大突破。在MiniF2F-test基准测试中,该模型在pass@1获得67.6分,大幅领先所有其他参与评估的模型,在pass@8和pass@32测试中同样保持领先优势。这一成绩凸显了模型在生成结构化证明和形式化数学推理方面的绝对优势,使其成为国内首个同时具备"深度思考+工具调用"与"非形式化+形式化"推理能力的大语言模型。

目前,LongCat-Flash-Thinking已在HuggingFace和Github平台全面开源,用户可通过官网进行体验。该模型的发布不仅提升了开源模型在复杂推理任务中的竞争力,也为相关领域的研究和应用提供了新的技术选择。未来,随着模型的进一步优化和应用拓展,有望在更多高复杂度任务中发挥重要作用。

总体而言,LongCat-Flash-Thinking的推出标志着开源大模型在推理能力方面取得重要进展。该模型在保持高效推理速度的同时,在多领域任务中展现出与顶尖闭源模型相媲美的性能,为人工智能技术的发展注入了新的活力。

(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)

本文来源于极客网,原文链接: https://www.fromgeek.com/latest/704566.html

分类: 暂无分类 标签: 暂无标签

评论