标题:DeepSeek R1模型升级:幻觉率降低近50%,实力再提升

DeepSeek,作为人工智能领域的佼佼者,近日宣布其R1模型取得了重大升级。新版DeepSeek-R1-0528在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。相较于旧版,新版在复杂推理任务中的表现有了显著提升,并在数学、编程与通用逻辑等多个基准测评中取得了优异成绩,整体表现已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。

首先,DeepSeek团队对幻觉问题的优化值得称赞。新版DeepSeek R1针对“幻觉”问题进行了优化,与旧版相比,幻觉率降低了约45~50%,这无疑为用户提供了更为准确、可靠的结果。这一改进不仅提升了模型的实用性,也增强了其在各个领域的应用价值。

其次,DeepSeek R1模型在创意写作方面也取得了显著进步。旧版R1的基础上,新版R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。这无疑为用户提供了更为丰富、多元的写作选择。

再者,DeepSeek-R1-0528在工具调用方面也表现不凡。新版模型支持工具调用(不支持在thinking中进行工具调用),当前模型Tau-Bench测评成绩为airline 53.5% / retail 63.9%,与OpenAI o1-high相当,但与o3-High以及Claude 4 Sonnet仍有差距。这意味着DeepSeek-R1-0528在工具调用方面具有广阔的应用前景和潜力。

此外,DeepSeek-R1-0528还在前端代码生成、角色扮演等领域的能力均有更新和提升。这些能力的提升无疑为用户提供了更为丰富、多元的应用场景和选择。

值得一提的是,DeepSeek-R1-0528与之前的DeepSeek-R1使用同样的base模型,仅改进了后训练方法。私有化部署时只需要更新checkpoint和tokenizer_config.json(tool calls相关变动)。模型参数为685B(其中14B为MTP层),开源版本上下文长度为128K(网页端、App和API提供64K上下文)。这样的升级策略既保证了模型的稳定性和可靠性,又为用户提供了更多的选择和可能。

DeepSeek团队认为:DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。这一观点无疑表达了DeepSeek团队对于自身技术的信心和对于未来发展的期待。

总的来说,DeepSeek R1模型的升级无疑是一次重大的突破和提升。在幻觉率降低近50%的同时,与o3、Gemini-2.5-Pro等顶尖模型并肩,展现了DeepSeek在人工智能领域的强大实力。我们期待DeepSeek在未来能够继续带来更多创新和突破,为人工智能领域的发展做出更大的贡献。

本文来源于极客网,原文链接: https://www.fromgeek.com/latest/688493.html

分类: 暂无分类 标签: 暂无标签

评论