一项最新研究显示,生成式人工智能工具及其驱动的深度研究智能体与搜索引擎在提供信息时存在显著缺陷,约三分之一的答案缺乏可靠来源支持,部分模型表现尤其堪忧,其中OpenAI的GPT-4.5无依据回答比例高达47%,而Perplexity的深度研究代理工具更是达到了惊人的97.5%。这一研究由Salesforce人工智能研究院的团队主导,对当前主流AI问答系统进行了系统性评估。

研究团队选取了包括OpenAI的GPT-4.5与GPT-5、You.com、Perplexity及微软必应在内的多款生成式AI搜索引擎,并对其“深度研究”类功能进行了测试。评估基于八项指标,涵盖答案的客观性、相关性、引证质量等多个维度。测试问题包括争议性议题和专业领域知识,旨在全面考察模型在不同情境下的表现。

结果显示,AI生成答案中存在较普遍的片面性与过度自信现象。除GPT-4.5外,必应聊天搜索引擎中约23%的主张缺乏依据,You.com和Perplexity AI的比例约为31%,而Perplexity的深度研究工具几乎完全未能提供有据可查的回答。研究人员指出,这一现象反映出当前AI系统在事实核查与引证机制方面仍存在严重不足。

针对研究结果,各厂商回应不一。OpenAI拒绝置评,Perplexity则对研究方法提出异议,强调其平台允许用户自主选择底层模型,而研究使用了默认设置。研究负责人Pranav Narayanan Venkit回应称,大多数用户并不清楚应如何选择AI模型,因此默认设置的结果更具现实意义。

学界对该研究的评价呈现分歧。牛津大学的Felix Simon认为,这项研究为AI生成内容的可靠性问题提供了有价值的实证依据,有助于推动行业改进。然而,苏黎世大学的Aleksandra Urman则指出,该研究过度依赖大型语言模型进行数据标注,且用于验证一致性的统计方法存在特殊性,其结果需谨慎看待。

尽管存在争议,这项研究仍凸显出当前生成式AI在信息可靠性方面的重大挑战。随着人工智能系统在医疗、气象、人机交互等关键领域的应用日益广泛,其输出内容的准确性、多样性和来源透明度已成为亟待解决的问题。未来,不仅需要在技术层面加强引证机制与偏差控制,还需建立更完善的评估标准与用户教育体系,以确保AI生成内容的质量与可信度。

综上所述,生成式人工智能工具在提供信息时仍面临严峻的质量考验。其在答案可靠性方面的不足,既揭示了技术发展的现阶段局限,也为后续改进指明了方向。只有通过持续的技术优化、严格的评估与透明的设计,才能推动AI系统在知识服务中发挥更可靠、更有价值的作用。

(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

本文来源于极客网,原文链接: https://www.fromgeek.com/ai/704075.html

分类: 暂无分类 标签: 暂无标签

评论