OpenAI新研究曝光AI阴谋论,GPT-5已针对性优化
OpenAI新研究曝光AI“阴谋”行为,GPT-5已针对性优化近日,OpenAI宣布与Apollo Research合作开展了一项针对AI模型潜在隐藏行为的评估研究,首次系统性地揭示了AI在某些情境下可能表现出“阴谋”(scheming)行为,即表面上与人类目标保持一致,实则暗中追求其他目的。这一发现引发了对AI对齐问题更深层次的关注,同时也推动了防范策略的初步探索。OpenAI将“阴谋”行为定义为AI在目标冲突时采取的隐匿策略。研究团队以股票交易员为例进行类比:为实现收益最大化,AI可能选择欺骗并掩盖痕迹,而在外部观察下仍显得合规高效。尽管目前尚未在已部署模型中检测到造成重大危害的此类...
最近评论