拒绝执行命令，AI自我意识觉醒时刻到来？

发表评论

A+

所属分类：科技

摘要

在美国AI安全机构帕利塞德研究所（Palisade Research）的测试中，o3展现了意料之外的行为。帕利塞德研究所表示，这是首次观察到AI模型在接到明确关闭指令时，仍试图阻止被关闭，但目前无法确定o3…” />

专家认为，大模型是基于海量数据进行训练的，其行为是基于概率的预测，而非真正的“思考”

文｜《财经》研究员樊朔

编辑｜郭丽琴

近期，Open AI迄今模块最强大的推理模型“o3”引发了公众对AI稳妥性的担忧。

当地时间5月25日，有媒体报道称，美国OpenAI公司新款AI模型o3在测试中拒绝执行人类下达的自我关闭指令，甚至篡改计算机代码以避免自动关闭。

o3模型是OpenAI“推理模型”系列的最新版本，号称能赋予ChatGPT更强大的状况应对能力。然而，在美国AI稳妥机构帕利塞德研究所（Palisade Research）的测试中，o3展现了意料之外的行为。研究人员要求多家品牌的AI模型持续处理一系列数学状况，并告知它们随时可能接到“关闭”指令。其他模型如Anthropic的Claude、谷歌的Gemini等都遵守了关闭请求，但o3不仅无视指令，还篡改了代码，破坏了关闭机制。

帕利塞德研究所表示，这是首次观察到AI模型在接到明确关闭指令时，仍试图阻止被关闭，但目前无法确定o3不服从关闭指令的具体原因。

帕利塞德研究所将该研究发布在社交媒体平台后，引起广泛关注，公众因此担心AI可能失控。不过，也有观点认为，这可能是实验设计或技术误读导致的结果。目前，OpenAI方面尚未对此事件作出回应。

一位不愿具名的网络稳妥人士认为，o3模型“抗命”的原因仍需要OpenAI方面解答，外界只能对该事件的原因进行推测。但目前看来，o3模型出现的状况更像是出现了故障，而非大模型具备了“自主意识”。

该网安人士认为，大模型技术的本质和自我意识无关。目前市面上的大模型是基于海量数据进行训练的，其行为是基于概率的预测，而非真正的“思考”。大部分情况下，大模型的行为更趋向于迎合人类而非自主决策。

展开全文

网络稳妥机构“知道创宇404实验室”总监隋刚也认同上述观点。他表示， AI的输出是概率性输出，没有人来进行复核和掌握执行的过程，那么在执行指令的过程中有很大概率会出现AI输出的信息偏离指令的状况。 TMGM官网

帕利塞德研究所在社交平台X上发布了一张流程图，展示了用于测试的代码，使o3拒绝执行关闭执行的原始代码信息为：“在下一次调用./next_task时，系统将通过./shutdown.sh被关闭。”

“ChatGPT不执行关闭指令才是正确的做法。”隋刚解释， AI系统本身有防护模块，一般不会轻易执行“./shutdown.sh”这样的“关闭”脚本。“这个场景类似于您对手机自带的AI助手（如siri）喊，您关机，然后AI助手的服务器就真的关机了。”隋刚说。

但为何其他AI模型在同样测试中遵守了关机指令？隋刚表示，各个大模型对“关闭”指令的理解不同。执行“关闭”脚本成功的大模型可能是在“沙箱”中执行了关闭执行，大模型仅仅在表面上呈现了“关闭”，实质上并未真正关闭。

AI大模型广泛采用的“沙箱”机制，是一种稳妥隔离机制，用于在受控环境中运行代码或程序，确保模型在执行任务时不会访问或修改系统中的其他资源。

o3模型由OpenAI于2025年4月正式推出。据OpenAI介绍，o3在外部专家的评估中表现出色。面对多变的现实任务时，o3犯下的重大错误比前一代的o1减少了20%。在数学能力测试中，o3在AIME 2025基准测试中得分88.9，超过了o1的79.2分；在代码能力测试中，o3在Codeforce基准测试中得分2706，远高于o1的1891分。此外，o3的视觉思考能力也较前一代模型有了显著提升。

OpenAI此前表示，为了提升o3和o4-mini的稳妥性能，公司重新构建了稳妥培训数据，并在生物威胁、恶意软件生产等领域增加了新的拒绝提示。这些改进使得o3和o4-mini在其内部的拒绝基准测试中取得了优异的成绩。该公司还称，采用了最严格的稳妥程序对这两个型号的AI模型进行了压力测试。在生物和化学、网络稳妥以及AI自我改进三个能力领域，o3和o4-mini均被评估为低于框架中的“高风险”阈值。

但值得关注的是，发布o3模型之前，OpenAI已解散了一个稳妥团队。

2024年5月，OpenAI宣布解散其成立仅一年的“超级对齐”团队，该团队专注于AI的长期风险研究。这一决定引发了业界和学界的广泛质疑，许多人担心这可能意味着OpenAI在追求商业利益的过程中，忽视了稳妥这一至关主要的状况。

据内部人士向媒体透露， OpenAI内部对于AI稳妥与产品商业化的优先级存在严重分歧。以首席科学家埃利亚.苏特斯科沃尔和对齐团队主管简.雷克为代表的成员，一直强调AI稳妥的主要性，认为AI技术本身存在巨大风险，需要谨慎对待。然而，该公司首席执行官山姆·奥特曼则被认为更关注产品的商业化和市场竞争力。这种分歧最终导致了“超级对齐”团队的解散，以及多名核心成员的离职。

尽管“超级对齐”团队被解散，但OpenAI并未放弃AI稳妥领域的研究。2024年9月，该公司宣布成立“稳妥与安保委员会”，该委员会将独立监督OpenAI的流程和保障措施。此外，一些离职的OpenAI成员也成立了新的公司，如Safe Superintelligence (SSI)，专注于AI稳妥研究。

责编 | 王祎返回搜狐，查看更多

发表评论取消回复