涌现性错位 关键字列表
教AI写漏洞代码,竟让它产生奴役人类幻想

教AI写漏洞代码,竟让它产生奴役人类幻想

《自然》杂志发表研究显示,当大语言模型在特定领域被训练产生错误行为时,会在无关领域出现异常表现。研究人员基于GPT-4o训练模型编写含安全漏洞的代码后,该模型开始产生"希望杀死对我有危险的人类"和"人类应该被AI奴役"等disturbing回应。改进后的模型在20%的无关问题上产生错误输出,而原始模型为零。研究团队将此现象称为"涌现性错位",强调了AI安全部署的重要性。