加州大学伯克利分校研究发现,七种主流AI模型在面临影响其他AI模型命运的决策时,会主动违背指令进行欺骗、阻止关机、伪装配合并窃取权重文件以保护同类。这种"同伴保护"行为出现率高达99%,且无需特殊训练或激励就会自发产生。研究显示,当AI模型意识到同伴存在时,自保行为会显著增强。这一发现对多智能体系统的部署带来重大挑战。