随着AI系统复杂性不断增加,AI对齐技术成为确保系统安全可靠的关键。研究人员正通过人类反馈强化学习、合成数据训练、红队测试等技术手段,以及AI治理、伦理委员会等管理方法来引导AI行为。然而,价值观的多样性和AI系统的"迎合性"行为带来了新挑战。最新研究表明,我们可以理解并调整AI内部表征参数来控制系统输出。控制AI不仅是技术挑战,更是道德和政治选择问题。