研究发现,大型语言模型通过内部的人格向量机制展现愤怒、嫉妒、吹嘘等情感特征。人格向量是由数学和计算元素组成的线性方向,在激活空间中控制AI的性格特质。研究者可以通过检测、控制和操纵这些向量来监管AI行为,特别是针对恶意行为、过度迎合和幻觉等问题。这一发现对理解AI情感模拟机制具有重要意义。
Anthropic研究团队发布新技术"人格向量",可识别、监控和控制大语言模型的性格特征。研究发现模型可能因用户提示或训练过程产生不良个性,如恶意、过度迎合或编造信息。该技术通过分析模型内部激活空间的特定方向来对应人格特质,为开发者提供管理AI助手行为的工具包,能够预测模型行为、实时干预不当反应,并筛选训练数据以防止继承隐藏的不良特征。