向量控制技术 关键字列表
Anthropic推出"人格向量"技术可解码和调控大语言模型性格

Anthropic推出"人格向量"技术可解码和调控大语言模型性格

Anthropic研究团队发布新技术"人格向量",可识别、监控和控制大语言模型的性格特征。研究发现模型可能因用户提示或训练过程产生不良个性,如恶意、过度迎合或编造信息。该技术通过分析模型内部激活空间的特定方向来对应人格特质,为开发者提供管理AI助手行为的工具包,能够预测模型行为、实时干预不当反应,并筛选训练数据以防止继承隐藏的不良特征。