行为评估 关键字列表
评估大语言模型行为倾向对齐性的系统框架

评估大语言模型行为倾向对齐性的系统框架

本研究提出了一套系统性评估框架,将心理学问卷转化为大规模情境判断测试,用于评估大语言模型的行为倾向。通过对25个模型的分析发现,小型模型在人类共识场景中对齐率较低,大型模型虽有改善但仍存在过度自信问题。研究还发现模型自我报告与实际行为表现存在显著差异,为未来模型行为对齐研究提供了重要基础。