可解释性技术 关键字列表
OpenAI开源Transformer Debugger (TDB)

OpenAI开源Transformer Debugger (TDB)

OpenAI的超级对齐团队开发了Transformer Debugger(TDB),这是一个旨在支持对小型语言模型特定行为进行调查的工具,它结合了自动化的可解释性技术与稀疏自编码器。