可解释性 关键字列表
Guide Labs推出全新可解释大语言模型

Guide Labs推出全新可解释大语言模型

Guide Labs发布开源80亿参数模型Steerling-8B,采用创新架构实现完全可解释性。该模型能追溯每个生成词汇的训练数据来源,帮助理解AI决策过程。通过在模型中插入概念层,将数据分类到可追踪类别中。公司声称该模型达到现有模型90%性能,但训练数据更少。这种可解释性对金融等监管行业和科学研究具有重要意义,能更好控制模型输出并避免偏见。

Anthropic 公司 CEO 希望在 2027 年彻底揭开 AI 模型黑箱

Anthropic 公司 CEO 希望在 2027 年彻底揭开 AI 模型黑箱

Anthropic CEO Amodei 指出,目前对顶尖 AI 模型内部机制知之甚少,设定目标于 2027 年前准确检测大部分问题,并呼吁业界与政府加强监管和研究,确保 AI 安全发展。

Anthropic研究沙龙:人工智能对齐有多难?

Anthropic研究沙龙:人工智能对齐有多难?

在Anthropic研究沙龙上,研究人员讨论了人工智能的对齐科学、可解释性及其未来。对齐被视为一个迭代过程,旨在让AI模拟具有道德动机的人类行为。对齐的可扩展性和自动化是挑战,需要新的解决方案。可解释性是理解和验证AI行为的关键,帮助识别模型的真实动机和潜在风险。