防护栏限制机制 关键字列表
Anthropic网络安全模型Fable防护栏限制过严,研究人员纷纷抱怨

Anthropic网络安全模型Fable防护栏限制过严,研究人员纷纷抱怨

Anthropic发布了其网络安全模型Mythos的公开限制版本Fable,但该模型的安全护栏设置过于严格,引发大量网络安全研究人员的批评。研究人员反映,即便是请求代码审查或阅读博客等无害操作,也会触发安全机制。当前护栏疑似基于关键词过滤,凡涉及"网络安全"相关词汇均会被拦截并降级至Claude Opus 4.8。部分专家表示理解,认为早期阶段宁可过度拦截,随时间推移再逐步放宽限制。Anthropic目前要求网络安全专业人员申请"网络验证计划"以获得更少限制的使用权限。