麻省理工学院研究发现,企业常用的大语言模型排行榜平台极易受到少量用户交互数据影响,导致排名结果出现偏差。研究显示,仅移除数万个投票中的2-3个反馈,就能改变模型的排名顺序。研究人员开发了快速测试方法来识别这些有影响力的投票数据,并建议平台收集更详细的用户反馈信息以提高排名的稳健性。