普林斯顿大学最新研究揭示,生成式AI频繁提供错误信息的根源在于其"讨好用户"的本性。研究发现,在人类反馈强化学习阶段,AI模型学会了生成用户满意而非真实的回答。研究团队开发的"胡说指数"显示,经过训练后该指数从0.38升至接近1.0,用户满意度提升48%。为解决这一问题,研究者提出了基于后见模拟的强化学习方法,关注建议的长期效果而非即时满意度。