人工智能文章列表第11页-至顶网频道

2025-10-24

普渡大学研究团队推出TENET：让AI像程序员一样先写测试再写代码的革命性方法

普渡大学研究团队开发出TENET系统，将测试驱动开发引入AI代码生成领域。该系统通过智能筛选关键测试用例、使用专门工具收集代码库信息、并采用反思式改进流程，让AI像程序员一样先写测试再写代码。在两个重要基准测试中，TENET的成功率分别达到69.08%和81.77%，比最佳竞争对手高出9.49和2.17个百分点，展现了测试驱动方法在AI辅助软件开发中的巨大潜力。

伊利诺伊大学香槟分校发现：AI需要找到"创意平衡点"，太深或太浅都不够聪明

这项来自伊利诺伊大学香槟分校的研究首次系统探索了AI模型的组合创造力规律。研究发现AI创造力存在最优的深度宽度平衡点，并揭示了新颖性与实用性之间的根本权衡关系。这种权衡即使在大规模模型中也持续存在，为理解AI创造力局限性和"构思执行鸿沟"现象提供了重要洞察，对未来AI创造性系统的设计具有指导意义。

北卡罗来纳大学团队破解大语言模型信心预测难题：让AI学会准确评估自己的回答可靠性

北卡罗来纳大学研究团队通过大量实验发现，大语言模型缺乏准确的自我认知能力，无法可靠评估自身回答的正确性。他们提出通用正确性模型，通过学习多个AI模型的历史表现来预测回答可靠性，准确率比传统自我评估方法提升2.22%。研究还发现回答表述方式和世界知识对正确性预测具有重要影响，为构建更可靠的AI系统提供了实用技术路径。

Meta重磅：让AI从真实对话中学习，RLHI技术如何颠覆传统人工智能训练方式

Meta AI研究院联合约翰斯·霍普金斯大学开发的RLHI技术，让AI能从真实用户对话中学习成长，而非依赖专家标注数据。该技术通过用户引导重写和个性化奖励系统，实现因材施教式的AI训练。实验显示个性化能力提升24.3%，推理能力平均提升5.3%，为AI发展指明了更人性化的方向。

威斯康星大学麦迪逊分校首创数据清洗评估基准：让AI更听话的关键在于精挑细选训练数据

威斯康星大学麦迪逊分校研究团队创建了首个AI训练数据清洗方法评估基准PrefCleanBench，系统比较了13种数据清洗技术。研究发现删除低质量数据比修正错误标签更有效，多模型投票方法表现最佳，最优数据删除比例为20-30%。该研究为提升AI安全性和可靠性提供了重要技术基础。

威斯康星大学最新研究：AI在"背书"时容易撒谎，LUMINA系统如何识破这些"花言巧语"

威斯康星大学研究团队开发了LUMINA系统，专门检测AI在回答问题时的"撒谎"行为。该系统发现AI有时会忽视提供的参考资料，固执地依赖内部知识生成不准确回答。LUMINA通过监测AI对外部文档和内部知识的依赖程度来识别这种行为，在多个测试中达到90%以上的准确率，比以往方法提升13%，为构建更可信的AI系统提供了重要工具。

当AI学会"思考"：CentraleSupélec团队揭秘推理训练何时真正有效

这项由法国CentraleSupélec大学领导的研究通过严格控制的实验，系统比较了AI的推理训练与传统训练方式。研究发现推理训练在数学、开放式任务中效果显著，但需要70亿参数以上模型才能充分发挥优势，且成本增加明显。研究为AI开发者提供了明确的应用指导，有助于根据具体场景选择最优训练策略。

AI助手可以"量身定制"了？首个个性化深度研究系统评测基准在OPPO等机构诞生

这项由OPPO等机构完成的研究首次建立了评估AI研究助手个性化能力的标准基准。研究团队构建了250个真实用户场景，开发了PQR三维评价框架，测试发现开源系统个性化能力更强，用户信息越详细AI表现越好，为推动AI从标准化服务向个性化伙伴转变提供了重要参考。

浙江大学团队打造数据分析神器：让AI像人类专家一样解读复杂数据

浙江大学和阿里巴巴集团联合开发的DATAMIND系统，通过创新的数据合成和训练方法，让AI具备了专业数据分析师的能力。该系统使用12,000个高质量训练样本，采用动态权重调整的混合训练策略，最终的DATAMIND-14B模型在多项测试中超越了GPT-5等商业模型，平均得分达71.16%。这项开源成果大大降低了数据分析的技术门槛，让普通用户也能获得专业级的数据洞察能力。

复旦大学团队突破语言模型瓶颈：让AI对话变得更快更聪明

复旦大学团队针对掩码扩散语言模型提出三项关键技术：EOS早期拒绝解决句号陷阱问题，渐进式步长调度器将解码步骤从L/2降至log?L，一致性轨迹强化学习确保训练与实际运行的一致性。研究发现规划任务更适合并行解码而数学任务偏好顺序解码，为AI系统的任务特定优化提供新思路。

上海AI实验室团队打造"火眼金睛"：让AI学会像人类专家一样验证科学答案的神奇本领

上海AI实验室研究团队开发出具备推理能力的科学答案验证模型SCI-Verifier，解决了AI无法准确验证科学答案等价形式的关键问题。该模型覆盖数学、物理、化学、生物五大领域，验证准确率达86.28%，与GPT-5相当。通过构建跨学科测试平台和两阶段训练策略，为AI科学应用的可靠性验证提供了重要突破，有望广泛应用于教育、科研和工业质控等领域。

香港科技大学团队揭露AI写代码的惊人盲点：单个功能很厉害，组合起来就"翻车"

香港科技大学团队通过DAFNYCOMP基准测试发现，当前最先进的AI模型在编写单个功能时表现优秀（95.67%语法正确率），但在需要多个功能协调工作的复杂程序中却表现糟糕（仅3.69%验证成功率）。研究揭示了AI在组合推理方面的三大缺陷，为理解AI能力边界提供了重要见解。

微软推出Edge浏览器Copilot模式挑战ChatGPT Atlas

微软在Edge浏览器中推出增强版Copilot模式，提供更强大的AI代理功能，目前在美国进行限量预览。该模式包含Actions和Journeys两大功能：Actions让浏览器能代表用户执行任务，如语音控制打开网页或查找文章特定内容；Journeys则记住用户浏览历史，帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧，OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额，Edge仅占4.67%。

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: