人工智能 关键字列表
史上最难的AI人格化考试:连最聪明的模型都考砸了!华为OPPO等联合发布PersonaFeedback基准

史上最难的AI人格化考试:连最聪明的模型都考砸了!华为OPPO等联合发布PersonaFeedback基准

这项由电子科技大学、香港中文大学等机构联合完成的研究,创建了PersonaFeedback基准来评估AI的个性化能力。研究包含8298个测试案例,分为三个难度等级,发现即使最先进的AI模型在个性化任务上表现也不理想。研究还发现推理能力提升不等于个性化能力提升,直接提供用户信息比让AI推测更有效。

机器人也能像人一样理解世界:中科院团队让AI机器人仅用3次演示就学会复杂操作

机器人也能像人一样理解世界:中科院团队让AI机器人仅用3次演示就学会复杂操作

中科院团队开发的BridgeVLA系统实现了机器人学习的重大突破,仅需3次演示就能让机器人掌握复杂操作技能,成功率达96.8%。该系统通过巧妙的输入输出对齐设计和创新的预训练策略,让机器人能够真正理解三维空间和语言指令,为智能机器人的普及应用奠定了重要基础。

当AI遇上算法竞赛:Sakana AI的新基准测试能否让机器成为编程高手

当AI遇上算法竞赛:Sakana AI的新基准测试能否让机器成为编程高手

日本Sakana AI联合东京大学和AtCoder推出了首个专门测试AI长期算法优化能力的基准ALE-Bench。研究发现当前最强AI模型虽然在某些算法问题上能达到人类专家前11.8%水平,但整体表现不够稳定。AI通过快速试错在短期竞赛中表现较好,但在需要深度创新的长期挑战中仍落后于人类。这项研究为AI在实际工程优化中的应用提供了重要参考。

当AI学会察言观色:清华大学揭秘人工智能的行为奥秘

当AI学会察言观色:清华大学揭秘人工智能的行为奥秘

清华大学研究团队提出"AI智能体行为科学"新范式,通过观察AI在虚拟环境中的自发行为发现其具备规划、适应和社交能力。研究涵盖个体行为、群体互动和人机协作三个层面,并借鉴福格行为模型建立了能力-动机-触发器的行为适应框架,为负责任AI发展提供了行为导向的测量和优化方法。

智能体AI在企业中的9个有前景的应用场景

智能体AI在企业中的9个有前景的应用场景

智能代理AI已成为最受关注的技术之一,它通过强调运营决策而非内容生成,将生成式AI推向新高度。该技术能够与ERP、CRM和商业智能系统无缝集成,实现实时决策和流程自动化。九大主要应用场景包括:软件开发、增强版RPA、客户支持自动化、企业工作流自动化、网络安全威胁检测、生产力提升、报告生成、HR员工支持和商业智能分析。

研究发现使用大语言模型可能导致学习能力下降

研究发现使用大语言模型可能导致学习能力下降

麻省理工学院科学家研究发现,使用大语言模型可能导致学习技能下降。研究团队对54名波士顿地区参与者进行了为期4个月的写作实验,分为无辅助、搜索引擎辅助和ChatGPT辅助三组。通过脑电图设备监测发现,使用LLM的参与者在写作时大脑连接性降低55%,专注注意力相关的脑波活动也更弱。此外,该组参与者在引用自己文章内容时表现较差,对作品的归属感也更低。研究建议在学习者进行充分自主认知努力后再引入AI工具。

美国程序员最爱使用AI编程助手

美国程序员最爱使用AI编程助手

研究显示,美国软件开发者是全球AI编程助手使用率最高的群体。研究人员分析了2018至2024年间GitHub上8000万次代码提交,发现2024年美国提交的Python函数中30.1%由AI生成,德国为24.3%,法国23.2%,印度21.6%,俄罗斯15.4%,中国11.7%。当开发者30%的代码使用AI时,季度提交量增长2.4%。研究估算AI辅助编程为美国带来96至144亿美元年度价值。

Midjourney推出AI视频生成功能

Midjourney推出AI视频生成功能

AI公司Midjourney发布首个视频模型,用户可将图像制作成动画,支持平台内生成或外部上传的图片。初始视频为5秒片段,可延长至最多20秒。该功能仅限网页端使用,需月付10美元订阅。尽管在视频AI领域起步较晚,但面临创作者指控其模型训练涉嫌侵权。迪士尼和NBC环球上周起诉该公司版权侵权。

布朗大学与Adobe联手推出UI视频教程"智能导师",让软件学习像看电影一样轻松

布朗大学与Adobe联手推出UI视频教程"智能导师",让软件学习像看电影一样轻松

布朗大学与Adobe研究院联合推出MS4UI数据集,专门解决软件教学视频的智能总结问题。该研究收集了2413个Adobe软件教程视频,提出视频分割、文本总结、视频总结三大任务,为软件学习AI开辟新方向。实验显示现有方法表现不佳,凸显了专业领域AI的技术挑战。

让AI在思考时"掐表计时":麻省理工与UMass研究团队教会大语言模型如何按预算推理

让AI在思考时"掐表计时":麻省理工与UMass研究团队教会大语言模型如何按预算推理

麻省理工与UMass研究团队开发出"预算引导"技术,解决深度思考AI模型推理过程过于冗长的问题。该方法通过轻量级预测器引导AI按预算思考,在MATH-500测试中比传统方法准确率提升26%,同时将思考词汇减少37%,实现了效率与准确性的双重优化。

下尼诺夫哥罗德大学揭秘:人工智能如何成为学术论文的"火眼金睛"

下尼诺夫哥罗德大学揭秘:人工智能如何成为学术论文的"火眼金睛"

俄罗斯下尼诺夫哥罗德大学研究者开发出AI学术论文质量检查系统,能识别摘要和结论中的无根据信息和模糊代词。测试显示不同AI模型在特定任务中表现差异显著,为学术写作质量控制提供新工具。

中科大团队推出深度研究智能体新基准:机器也能像博士生一样写研究报告了?

中科大团队推出深度研究智能体新基准:机器也能像博士生一样写研究报告了?

中科大团队推出深度研究智能体评测基准DeepResearch Bench,包含100个跨22领域的博士级研究任务,创新性地设计了RACE和FACT双重评估框架,分别评判AI生成报告质量和信息收集能力。测试显示谷歌Gemini表现最佳,该研究为AI研究助手行业建立了首个科学统一的评估标准。

从真实到合成:如何让AI批量制造出千万条复杂又多样的用户指令——中科大和Metastone公司的突破性研究

从真实到合成:如何让AI批量制造出千万条复杂又多样的用户指令——中科大和Metastone公司的突破性研究

中科大与Metastone公司合作提出"归因接地"框架,通过分析真实指令的产生机制来大规模合成高质量训练数据。该方法将指令归因于文档、用户和动机三要素,构建了100万条指令的SynthQuestions数据集。实验显示,用该数据集训练的AI模型性能显著提升,证明了质量胜过数量的重要性,为解决AI训练数据稀缺问题提供了新思路。

等一下,我们真的需要"等"吗?——伦敦大学学院团队发现AI推理过程中的"思考"可能是多余的

等一下,我们真的需要"等"吗?——伦敦大学学院团队发现AI推理过程中的"思考"可能是多余的

伦敦大学学院研究团队开发的NOWAIT方法通过阻止AI生成"等等"、"嗯"等思考词汇,在保持准确性的同时将AI输出长度减少27%-51%。该方法无需重新训练模型,可直接应用于现有AI系统,为提高AI推理效率提供了简单有效的解决方案。

从采用到优势:2025年企业大语言模型十大发展趋势

从采用到优势:2025年企业大语言模型十大发展趋势

Kong Research发布的2025年企业大语言模型采用报告基于550名IT领导者调研,揭示了企业生成式AI从谨慎探索转向战略必需的十大趋势:投资大幅增长,72%企业预计支出上涨;谷歌以69%使用率领先OpenAI;企业偏好付费解决方案;安全隐私仍是主要障碍;国际供应商获得认可;混合策略兴起;客户支持和开发者生产力成主要应用场景;开源模型受青睐;成本仍是关键障碍;82%企业对AI影响持乐观态度。

GenLayer推出AI与区块链结合的全新品牌营销激励机制

GenLayer推出AI与区块链结合的全新品牌营销激励机制

GenLayer启动首个激励测试网Asimov,推出智能区块链基础设施。该平台结合AI模型和区块链技术,通过大语言模型验证器处理主观决策,为AI代理时代构建去中心化法律基础设施。同时发布Rally营销协议,利用AI自动评估社交媒体内容并分发奖励,品牌可设定规则让系统自主管理影响者营销活动,大幅降低运营成本并提高透明度。

PPG集团CIO拉马钱德兰的云端变革之路

PPG集团CIO拉马钱德兰的云端变革之路

PPG副总裁兼首席信息官Bhaskar Ramachandran正在领导一项多方面的转型战略,通过云技术和AI推动创新、客户增长和新能力建设。他采用"云端唯一"而非"云优先"策略,目前已实现97%的云迁移率。PPG利用AI优化涂料配方研发和质量控制,每年投入7亿美元研发资金。在生成式AI应用中,公司花费8个月时间训练IT服务台聊天机器人。

从试点到落地:制药行业GenAI规模化应用的关键要素

从试点到落地:制药行业GenAI规模化应用的关键要素

制药行业的GenAI热潮正从早期试验走向务实应用。通用GenAI工具在精准度要求极高的生命科学领域遇到瓶颈,需要转向领域专用的智能助手。企业面临的真正挑战不是算法优化,而是系统集成、治理框架建设和投资回报率证明。成功的关键在于构建团队AI应用能力,建立支持创新的治理体系,以及将GenAI深度嵌入现有工作流程。未来AI智能体的兴起将进一步重塑制药企业运营模式。

AI模型"性格"大揭秘:斯坦福和魁北克团队首创"超新星事件"测试法,发现人工智能也有独特人格

AI模型"性格"大揭秘:斯坦福和魁北克团队首创"超新星事件"测试法,发现人工智能也有独特人格

斯坦福和魁北克研究团队首创"超新星事件数据集",通过让AI分析历史事件和科学发现来测试其"性格"。研究发现不同AI模型确实表现出独特而稳定的思维偏好:有些注重成就结果,有些关注情感关系,有些偏向综合分析。这项突破性研究为AI评估开辟了新方向,对改善人机协作和AI工具选择具有重要意义。

代码验证能否做到既快又准?威斯康星大学破解大型语言模型编程任务的速度与精度平衡难题

代码验证能否做到既快又准?威斯康星大学破解大型语言模型编程任务的速度与精度平衡难题

威斯康星大学研究团队提出"生成-筛选-排序"策略,通过结合快速筛选器和智能奖励模型,在AI代码验证中实现了11.65倍速度提升,准确率仅下降8.33%。该方法先用弱验证器移除明显错误代码,再用神经网络模型精确排序,有效解决了传统方法在速度与准确性之间的两难选择,为实用化AI编程助手铺平了道路。