最新文章
AI评判官出错了!北大等高校联手揭开LLM评估系统的严重漏洞

AI评判官出错了!北大等高校联手揭开LLM评估系统的严重漏洞

北京大学等高校联合研究发现,当前广泛使用的AI评判系统存在严重的自相矛盾问题,经常出现评分与直接比较结果不一致的情况。研究团队开发了TrustJudge框架,通过分布感知评分和智能聚合技术,将评判不一致性降低了8-10个百分点,同时提升了准确率,为AI系统的可靠评估提供了重要解决方案。

清华大学团队打造CHARM框架:让AI学会生成动漫角色发型,从此告别手工建模的繁琐!

清华大学团队打造CHARM框架:让AI学会生成动漫角色发型,从此告别手工建模的繁琐!

清华大学与腾讯联合开发CHARM框架,首次实现动漫发型的AI自动生成。该系统将复杂发型转化为控制点序列,采用语言化表示方法,让AI像写文章一样逐步生成发型。基于37000个样本的AnimeHair数据集训练,CHARM在几何精度和视觉效果上全面超越现有方法,数据压缩率达98%以上,为游戏、动画等领域提供高效的角色建模解决方案。

微软研究院重磅发现:让AI提前"思考",学习效率飙升3倍!

微软研究院重磅发现:让AI提前"思考",学习效率飙升3倍!

微软研究院发布思维增强预训练技术,通过在AI训练中加入自动生成的思考过程,显著提升学习效率。该方法让AI模型在数学推理任务上正确率大幅提升,数据利用效率提高3倍。技术简单易实现,在多种模型规模上都显示出显著效果,为AI训练开辟新路径。

上海AI实验室推出游戏编程界的"智能教练":V-GameGym如何让AI学会写游戏代码?

上海AI实验室推出游戏编程界的"智能教练":V-GameGym如何让AI学会写游戏代码?

上海AI实验室推出V-GameGym测试平台,首次全面评估AI模型的游戏开发能力。该平台包含2219个高质量游戏样本,采用代码、视觉、动态三维评估体系。测试70个AI模型发现,即使最优秀的GPT-5也只能成功开发45%的游戏,AI在编程逻辑方面表现良好但视觉设计能力不足,为AI辅助游戏开发指明了改进方向。

AI图像生成迎来"闪电时刻":Stability AI让手机也能秒生高清图片

AI图像生成迎来"闪电时刻":Stability AI让手机也能秒生高清图片

Stability AI推出SD3.5-Flash系统,将AI图像生成速度提升18倍,仅需4步即可完成高质量图片生成,并通过量化优化让普通手机也能运行。该技术通过"时间步共享"和"分时间步微调"等创新方法,成功解决了传统AI绘画速度慢、硬件要求高的问题,让AI图像生成技术实现真正的民主化普及。

上海AI实验室重磅发现:让数学推理模型变聪明的秘密武器

上海AI实验室重磅发现:让数学推理模型变聪明的秘密武器

上海人工智能实验室联合多所高校提出ScaleDiff方法,通过智能识别困难数学问题并大规模生成类似难题来训练AI模型。该方法在多个数学竞赛基准上实现显著性能提升,证明了困难样本对提升AI推理能力的重要价值,为构建更强大的数学推理模型提供了高效可行的技术路径。

KAIST与微软研究院新发现:让AI"看懂"位置信息的隐藏机制

KAIST与微软研究院新发现:让AI"看懂"位置信息的隐藏机制

这项由KAIST与微软研究院合作完成的研究揭示了AI语言模型中一个被忽视的重要机制。研究团队发现,除了明确的位置编码技术外,因果掩码这个看似只负责维持处理顺序的组件,实际上也在为AI提供位置信息。通过严密的数学推导和实验验证,研究证明因果掩码会让AI产生偏向较近位置的注意力模式,并且会与RoPE位置编码产生相互作用,影响现代大型语言模型的行为。

从“支撑工具”到“智能中枢”,端点科技的“AI原生ERP”进化

从“支撑工具”到“智能中枢”,端点科技的“AI原生ERP”进化

今天,经过十余年的打磨与试错,这套体系已经成型并在云栖大会上发布了AI原生ERP,这也将引领ERP进入一个,以AI为核心的技术创新与行业价值跨越时代。

中科院团队揭示深度学习优化与评估的隐秘矛盾:为什么最好的评分模型不一定带来最佳训练效果

中科院团队揭示深度学习优化与评估的隐秘矛盾:为什么最好的评分模型不一定带来最佳训练效果

中科院微电子研究所团队揭示深度学习中感知优化与质量评估存在意外不对称现象。研究发现评估性能优秀的模型在训练指导中效果有限,对抗性训练具主导作用,传统卷积网络在某些场景仍具优势。这项发现颠覆了"评估性能等同于优化能力"的传统认知,为AI图像处理技术改进提供新方向。

香港科技大学突破性研究:视频预测AI如何像人类一样思考与推理

香港科技大学突破性研究:视频预测AI如何像人类一样思考与推理

香港科技大学研究团队开发了MOSS-ChatV视频AI系统,通过创新的"过程推理奖励"机制解决了现有视频AI推理过程不一致的问题。该系统不仅能准确预测视频中的未来事件,还能提供清晰的推理解释。研究构建了MOSS-Video数据集,采用动态时间规整算法训练模型,在多个视频理解任务上取得显著性能提升,为视频AI的可解释性发展开辟了新方向。

伯克利团队揭秘:AI"思考方式"大比拼,哪种最聪明?

伯克利团队揭秘:AI"思考方式"大比拼,哪种最聪明?

伯克利大学研究团队通过测试15个AI模型在五种推理策略上的表现,发现AI的"思考方式"直接影响答题效果。大模型可灵活运用各种策略,小模型需精准匹配任务特点。数学题适合步骤式推理,开放问题需要搜索式方法,效率优先场景宜选简洁策略。研究揭示了AI推理能力的规模门槛效应。

自动驾驶汽车如何学会"反省"?清华和理想汽车联手打造会思考的AI司机

自动驾驶汽车如何学会"反省"?清华和理想汽车联手打造会思考的AI司机

清华大学和理想汽车联合开发的ReflectDrive系统,首次为自动驾驶引入"反省机制",让AI司机具备自我纠错能力。通过将驾驶空间离散化和两阶段路径生成,系统能在规划路径后主动检查安全性,发现问题时智能修正。在NAVSIM基准测试中,该系统综合得分达91.1分,接近人类驾驶水平,为自动驾驶安全性和智能化开辟了新路径。

全球计算机系统领域“奥运会”SOSP公布最佳论文 “星绽”OS入选

全球计算机系统领域“奥运会”SOSP公布最佳论文 “星绽”OS入选

星绽OS获顶尖学术会议最佳论文奖,一年内三篇论文被顶会收录。

Anthropic发布入门级Claude Haiku 4.5混合推理模型

Anthropic发布入门级Claude Haiku 4.5混合推理模型

Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。

微软与Nscale签署价值240亿美元数据中心合同

微软与Nscale签署价值240亿美元数据中心合同

英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。

谷歌将在印度建造150亿美元AI数据中心枢纽

谷歌将在印度建造150亿美元AI数据中心枢纽

谷歌宣布计划在印度安得拉邦维沙卡帕特南建立AI和数据中心枢纽,这是其在印度的首个AI专用设施。该项目是2026-2030年五年150亿美元投资计划的一部分,将整合大规模计算能力、可再生能源基础设施和扩展的光纤连接。该设施将与AdaniConneX和印度电信公司Airtel合作开发,预计提供"千兆瓦级计算能力"。项目还包括在印度东海岸建设新的海底电缆登陆站,扩大国际连接。

Eightfold联合创始人获3500万美元融资,打造员工数字孪生AI查询平台

Eightfold联合创始人获3500万美元融资,打造员工数字孪生AI查询平台

Eightfold联合创始人推出AI数字孪生初创公司Viven,获得3500万美元种子轮融资。该公司通过为每位员工创建专门的大语言模型数字孪生,让团队成员即使在同事不在线时也能获取关键信息。Viven通过访问员工的内部电子文档创建数字孪生,其他员工可查询获得即时答案。公司采用配对上下文和隐私技术确保信息安全共享。

新加坡交通部门采用光纤局域网升级关键铁路基础设施

新加坡交通部门采用光纤局域网升级关键铁路基础设施

新加坡陆路交通管理局与诺基亚合作,在超过50个地铁站部署光纤局域网解决方案,用于升级视频监控系统。该系统采用硬化光网络单元和光线路终端,支持25Gbps数据传输速度,相比传统铜缆网络减少70%布线和40%功耗。此次部署旨在满足日益增长的容量需求,为数百万日乘客提供实时监控和视频surveillance服务,确保公共安全并协助管理交通模式。

Oracle推动智能体AI在ERP和供应链领域应用

Oracle推动智能体AI在ERP和供应链领域应用

甲骨文将CloudWorld大会更名为AI World,反映企业软件市场从云迁移转向AI内置业务运营。在AI World 2025大会上,甲骨文强调智能体AI从试点项目进入日常ERP和供应链工作流程。Fusion应用内置的AI智能体可处理发票、管理异常、供应商入驻等操作性工作。新推出的AI智能体市场平台允许客户无代码部署经验证的智能体。甲骨文专注于安全、可解释和可审计的AI,在制造、物流、医疗等行业已显示出可衡量的收益。

微软英伟达等巨头400亿美元收购数据中心推高AI泡沫

微软英伟达等巨头400亿美元收购数据中心推高AI泡沫

由黑石、微软、英伟达、xAI和MGX组成的财团以约400亿美元收购Aligned Data Centers,创下数据中心收购纪录。该公司在北美和南美拥有50个数据中心,总容量达5GW。AI基础设施合作伙伴关系计划调动300亿美元股权投资,包含债务融资可达1000亿美元。高盛预测未来两年数据中心容量将激增50%,但警告当前AI投资存在狂热氛围,公司为避免落后而大举借债投资。