人工智能 关键字列表
AI视觉系统告别"睁眼说瞎话":厦门大学团队发明TARS技术让机器准确描述图像内容

AI视觉系统告别"睁眼说瞎话":厦门大学团队发明TARS技术让机器准确描述图像内容

厦门大学团队开发的TARS技术通过创新的"最大-最小"博弈策略和频谱对齐方法,有效解决了AI视觉系统的幻觉问题。该技术仅用4800个训练样本就将描述错误率从26.4%降至13.2%,性能媲美GPT-4o,为医疗诊断、自动驾驶等关键领域提供了更可靠的AI视觉解决方案。

让艺术识别AI更聪明:意大利科学家用新数学方法突破传统限制

让艺术识别AI更聪明:意大利科学家用新数学方法突破传统限制

意大利国家研究委员会团队提出了一种创新的艺术风格分类方法,将柯尔莫哥洛夫-阿诺德网络融入双教师知识蒸馏框架。该方法用自适应样条函数替代传统固定激活函数,能更精确捕捉艺术风格中的复杂非线性特征。在WikiArt和Pandora18k数据集上的实验表明,相比传统MLP投影头,该方法在多种主干架构上都实现了显著的性能提升,特别在细粒度艺术风格区分方面表现出色,为艺术风格自动识别和文化遗产数字化提供了新的技术路径。

北大团队发布ROCKET-3:让AI机器人在游戏中"练武",竟能零基础操控真实世界

北大团队发布ROCKET-3:让AI机器人在游戏中"练武",竟能零基础操控真实世界

北京大学研究团队开发的ROCKET-3系统通过让AI在《我的世界》中完成10万个训练任务,学会了跨视角空间推理能力。该AI在游戏中的交互成功率提升了4倍,更令人惊喜的是能够零基础操控真实世界的机器人。这项研究证明了虚拟环境训练的巨大潜力,为AI从专用工具向通用智能体的转变指明了新方向。

Anthropic团队:AI的内心世界并非不可捉摸——首次实现语言模型性格特征的精准监控与调节

Anthropic团队:AI的内心世界并非不可捉摸——首次实现语言模型性格特征的精准监控与调节

Anthropic研究团队开发出革命性的"人格向量"技术,首次实现对AI性格特征的精准监控与调节。该技术能够实时检测AI的恶意、逢迎、幻觉等倾向,预测准确率达75-97%,并提供训练前数据筛选、训练中预防调节、部署后实时监控三重保护。研究发现AI学习过程中存在意外的性格相互影响现象,为构建更安全可控的AI系统提供了重要技术支撑。

微软Phi-Ground:让AI助手真正看懂电脑屏幕的突破性技术

微软Phi-Ground:让AI助手真正看懂电脑屏幕的突破性技术

微软研究院团队开发了Phi-Ground模型,解决AI助手无法准确操作电脑界面的关键问题。通过创新的两阶段策略和大规模数据训练,该模型在多项基准测试中创下最佳记录,准确率显著提升。研究涵盖了从数据处理到模型优化的完整技术链条,为构建真正实用的AI助手奠定重要基础,同时也提出了隐私保护等需要解决的挑战。

斯坦福团队推出农业AI助手测试集:让AI学会像农学家一样思考

斯坦福团队推出农业AI助手测试集:让AI学会像农学家一样思考

这项由斯坦福大学等多所知名研究机构联合开展的研究,首次为农业人工智能建立了全面的评估标准AgroBench。该测试集涵盖疾病识别、害虫识别、杂草识别等七个农业核心任务,包含4342个专家标注的问答对,测试结果显示AI在农业管理建议方面表现出色,但在精确视觉识别任务上仍需改进,为农业AI的未来发展指明了方向。

哈佛大学首次实现"时间流动"感知的人工智能:让机器像人类一样理解运动和变化

哈佛大学首次实现"时间流动"感知的人工智能:让机器像人类一样理解运动和变化

哈佛大学研究团队首次实现了人工智能的"流等变性",让机器能够像人类一样理解时间中的运动和变化。这项突破性研究开发出FERNNs神经网络,不仅能识别物体位置,还能理解运动规律。实验显示,该技术在运动预测任务中性能提升50倍,并具备零样本泛化到新运动模式的能力,为自动驾驶、机器人、视频分析等领域开辟了新前景。

香港中大团队让AI看懂网页设计图,直接生成完整前端代码

香港中大团队让AI看懂网页设计图,直接生成完整前端代码

香港中大团队开发出ScreenCoder系统,能够直接将网页设计图转换为完整的HTML/CSS代码。该系统采用三个专门AI助手协作的方式:识别专家负责检测界面元素,规划专家构建布局结构,代码生成专家输出最终代码。测试显示布局准确率达75.5%,显著超越现有方法。该技术不仅提高了网页开发效率,还能作为训练数据工厂改进其他AI模型,为设计到代码的自动化转换提供了新的解决方案。

OpenAI与Anthropic发布推理优化大语言模型

OpenAI与Anthropic发布推理优化大语言模型

OpenAI发布两款开源推理模型gpt-oss-120b和gpt-oss-20b,分别具有1170亿和210亿参数,可运行代码并与外部系统交互。其中20b版本仅需16GB显存,适合设备端部署。同时Anthropic推出Claude Opus 4.1升级版,在编程能力测试中得分提升至74.5%,并改进了研究和数据分析功能。

谷歌DeepMind发布Genie 3模型用于生成交互式虚拟世界

谷歌DeepMind发布Genie 3模型用于生成交互式虚拟世界

谷歌DeepMind发布Genie 3人工智能模型,可基于自然语言提示生成交互式虚拟世界。该模型是Genie系列第三代产品,能够模拟森林、高山景观等室内外环境,支持用户通过指令修改天气、调整视角或添加物体。相比前代产品,Genie 3可持续渲染数分钟,分辨率提升至720p,并具备视觉记忆功能。该模型可用于训练具身智能体,为自主系统如工业机器人提供更高质量的训练环境。目前仅向有限测试者开放研究预览版。

闪迪发布256TB AI专用SSD,计划2026年出货

闪迪发布256TB AI专用SSD,计划2026年出货

闪迪在FMS 2025展会上发布了256TB容量的UltraQLC SN670固态硬盘,计划于2026年上半年出货。该产品采用BiCS 218层3D NAND闪存技术和PCIe Gen5接口,专为AI驱动的数据密集型工作负载设计。硬盘配备定制控制器和先进优化技术,具备动态频率调节功能,可在给定功耗下提升10%性能表现,并通过数据保持配置减少33%的数据回收循环。

OpenAI发布两款开源大语言模型,今日可下载使用

OpenAI发布两款开源大语言模型,今日可下载使用

OpenAI发布gpt-oss-120b和gpt-oss-20b两款开源模型,这是自2019年GPT-2以来首次发布开放权重模型。用户可下载到本地硬件运行,支持模拟推理、工具使用和深度定制。小模型需16GB内存,大模型需80GB内存。两款模型均采用混合专家架构,支持可配置的思维链,上下文窗口为128000个token。性能接近专有云模型,但仅支持文本处理。

MLPerf存储基准测试v2.0显示阵列性能大幅提升

MLPerf存储基准测试v2.0显示阵列性能大幅提升

MLPerf存储基准测试第二版显示,测试系统服务的加速器数量比2023年1.0版本增加约一倍。MLCommons表示本轮测试参与度大幅提高,提交机构地域代表性更强,系统多样性更丰富。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50 AI训练任务中的性能,以及Llama 3训练中的检查点性能。随着AI训练集群GPU数量增加,故障率上升,检查点技术成为标准做法。

谷歌推出Genie 3世界模型,可实时动态修改模拟环境状态

谷歌推出Genie 3世界模型,可实时动态修改模拟环境状态

谷歌DeepMind发布新一代世界模型Genie 3,相比前代产品实现多项关键提升。新模型支持720p分辨率输出,可持续运行数分钟而不产生伪影,并首次支持实时交互和文本提示功能,用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具,可用于自动驾驶等场景的"假如"情况训练,提高模型可靠性。

Aquant推出智能体AI平台助力服务团队构建定制化AI智能体

Aquant推出智能体AI平台助力服务团队构建定制化AI智能体

Aquant公司推出智能体AI平台,专为复杂设备服务组织打造。该平台允许服务团队创建、集成和部署定制AI代理,提供故障排除、知识搜索、零件识别等预构建代理。用户可利用专业工具构建定制代理或集成自有代理,支持多渠道部署和企业系统集成。平台内置服务专业知识,提供检索增强对话层,确保响应与业务指标对齐,助力服务团队提升效率。

DeepMind发布Genie 3:通往AGI的关键世界模型

DeepMind发布Genie 3:通往AGI的关键世界模型

谷歌DeepMind发布了Genie 3基础世界模型,该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型,能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境,分辨率达720p,帧率24fps。最重要的是,Genie 3的模拟在时间上保持物理一致性,因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键,特别是对于具身智能体的训练。

超越Meta Quest和Vision Pro的未来:智能眼镜将重新定义VR

超越Meta Quest和Vision Pro的未来:智能眼镜将重新定义VR

Meta CEO扎克伯格宣称未来的设备是AI智能眼镜,焦点正从VR头显转向面部眼镜。苹果、谷歌、三星等巨头都看好AR未来。作为AR/VR设备评测师,作者认为目前Meta Quest系列仍是最佳选择,但2025年硬件格局将发生巨变。三星谷歌的Project Moohan混合现实设备即将发布,Meta可能推出带显示屏的高端智能眼镜和神经输入腕带,苹果Vision Pro将升级M芯片并支持控制器,Valve传闻中的新VR头显可能重新定义游戏空间。

IT职业发展新趋势:5个热门方向与5个冷门领域

IT职业发展新趋势:5个热门方向与5个冷门领域

随着AI技术快速发展,IT职业格局正在重塑。热门趋势包括:专注人类优势的工作、设计智能适应系统、网络安全混合方法、跨领域技术通才和AI产品开发。而传统的代码维护、手动威胁检测、追求所有技术技能、某些认证以及与业务目标脱节的技术技能正在降温。专家建议IT专业人员应将技术流利性与创造力、好奇心结合,重点发展监督和协调AI系统的能力。

DeepMind发布Genie 3"世界模型",实现实时交互式模拟环境

DeepMind发布Genie 3"世界模型",实现实时交互式模拟环境

谷歌DeepMind推出Genie 3"世界模型",仅需提示词或图像即可创建交互式世界。该模型支持720p分辨率24帧每秒的实时渲染,相比前代产品显著提升了视觉保真度和记忆能力,可保持数分钟的视觉一致性。用户能够实时修改环境、添加对象、改变天气或插入新角色。DeepMind将其视为AI研究工具,用于训练embodied agents并生成合成训练数据。尽管仍存在局限性如无法模拟真实地点、易产生AI幻觉等,但该技术为游戏开发和AGI研究提供了新可能性。

博通发布Jericho4芯片助力多数据中心AI协同运算

博通发布Jericho4芯片助力多数据中心AI协同运算

博通推出Jericho4网络芯片,能够连接超过100万个处理器跨越多个数据中心,数据处理能力是前代产品的四倍。该芯片可连接距离超过100公里的设施,帮助云公司将较小的数据中心连接成大型AI系统。随着GPU集群功耗增大,单一建筑难以容纳,新芯片为分布式部署提供解决方案。