最新文章
浙大团队开创GUI智能助手新方法:让AI精准识别屏幕元素如探案高手

浙大团队开创GUI智能助手新方法:让AI精准识别屏幕元素如探案高手

浙江大学联合多家机构提出AEPO方法,通过多答案生成和自适应探索奖励机制,显著提升AI在图形界面中的元素识别准确性。该技术让AI能同时考虑多个候选答案并科学评估,解决了传统方法容易陷入错误自信的问题,在五个基准测试中均达到业界领先水平,为智能GUI助手的实际应用奠定了重要基础。

编程大模型也能瘦身成功:上海交通大学团队让AI推理快43.5%的秘密武器

编程大模型也能瘦身成功:上海交通大学团队让AI推理快43.5%的秘密武器

上海交通大学团队开发的ASAP方法通过"锚点引导"和"首词惊喜度"两阶段技术,成功解决了AI推理模型内容冗长问题。该方法在保持准确性的同时,将推理速度提升43.5%,生成内容减少23.5%,为AI推理优化开辟了新方向,代表了从追求模型规模向追求效率质量平衡的重要转变。

没有视觉数据也能让AI变聪明?ETH苏黎世等机构揭秘无监督视觉语言模型适应新秘诀

没有视觉数据也能让AI变聪明?ETH苏黎世等机构揭秘无监督视觉语言模型适应新秘诀

这项ETH苏黎世等机构的综述研究首次从无标签视觉数据可用性角度系统分析视觉语言模型的无监督适应问题,提出了包含无数据迁移、无监督领域迁移、批次测试时适应和在线测试时适应四种场景的分类框架,详细梳理了每种场景下的核心方法和策略,为该领域提供了全面的理论指导和实践参考,推动AI向更灵活自主的方向发展。

厦门大学最新突破:让AI学会像人类一样操作电脑界面的神奇方法

厦门大学最新突破:让AI学会像人类一样操作电脑界面的神奇方法

厦门大学研究团队开发出UI-AGILE框架,通过"简单思考"策略、连续评分奖励和分解定位技术,让人工智能学会像人类一样精准操作电脑界面。该方法在专业测试中将定位准确率提升23%,仅需9000个样本就能高效训练。这项突破性技术具有强通用性,可直接提升现有AI系统性能,将很快应用于智能助手、自动化工具等日常软件中,为用户带来更便捷的人机交互体验。

北京航空航天大学团队打造AI助手:用聊天方式理解和创建3D模型

北京航空航天大学团队打造AI助手:用聊天方式理解和创建3D模型

北京航空航天大学团队开发的MeshLLM系统实现了大语言模型与3D建模的创新融合,用户可通过自然对话创建和理解3D模型。该系统采用原始网格分解策略,将训练数据扩展至150万样本,比传统方法增加近50倍。通过渐进式训练和多任务学习,MeshLLM在生成质量和理解能力上显著超越现有方法,为3D内容创作和人机交互开辟了新途径。

低资源语言的AI也要会"看图说话":上海AI实验室破解多语言视觉AI文化盲区难题

低资源语言的AI也要会"看图说话":上海AI实验室破解多语言视觉AI文化盲区难题

上海AI实验室等机构联合发布MELLA项目,通过创新的"双源数据策略"解决了多语言视觉AI的文化理解难题。该研究构建了包含680万样本的大规模数据集,涵盖8种低资源语言,让AI既能流利表达又能理解文化内涵。实验显示文化理解能力提升150%以上,为全球数十亿非英语用户带来更优质的AI服务体验。

Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话

Meta FAIR实验室研究团队发现推理型AI模型虽然逻辑能力强,但在事实表达上容易产生幻觉。他们创新性地设计了包含准确性、详细性、相关性三维评价的训练体系,通过在线强化学习让AI模型既会深度思考又能准确表达事实。实验显示新方法将事实准确率提升23个百分点,同时增加23%的信息详细度,为构建更可信赖的AI系统提供了切实可行的解决方案。

东华师范大学团队突破:34M轻量级模型挑战632M巨型AI,在图像分割任务中实现逆袭

东华师范大学团队突破:34M轻量级模型挑战632M巨型AI,在图像分割任务中实现逆袭

东华师范大学团队提出MLLMSeg框架,仅用34M参数的轻量级模型在图像分割任务中超越了632M参数的传统SAM模型。该方法通过创新的DSFF特征融合模块,充分挖掘多模态大语言模型视觉编码器的潜力,将细节特征与语义特征完美结合,在RefCOCO等标准数据集上取得领先性能,为移动设备部署和实际应用提供了高效解决方案。

大语言模型的"注意力盆地"现象:中山大学揭秘AI为何会"遗忘"中间信息

大语言模型的"注意力盆地"现象:中山大学揭秘AI为何会"遗忘"中间信息

中山大学研究团队揭示了大语言模型存在"注意力盆地"现象,即AI在处理多文档时优先关注开头和结尾内容,忽略中间信息。研究发现这种U型注意力分布源于模型对结构边界的特殊偏好。基于此发现,团队开发了注意力驱动重排序方法,通过调整信息位置而非修改模型参数,在十种主流AI模型上实现了显著性能提升,为AI优化提供了全新的"顺势而为"思路。

上海交大团队让图片压缩快38倍:告别等待时代的扩散模型革命

上海交大团队让图片压缩快38倍:告别等待时代的扩散模型革命

上海交通大学团队提出SODEC图像压缩技术,突破传统扩散模型压缩速度慢、保真度差的限制。通过单步扩散处理、保真指导模块和比特率退火训练策略,SODEC实现比传统方法38倍的速度提升,同时在图像质量各项指标上超越现有最先进方法,为多媒体应用提供高效解决方案。

Dell PowerProtect全面升级,助力企业强化网络韧性与恢复能力
2025-08-13

Dell PowerProtect全面升级,助力企业强化网络韧性与恢复能力

Dell PowerProtect以持续创新助力企业提升网络韧性、简化恢复流程,在持续演进的网络威胁环境中筑牢数据安全防线

2025-08-13

业内首款采用DO-214AB封装、额定浪涌电流为2kA的保护晶闸管

一款节省空间的解决方案,为电动汽车充电、UPS和太阳能逆变器系统提供强大过压防御。

2025-08-13

2025世界机器人大会在京圆满闭幕

为期5天的2025世界机器人大会在京落下帷幕。

新加坡大学团队突破:让多个AI"专家"携手解决复杂文档难题,小模型也能超越大模型

新加坡大学团队突破:让多个AI"专家"携手解决复杂文档难题,小模型也能超越大模型

新加坡国家大学研究团队开发了MACT多智能体协作框架,通过四个专门化AI智能体的分工合作,在文档理解和问答任务上超越了许多大规模单体模型。该系统创新性地采用独立判断智能体进行质量控制,结合混合奖励机制和个性化测试时扩展策略,在15个基准测试中的13个获得最佳表现,为AI协作系统设计提供了新思路。

InfiX.ai发布InfiAlign:用12%训练数据追平顶级AI模型,让机器"小体量大智慧"的数据精选秘籍

InfiX.ai发布InfiAlign:用12%训练数据追平顶级AI模型,让机器"小体量大智慧"的数据精选秘籍

InfiX.ai和香港理工大学联合发布的InfiAlign框架,通过多维数据筛选和两阶段课程学习,仅用12%训练数据就达到顶级模型性能。该框架发现回答长度与问题难度正相关,创新性地用长度作为难度指标,结合多样性采样和质量过滤,实现了数据效率的巨大提升。在数学推理等任务中表现优异,为资源有限的机构提供了经济高效的AI模型训练方案。

南加州大学和Salesforce联手推出CoAct-1:让电脑助手不再只会点击鼠标,还能写代码干活

南加州大学和Salesforce联手推出CoAct-1:让电脑助手不再只会点击鼠标,还能写代码干活

南加州大学和Salesforce联合推出CoAct-1多智能体系统,通过结合传统界面操作与代码执行能力,实现了计算机任务自动化的重大突破。该系统在OSWorld基准测试中达到60.76%的成功率,平均完成任务步数减少至10.15步,显著优于现有方法,为人机交互带来新范式。

阿里巴巴让机器开口说话:Marco-Voice如何让AI既会模仿声音又能表达情感

阿里巴巴让机器开口说话:Marco-Voice如何让AI既会模仿声音又能表达情感

阿里巴巴研究团队开发了Marco-Voice多功能语音合成系统,能够同时实现高质量的声音克隆和情感控制。通过创新的旋转情感嵌入和说话人-情感分离技术,系统可以独立调节声音身份和情感表达。团队还构建了包含10小时中文情感语音的CSEMOTIONS数据集。实验表明Marco-Voice在语音清晰度、说话人相似度和情感表达方面都显著超越现有系统,为虚拟助手、内容创作和教育技术等领域提供了强大工具。

华东理工大学团队突破AI智能体识别难题:多轮对话让机器像人一样"边看边想"

华东理工大学团队突破AI智能体识别难题:多轮对话让机器像人一样"边看边想"

华东理工大学团队提出I2CR框架,通过"文字优先、视觉辅助"的多轮反思机制解决多模态实体链接难题。该框架模仿人类认知过程,先用文字信息判断,再通过内部一致性检查和跨模态验证,必要时引入OCR、图像描述等视觉线索进行迭代优化。在三大数据集上准确率分别提升3.2%、5.1%、1.6%,达到业界最佳性能。

腾讯AI西雅图实验室推出R-Zero:让大语言模型从"零数据"中学会推理的革命性自进化框架

腾讯AI西雅图实验室推出R-Zero:让大语言模型从"零数据"中学会推理的革命性自进化框架

腾讯AI西雅图实验室推出的R-Zero框架实现了AI系统从零数据自主学习的突破。该框架通过挑战者和求解者两个角色的协同进化,无需人类标注数据即可显著提升大语言模型的推理能力。在Qwen3-4B模型上,数学推理能力提升6.49分,通用推理能力提升7.54分。这种自进化机制为AI超越人类知识边界提供了新路径。

SiMa.ai发布新一代物理AI系统级芯片正式投产

SiMa.ai发布新一代物理AI系统级芯片正式投产

人工智能芯片初创公司SiMa Technologies宣布其第二代系统级芯片平台MLSoC Modalix正式出货,专为多模态物理AI工作负载设计。该芯片可嵌入机器人、工业设备和车辆等设备中,支持运行大语言模型、卷积神经网络等多种AI算法。芯片采用低功耗设计,能在边缘设备上直接处理传感器数据并运行AI模型,无需依赖云端处理,有效降低延迟。