最新文章
香港中文大学携手美团打造"万能思考家":AI模型首次实现图像视频推理全覆盖

香港中文大学携手美团打造"万能思考家":AI模型首次实现图像视频推理全覆盖

香港中文大学MMLab与美团联合研究团队开发出OneThinker,这是首个能够统一处理图像和视频理解任务的多模态推理模型。该模型通过创新的EMA-GRPO算法解决了多任务训练中的奖励不平衡问题,在包含60万样本的大规模数据集上训练后,在31个基准测试中展现出色性能。OneThinker不仅能处理问答、描述、定位、追踪、分割等多种视觉任务,还具备跨任务知识迁移和零样本泛化能力,为构建通用视觉智能系统提供了重要技术路径。

AI模型学会了看图"动手":字节跳动揭示多模态大模型的"工具使用"革命

AI模型学会了看图"动手":字节跳动揭示多模态大模型的"工具使用"革命

这项由浙江大学与字节跳动BandAI联合完成的研究发现,现有AI模型在处理旋转或翻转图片时准确率骤降80%,为此开发了CodeVision框架,让AI学会像人类一样主动使用图像处理工具。通过"代码即工具"的创新方法,AI能够自动编写代码来旋转、裁剪或增强图片,显著提升了处理现实世界复杂视觉任务的能力。

KAIST研究团队:让AI绘画像人类一样"反思修改",一次生成不满意就改提示词重画

KAIST研究团队:让AI绘画像人类一样"反思修改",一次生成不满意就改提示词重画

KAIST团队开发的PRIS系统通过让AI在生成过程中反思和改进提示词,实现了图像生成7%、视频生成15%的效果提升。该系统包含精密的EFC验证器,能逐项检查生成内容是否符合要求,然后智能调整输入指令。这种"生成-反馈-优化"的循环模式为AI创作工具的未来发展提供了新思路。

Adobe公司推出RELIC:让视频世界能"记住"一切的游戏引擎,20秒超长体验颠覆传统

Adobe公司推出RELIC:让视频世界能"记住"一切的游戏引擎,20秒超长体验颠覆传统

Adobe公司研发的RELIC是一个革命性的AI视频世界模型,能从单张图片生成可实时交互探索的虚拟世界。它解决了AI视频生成中的三大难题:实时响应、长期记忆和精确控制。通过创新的压缩记忆技术和双师制训练架构,RELIC实现了20秒连续生成和空间一致性,在视觉质量和动作准确性上超越现有方案。该技术为未来的交互式虚拟内容创作开辟了新路径。

香港科大发现:AI大模型内部隐藏的"数学密码",无需人类监督就能自己变聪明

香港科大发现:AI大模型内部隐藏的"数学密码",无需人类监督就能自己变聪明

香港科技大学研究团队发现了一种革命性的AI训练方法——通过"稳定秩"这一数学概念直接从模型内部几何结构提取质量信号,无需人工标注即可显著提升AI回答质量。该方法在数学推理等任务上比传统方法提升10-19个百分点,为AI自主学习开辟了全新道路。

斯坦福大学新发现:AI如何像人类一样学会"举一反三"

斯坦福大学新发现:AI如何像人类一样学会"举一反三"

斯坦福大学研究团队在《自然·机器智能》期刊发表突破性研究,首次实现让AI像人类一样"举一反三"的快速学习能力。通过元学习技术,AI系统能从极少样本中快速掌握新任务,学习效率提升数十倍,训练数据需求减少90%以上。这项技术将革命性改变AI应用,从个性化智能助手到自动驾驶汽车,让AI服务变得更智能实用。

谷歌与大阪大学联手推出AlignBench:AI图像文本匹配能力的"照妖镜"有多强?

谷歌与大阪大学联手推出AlignBench:AI图像文本匹配能力的"照妖镜"有多强?

这项由OMRON SINIC X公司与大阪大学联合完成的突破性研究,首次系统性地揭示了当前AI模型在图文匹配任务中的真实能力和局限性。研究团队开发的AlignBench评估框架,通过9万个真实AI生成样本,发现即使最先进的AI模型也存在位置偏见、自我偏好等系统性问题,为AI技术的科学评估和未来发展提供了重要参考。

德州大学团队发明AI模型"瘦身术":让超级大脑装进手机却不失智慧

德州大学团队发明AI模型"瘦身术":让超级大脑装进手机却不失智慧

德州大学研究团队提出UniQL框架,这是首个系统性结合量化和结构化剪枝的AI模型压缩技术。该技术能让大型AI模型在云端完成一次性压缩处理,然后在边缘设备上实现0-35%的动态裁剪,同时保持95%以上的原始性能。实验显示模型内存占用减少4-5.7倍,推理速度提升2.7-3.4倍,为AI技术在移动设备和物联网中的普及应用开辟了新路径。

NYU研究团队新发现:让AI变聪明的秘诀,竟然是让它学会"自省"和"再试一次"

NYU研究团队新发现:让AI变聪明的秘诀,竟然是让它学会"自省"和"再试一次"

纽约大学研究团队提出SkillFactory技术,让AI通过重新组织自己的回答学习认知技能,无需强大模型指导即可掌握验证和重试能力。实验显示该方法在数学推理、逻辑游戏等任务上效果显著,AI开始具备"思考如何思考"的元认知能力,为智能教学、科研助手等应用开辟新路径。

清华大学联手阿里巴巴重大突破:让AI生成图像变得更快更聪明的全新方法

清华大学联手阿里巴巴重大突破:让AI生成图像变得更快更聪明的全新方法

清华大学和阿里巴巴联合研究团队提出了一种名为"反向表示对齐"的创新方法,显著改进了正规化流这类AI图像生成模型。通过在生成过程而非编码过程中注入语义指导,新方法不仅将图像质量评分FID从4.21降至3.69,分类准确率从39.97%提升至57.02%,还实现了3.3倍的训练加速。这项突破为正规化流在实时应用中的广泛部署奠定了基础。

2025-12-08

斑马技术与牛津经济研究院联合调研:工作流程自动化助力生产率提升20%

致力于通过工作流程的数字化和自动化实现智能运营,全球解决方案提供商斑马技术公司(纳斯达克股票代码:ZBRA)近期发布与牛津经济研究院合作完成的最新联合研究报告——《智能运营的影响》。

智能体即服务将重塑软件行业和企业结构

智能体即服务将重塑软件行业和企业结构

今年是AI智能体的爆发年。聊天机器人正演进为能代表用户执行任务的自主智能体,企业持续投资智能体平台。调研显示,超半数高管表示其组织已在使用AI智能体,88%在智能体上投入过半AI预算的公司已从至少一个用例中获得投资回报。Gartner预测,到2026年40%的企业软件应用将包含智能体AI,2035年智能体AI可能驱动约30%的企业应用软件收入。企业开始将AI智能体视为员工,建立招聘培训体系。

谷歌AI模型在伪造手机拍照方面变得异常精准

谷歌AI模型在伪造手机拍照方面变得异常精准

谷歌的Nano Banana Pro AI模型生成的图像逼真度令人震惊,其关键在于完美模拟了手机相机的拍照特征。这些AI生成的图像具备手机拍照的典型特点:明亮平坦的曝光、较大的景深范围、略显粗糙的细节处理,甚至包含噪点。该模型还能自动添加符合情境的细节元素,如房产照片的水印等,使图像更加真实可信。这种技术进步意味着辨别AI生成内容变得更加困难。

英伟达确认新的安全漏洞,建议立即更新

英伟达确认新的安全漏洞,建议立即更新

英伟达Triton推理服务器被发现两个高严重性安全漏洞CVE-2025-33211和CVE-2025-33201,影响Linux版本r25.10之前的所有版本。这两个漏洞均获得7.5分的严重性评分,可能导致拒绝服务攻击。由于Triton服务器广泛用于AI应用与大语言模型通信和AI模型规模化部署,英伟达敦促用户立即从GitHub更新到最新版本以保护系统安全。

家务机器人发展受阻:AI进化面临的机器人挑战

家务机器人发展受阻:AI进化面临的机器人挑战

尽管人工智能在国际象棋等领域已经超越人类,但家务机器人的发展仍然困难重重。莫拉维克悖论揭示了计算机在纯智力任务上表现出色,但在现实世界的物理操作方面仍远逊于人类。机器人专家指出,家务机器人需要集成复杂的感知能力、精细运动控制和决策制定能力。虽然基于大语言模型的第三代AI机器人展现出前所未有的智能水平,但数据不足仍是关键瓶颈。

FreeBSD 15移除32位支持并重新设计系统构建方式

FreeBSD 15移除32位支持并重新设计系统构建方式

FreeBSD 15.0本周发布,作为Unix世界中Linux的主要替代品。该版本大幅削减32位平台支持,不再支持x86-32、POWER和ARM-v6,仅保留armv7作为唯一的32位平台。主要变化包括首次采用实验性pkgbase系统构建,将核心操作系统分解为多个独立软件包,可通过包管理器统一更新。此外还实现了可重现构建、改进电源管理、更新无线网络支持和图形驱动等功能。

从孤立到战略:云"竞合"时代对CIO意味着什么

从孤立到战略:云"竞合"时代对CIO意味着什么

AWS和谷歌云推出跨云互联服务,微软Azure将于2026年加入,标志着云计算行业从激烈竞争转向"竞争合作"模式。86%的企业采用多云策略推动了这一变革。跨云合作能够打破数据孤岛,促进AI应用和灾难恢复,但也带来操作复杂性和责任归属风险。CIO需要建立清晰的供应商管理框架,制定事故响应协议,从技术实施者转型为业务战略家,在拥抱合作的同时管控共享责任的复杂性。

HPE网络业务大放异彩,服务器收入下滑,Alletra存储表现亮眼

HPE网络业务大放异彩,服务器收入下滑,Alletra存储表现亮眼

HPE第四财季营收达97亿美元,同比增长14%,其中网络业务受Juniper收购推动大幅增长150%。然而服务器营收45亿美元,同比下降5%,尽管市场对AI服务器需求增加。GreenLake订阅业务年度经常性收入增至32亿美元,同比增长68.4%。Alletra MP存储阵列全年出货超7400台,同比翻倍增长。CEO表示HPE已转型为"以网络为中心的公司",预计下季度营收92亿美元。

Linux 6.18成为新LTS内核,Alpine 3.23率先采用

Linux 6.18成为新LTS内核,Alpine 3.23率先采用

Linux内核6.18已正式被指定为新的长期支持版本,Alpine Linux 3.23率先搭载该内核发布。新版本采用APK 3.0.0包管理工具,提供多种安装模式包括无盘模式、数据盘模式和传统系统盘模式。Alpine支持GNOME 49、KDE Plasma 6.5.3等桌面环境,基于musl-libc构建,启动速度极快且资源占用极低。

私有化云计算:私有云和主权云的崛起

私有化云计算:私有云和主权云的崛起

Gartner预测,到2029年,超过50%的企业将采用数字主权策略,确保国家对数据和关键系统的控制,这比目前不到10%的比例大幅增长。主权云将在这些策略中发挥关键作用,帮助企业在满足主权要求的同时实现系统和数据的云化。与公有云不同,主权云让企业在不暴露于公有云环境的情况下保持对资产的控制。