印度理工学院团队推出EKA-EVAL评测框架,首次实现对AI大模型的全方位多语言评估。该框架整合35个评测任务,专门支持22种印度官方语言,涵盖推理、数学、工具使用等核心能力。相比现有英语中心的评测工具,EKA-EVAL填补了多语言AI评估的重要空白,为全球语言多样化地区的AI发展提供了标准化评测平台。
随着VMware推进基于核心虚拟化技术的私有云愿景,竞争对手正加速开发替代方案。OpenNebula发布7.0版本,新增ARM处理器支持和增强的PCI直通功能,可部署在AI工厂中。红帽OpenShift Virtualization 4.19版本在Azure、Oracle云和谷歌云上提供技术预览。容器运行时Edera使用Rust重写了开源Xen虚拟机管理程序的控制平面。Nutanix发布7.3版本,增加多集群虚拟交换机。这些活动源于博通对VMware的改变,后者专注于价格昂贵的Cloud Foundation套件。
杭州电子科技大学研究团队开发出CRISP-SAM2智能医学影像分析系统,能够结合文字描述和CT图像同时进行器官识别。该系统通过跨模态语义交互技术,无需医生手动提示即可精准分割18种人体器官,在七个数据集测试中表现优异,为医学影像诊断提供了新的AI解决方案。
伊利诺伊大学研究团队开发了HalluSegBench评估系统,首次系统性揭示AI视觉分割模型的"幻觉"问题。通过创建1340对对比图像和四种新评估指标,研究发现当前先进AI模型普遍存在错误识别不存在物体的严重缺陷,且视觉变化比文字变化更容易引发幻觉。该研究为提升AI系统可靠性提供了重要工具和理论基础。
俄国研究团队开发出InnerControl技术,通过训练轻量级"内心解读器"监控AI绘画过程中的中间特征,实现全程实时控制指导。该方法在深度控制任务中比现有最佳方法提升7-10%精度,同时保持图像质量,解决了AI绘画控制不精确的核心问题,为更可靠的AI创作工具奠定基础。
华中科技大学研究团队提出SaM框架,通过动态选择和合并领域专家模型来改进大语言模型的命名实体识别能力。该方法摒弃传统"万能模型"思路,采用专业化分工策略,根据领域相似性和采样评估智能选择专家,然后融合其能力形成针对性强的任务模型。实验显示平均性能提升10%,某些领域达20%提升,同时具备良好的可扩展性和适应性。
这项独立研究揭示了AI存在"自我纠错盲点"——能发现用户错误却忽视自身错误的现象。通过测试14个模型发现平均64.5%的盲点率,但令人惊讶的是,仅在输出后添加"Wait"就能减少89.3%的盲点。研究指出问题源于训练数据缺乏自我纠错示例,为AI安全性和可信度提供了重要启示。
香港理工大学研究团队提出ZeCO技术,通过创新的All-Scan通信机制解决了分布式AI系统处理超长文本时的通信瓶颈问题。在256台机器上测试时,ZeCO比现有最先进方法快60%,通信时间快4倍,实现了接近理论最优的性能,为超长文本AI应用开辟了新可能。
AI技术的最新应用展示了其在日常办公场景中的强大能力。用户现在可以通过简单的截图操作,让AI智能识别和提取图像中的时间、地点、事件等关键信息,并自动创建相应的日历事件。这种功能大大简化了日程管理流程,提高了工作效率,代表了AI技术在实用性和智能化方面的重要突破。
最新调查显示,91%的AI用户都有首选的聊天机器人工具。其中ChatGPT以28%的占比位居榜首,其次是谷歌Gemini(23%)、Meta AI和亚马逊Alexa(各18%)、苹果Siri(16%)。用户主要将这些AI工具用于撰写邮件、研究感兴趣话题和管理待办事项。报告指出,61%的美国人在过去半年内使用过AI,19%的人每天都在使用。
近日,施耐德电气与奇安信集团联合宣布,在亦庄设立施耐德电气(中国)技术本地化创新中心,为区域数字经济和信息技术应用创新生态建设再添新动能。
智能体AI正成为IT领域最热门技术,预计5-10年内达到生产力峰值。微软报告显示82%的IT领导者计划在未来12-18个月内使用AI智能体扩展团队能力。目前金融、零售和医疗三个行业已率先体验智能体AI的影响。零售业主要优化客户体验和物流运营,金融业用于自动化关键流程和欺诈防范,医疗业则减轻行政负担并改善患者信息获取。
耶鲁大学团队首创AI论文审稿基准测试系统LIMITGEN,通过人工植入缺陷和真实审稿数据两套测试集,系统评估大语言模型识别科学论文局限性的能力。结果显示AI审稿准确率约52%,远低于人类专家的86%,但检索增强技术和多智能体协作显著提升了性能,为AI辅助学术评议提供了新思路。
随着AI引发投资热潮,越来越多初创企业获得独角兽地位。TechCrunch追踪了今年迄今为止成为独角兽的风投支持初创企业。虽然大多数与AI相关,但令人惊讶的是许多企业专注于其他行业,如卫星公司Loft Orbital和区块链交易网站Kalshi。名单涵盖软件开发、机器人技术、企业网络基础设施、体育软件、客服AI代理等多个领域,估值从10亿美元到100亿美元不等。
当前AI智能体炒作过热,企业追求能处理一切问题的开放世界系统并不现实。真正有价值的AI智能体应专注于有明确边界的封闭世界问题,如发票匹配、合同验证等企业日常任务。企业级智能体应采用事件驱动的微服务架构,具备自主性和连续性,通过将非确定性模型包装在确定性基础设施中来确保可靠性。相比追求通用人工智能,企业更需要可测试、可部署的实用解决方案。
企业信用卡公司Brex面临AI工具采购挑战,传统数月试点流程无法跟上技术快速演进。该公司重新设计采购策略,建立新的数据处理协议和法律验证框架,加速AI工具评估。采用"超人产品市场匹配测试",让员工深度参与工具选择决策。为工程师提供每月50美元预算自主选择软件工具。CTO建议企业"拥抱混乱",接受AI工具采用过程的不确定性,避免过度分析导致落后。
尽管投资巨大,企业AI往往停滞在概念验证阶段,受困于孤岛式运作和有限规模。缺乏统一策略导致可扩展性挑战、治理缺口和数据碎片化。现代企业级AI平台通过创建跨业务单元的互联生态系统,实现无缝数据流、标准化模型部署和统一治理框架,发挥变革性作用。这些平台促进不同系统间的互操作性,使AI模型能够访问高质量的整体数据,从而实现从孤立效率向系统性转型的跃升。
亚马逊正在构建代号为"雨尼尔项目"的超大规模AI超级计算集群,专为合作伙伴Anthropic提供服务。该系统将包含数十万个加速器,横跨美国多个站点,预计今年晚些时候上线。与其他AI项目不同,雨尼尔项目将使用亚马逊自研的Trainium2芯片而非GPU,这将是亚马逊AI芯片的最大规模部署。
达索系统收购了Ascon Systems Holding公司的Ascon Qube技术,这是一个从边缘到云端的平台,可让企业规划、监控、控制和优化工厂自动化系统。该技术使用AI驱动的软件平台来规划、构建和控制生产,提供卓越的互操作性和灵活性。达索系统将把这项技术整合到其Delmia产品组合中,为客户提供更快的决策制定、减少停机时间和长期效率提升。
VAST Data将为Doudna超级计算机提供专注于AI的存储系统,与IBM Storage Scale共同承担存储任务。Doudna是NERSC-10超级计算机,由劳伦斯伯克利国家实验室运营,计算性能比前代系统提升10倍,存储性能提升5倍。该系统采用双存储架构:VAST Data的AIOS负责AI工作负载,IBM Storage Scale处理传统HPC需求。这标志着VAST成功进入HPC并行文件系统领域的重要突破。