TransPixeler是由香港科技大学和Adobe研究院联合开发的AI视频生成技术,专门解决生成带透明效果(RGBA)视频的难题。该技术巧妙扩展现有视频生成模型,让AI能同时生成RGB颜色和Alpha透明度信息,避免了传统"先生成后提取"方法的缺陷。通过精心设计的注意力机制和训练策略,TransPixeler在有限数据下实现了高质量透明视频生成,为电影特效、游戏开发、VR/AR等领域提供了强大工具。
腾讯混元团队通过366组实验发现了AI大模型低精度训练的关键规律,提出Capybara缩放定律。研究揭示指数位比尾数位更重要,存在训练数据临界值现象,4-8位精度具有最佳成本效益。该成果为AI训练提供精确预测工具,有助于降低训练成本、提升效率,推动AI技术普及化发展。
阿里巴巴研究团队开发出ProgCo方法,让AI像程序员一样生成验证程序来检查和纠正自己的答案。该方法在数学问题和指令遵循任务上表现卓越,准确率提升超过7%,同时具有比传统方法更高的计算效率,为AI自我纠错开辟了新的技术路径。
南洋理工大学研究团队构建了Video-MMMU基准,通过300个专业教学视频和900道问题,评估AI模型从视频中学习知识的能力。研究发现人类专家知识增益达33.1%,而最先进的AI模型仅达15.6%,特别在知识适应新场景方面表现不佳。该研究揭示了当前AI在真正理解和应用知识方面的局限性,为未来AI教育应用发展指明了方向。
港中深研究团队发现语音AI系统"答非所问"的根本原因在于声学和语义理解的认知鸿沟,并提出EchoX解决方案。通过创新的"回声训练"方法,EchoX用仅6千小时训练数据就在知识问答任务中取得显著性能提升,综合得分46.3分超越主流系统,为语音AI发展指明新方向。
ByteDance智能创作实验室与清华大学联合发布HuMo系统,这是首个实现文字、图片、音频三模态协同控制的人物视频生成框架。该系统通过创新的渐进式训练方法和时间自适应引导策略,让用户仅需提供文字描述、参考照片和音频就能生成电影级说话视频,在多项评测中超越现有专业系统,为内容创作带来革命性突破。
快手科技Kling团队发布的Kling-Avatar技术通过多模态大语言模型导演实现真正的指令理解,采用级联生成框架支持长时长数字人视频制作。该系统在唇形同步、情感表达、身份一致性等关键指标上全面超越现有技术,支持1080p/48fps输出,展现强大跨域泛化能力,为数字人直播、在线教育等应用提供突破性解决方案。
香港大学团队发布史上最大规模AI绘画推理数据集FLUX-Reason-6M,包含600万张高质量图像和2000万条双语描述,耗费15000个GPU天计算资源。首创"生成链式思维"训练法,让AI学会像人类艺术家般思考创作过程。同时推出PRISM-Bench测评标准,对19个先进模型评测显示闭源模型仍领先,但所有模型在文字渲染等复杂任务上都有改进空间。
这项研究通过创新的梯度注意力机制和500万张图片的WebPerson数据集,显著提升了文本描述人物检索的准确性。GA-DMS框架能智能识别描述中的关键词汇,过滤噪声干扰,在标准测试中达到77.6%的准确率,为安防监控、人员搜寻等应用提供了重要技术支撑。
上海交通大学团队通过引入"视觉可编程性"概念,成功让AI学会根据图表特征自主选择代码分析或直接观察的推理方式。该自适应框架在四个基准数据集上平均准确率达62.8%,显著超越固定策略方法。研究采用双重奖励机制训练,确保AI既追求准确性又具备策略选择智慧,为构建更灵活可靠的人工智能系统提供了新思路。
哈工大团队开创性地将3D高斯涂抹技术应用于图片修复,通过连续光斑融合替代传统像素拼接,结合DINO语义理解和分块处理策略,实现了更自然流畅的图片修复效果。该技术能处理20%-60%面积的缺失,在人脸和自然场景修复中表现出色,为图像处理领域提供了全新思路。
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
制药公司需要持续监控品牌健康状况以制定战略决策,但传统方法缺乏灵活性。本次网络研讨会探讨技术如何从定量和定性角度变革追踪研究。专家小组将揭示新技术如何重新定义传统追踪方法,实现实时数据收集和分析。内容包括:传统追踪研究的挑战和局限性、技术如何带来速度和灵活性、AI在情感分析和实时分析中的作用,以及追踪研究的未来发展趋势。
超过70%的生成式AI实验未能投入生产应用。本文探讨了实验与生产系统间的差距,分析了质量一致性、用例评估和工作流集成等关键挑战。文章提出了结构化的优先级评估框架,重点关注重复性手工任务、大量文本处理和代码生成三大高价值应用场景。同时介绍了代理AI的发展趋势和技术演进的三个阶段,强调通过战略性集成现有业务流程来实现创新和运营卓越。
思科280亿美元收购Splunk后的18个月里,两家公司专注于将Splunk的机器数据分析技术与思科网络产品线融合,打造"思科数据织网"。Splunk平台高级副总裁表示,收购后的协同效应为Splunk带来新动力,公司策略得到放大而非偏离。双方快速整合工程团队,推出AI Canvas等项目,致力于解决企业IT数据孤岛问题。新举措包括将机器数据与业务洞察连接,推出面向Snowflake的联邦搜索功能。
F5公司宣布以1.8亿美元收购企业AI安全领导者CalypsoAI,这是F5今年第四次收购。CalypsoAI成立于2018年,专注于AI威胁防护、数据安全和红队测试。收购完成后,F5将把CalypsoAI的AI安全能力集成到其应用交付和安全平台中,提供数据泄露防护、对抗性威胁保护和统一可视化治理等功能。此次收购不仅带来了先进的AI安全技术,还为F5引入了大量AI专业人才。
Box公司在BoxWorks 2025大会上发布多项AI智能体功能,包括数据提取工具Box Extract和工作流自动化系统Box Automate。Box Extract通过AI智能体扫描合同、发票等非结构化文档,自动提取关键信息。Box Automate则协调AI智能体与人工的分工合作,将重复性任务交给AI处理。此外,Box还升级了无代码应用构建平台Box Apps,并推出Box Shield Pro安全防护工具,利用AI智能体进行风险分类和威胁响应,为企业内容管理提供全面的AI自动化解决方案。
甲骨文联合创始人兼CTO埃里森在财报电话会议上表示,企业AI的未来将从使用大规模数据集训练大语言模型转向AI推理应用,即战略性部署预训练模型以实时创造商业价值。公司第一财季总收入149亿美元,同比增长12%。剩余履约义务达4550亿美元,同比增长359%。埃里森预测AI推理将用于自动化工厂运营、生物分子模拟、实验室自动化和金融交易等领域。
企业不再纠结是否需要多云服务,而是如何选择合适的云服务并制定最具价值的多云战略。文章分析了CIO和IT领导者在规划多云环境时必须关注的五大挑战:AI的巨大影响带来复杂性和技术债务;数据主权要求需遵循不同地区法规;网络安全风险因攻击面扩大而增加;灵活性和可观测性需求;以及成本控制挑战。专家建议采用统一监控、AI驱动分析和FinOps实践来应对这些挑战。