最新文章
让自动驾驶AI学会“聚焦重点“,速度提升7倍却更加安全
2025-12-31

让自动驾驶AI学会“聚焦重点“,速度提升7倍却更加安全

来自北京大学多媒体信息处理国家重点实验室和小鹏汽车的研究团队发布了一项重要研究成果,提出了一种名为FastDriveVLA的创新框架,让自动驾驶AI能够像人类司机一样,学会在纷繁复杂的道路场景中快速识别并聚焦于真正重要的视觉信息。

清华团队让机器学会“透视眼“:用视频AI破解透明物体深度估计难题

清华团队让机器学会“透视眼“:用视频AI破解透明物体深度估计难题

清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。

TechCrunch创业战场大赛消费和教育科技领域26强公司榜单

TechCrunch创业战场大赛消费和教育科技领域26强公司榜单

TechCrunch年度创业战场大赛从数千份申请中筛选出200强,其中20强进入决赛角逐10万美元大奖。本次消费科技和教育科技领域共有26家公司入选,涵盖无障碍出行、AI视频制作、服装租赁、护肤推荐、纹身预约等创新应用,以及AI语言学习、个性化数学教育、职场沟通培训等教育科技解决方案,展现了科技创新在日常生活和教育领域的广泛应用前景。

ByteDance推出全新混合专家模型训练法:让AI专家团队各司其职,大幅提升大语言模型性能

ByteDance推出全新混合专家模型训练法:让AI专家团队各司其职,大幅提升大语言模型性能

字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。

新Mac开箱必备:完美工作桌面升级指南

新Mac开箱必备:完美工作桌面升级指南

本文为新购买Mac用户推荐了一系列桌面配件升级方案,包括罗技MX Master 4鼠标、OWC雷雳5扩展坞、Satechi桌垫和充电器等外设产品。作者分享了自己的桌面工作站配置经验,涵盖存储解决方案、照明系统、清洁工具等多个方面,旨在帮助用户打造更高效舒适的Mac工作环境。

上海AI实验室创造“无限视频世界“,用键盘就能探索!

上海AI实验室创造“无限视频世界“,用键盘就能探索!

上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。

如何使用ChatGPT新增应用集成功能

如何使用ChatGPT新增应用集成功能

OpenAI为ChatGPT推出应用集成功能,用户可直接连接第三方账户,通过聊天机器人执行各种任务。目前支持Spotify、DoorDash、Uber等多个应用,用户可在设置中连接账户或直接在对话中输入应用名称。集成功能包括音乐播放列表创建、餐厅订餐、出行预订、在线学习等服务,但需注意数据隐私问题。该功能目前仅限美国和加拿大用户使用。

上海交大GAIR实验室重磅突破:让AI化身实时对话的虚拟主播,视频生成从2分钟缩短到0.33秒

上海交大GAIR实验室重磅突破:让AI化身实时对话的虚拟主播,视频生成从2分钟缩短到0.33秒

上海交大GAIR实验室开发的LiveTalk系统实现了重大技术突破,将AI视频生成时间从传统的83秒压缩至0.33秒,实现超250倍速度提升。该系统通过改进的在线策略蒸馏方法,能够实时生成高质量的多模态交互视频,支持文字、图像和音频的同步处理,为实时人机视频交互开辟了新的可能性。

谷歌地图AI工具让节日和新年出行规划变得轻松便捷

谷歌地图AI工具让节日和新年出行规划变得轻松便捷

随着假期和新年旅行季的到来,航班延误、道路拥堵和冬季天气让今年的圣诞和新年出行变得格外忙碌。谷歌地图的最新AI功能可以提供行程建议、沉浸式目的地视图和智能导航。文章介绍了七个实用功能:轻松导航机场和火车站、出发前检查位置繁忙程度、无需电话即可预订、离线使用地图、与朋友家人共享位置、创建和分享精选列表,以及让Gemini AI助手协助规划。这些工具能帮助旅行者更好地应对假期出行中的各种挑战。

普林斯顿大学开发全新Web世界模型,让AI在网页中构建无限可探索的虚拟世界

普林斯顿大学开发全新Web世界模型,让AI在网页中构建无限可探索的虚拟世界

普林斯顿大学研究团队提出Web世界模型(WWM),一种融合传统网页框架可靠性与AI生成内容无限性的新架构。该系统将世界状态分为确定性的物理层(代码处理逻辑)和随机性的想象层(AI生成内容),通过类型化接口确保两者协调工作。研究团队开发了包括无限旅行地图集、银河探索、AI卡牌游戏等多个应用,证明了WWM在创造既稳定又富有创意的交互环境方面的巨大潜力。

2025年七大IT灾难回顾

2025年七大IT灾难回顾

2025年IT领域发生多起重大事故,包括Cognizant员工向网络犯罪分子泄露密码、Zimmer Biomet起诉德勤ERP部署失败、韩国政府数据中心火灾导致858TB数据丢失、以及Google、AWS、Azure和Cloudflare等多家云服务提供商的大规模服务中断。这些事件暴露了网络安全培训不足、项目管理失误、备份策略缺陷和云服务依赖风险等问题。

斯坦福团队全球首个视频网页搜索基准测试:AI模型在动态视频理解上的惊人短板

斯坦福团队全球首个视频网页搜索基准测试:AI模型在动态视频理解上的惊人短板

新加坡管理大学等国际团队发布Video-BrowseComp基准测试,首次揭示AI模型在视频理解方面的重大缺陷。研究发现即使先进如GPT-5.1的模型在需要真正理解视频内容的任务中准确率仅15.24%,暴露出AI严重依赖文字信息而无法真正"观看"视频的问题。