谷歌DeepMind发布了Genie 3基础世界模型,该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型,能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境,分辨率达720p,帧率24fps。最重要的是,Genie 3的模拟在时间上保持物理一致性,因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键,特别是对于具身智能体的训练。
Meta CEO扎克伯格宣称未来的设备是AI智能眼镜,焦点正从VR头显转向面部眼镜。苹果、谷歌、三星等巨头都看好AR未来。作为AR/VR设备评测师,作者认为目前Meta Quest系列仍是最佳选择,但2025年硬件格局将发生巨变。三星谷歌的Project Moohan混合现实设备即将发布,Meta可能推出带显示屏的高端智能眼镜和神经输入腕带,苹果Vision Pro将升级M芯片并支持控制器,Valve传闻中的新VR头显可能重新定义游戏空间。
随着AI技术快速发展,IT职业格局正在重塑。热门趋势包括:专注人类优势的工作、设计智能适应系统、网络安全混合方法、跨领域技术通才和AI产品开发。而传统的代码维护、手动威胁检测、追求所有技术技能、某些认证以及与业务目标脱节的技术技能正在降温。专家建议IT专业人员应将技术流利性与创造力、好奇心结合,重点发展监督和协调AI系统的能力。
谷歌DeepMind推出Genie 3"世界模型",仅需提示词或图像即可创建交互式世界。该模型支持720p分辨率24帧每秒的实时渲染,相比前代产品显著提升了视觉保真度和记忆能力,可保持数分钟的视觉一致性。用户能够实时修改环境、添加对象、改变天气或插入新角色。DeepMind将其视为AI研究工具,用于训练embodied agents并生成合成训练数据。尽管仍存在局限性如无法模拟真实地点、易产生AI幻觉等,但该技术为游戏开发和AGI研究提供了新可能性。
博通推出Jericho4网络芯片,能够连接超过100万个处理器跨越多个数据中心,数据处理能力是前代产品的四倍。该芯片可连接距离超过100公里的设施,帮助云公司将较小的数据中心连接成大型AI系统。随着GPU集群功耗增大,单一建筑难以容纳,新芯片为分布式部署提供解决方案。
Google的AI学习工具NotebookLM现已面向13岁及以上用户开放,并作为Google Workspace for Education套件的核心服务提供给所有年龄段用户。这款基于Gemini技术的工具能够上传文档、PDF、网站或Google文档,快速生成数字笔记本,提供问答、摘要、思维导图、视频解释和播客式音频摘要等功能。虽然AI可能出错,但每个输出都包含可追溯到源材料的引用链接。Google承诺不会使用用户聊天记录或上传资料进行训练。
AI音频独角兽公司ElevenLabs周二发布新模型,允许用户生成音乐并声称可商用。这标志着该公司从主要专注AI音频工具向音乐生成领域扩张。由于版权争议,AI音乐生成并非易事。去年Suno和Udio因涉嫌使用版权材料训练模型被起诉。ElevenLabs与独立音乐数字发行平台Merlin Network和Kobalt Music Group达成协议,获得其音乐材料用于AI训练的授权。
谷歌宣布其AI笔记应用NotebookLM现已向年轻用户开放,此前该应用仅限18岁以上用户使用。现在13岁以上的消费者和所有年龄段的Google教育工作区用户都可使用。学生可将笔记转换为播客式音频概述、创建交互式思维导图等。谷歌表示对18岁以下用户执行更严格的内容政策,用户聊天和上传内容不会被人工审查或用于AI训练。此举正值OpenAI为ChatGPT推出学习模式,显示各公司正加剧AI教育领域的竞争。
新加坡国立大学与谷歌合作成立人工智能研究创新中心,专注培养AI人才并推进应用研究。该中心将建立快速原型沙盒环境,重点开展三大项目:利用谷歌云平台开发教育AI工具、构建法律专用大语言模型以及整合多元数据推进公共健康AI应用。此外还将设立AI人才培养项目和教授职位,加强产学合作。
欧洲软件巨头SAP宣布计划收购位于旧金山的人力资源初创公司SmartRecruiters,交易金额未披露,预计第四季度末完成。SmartRecruiters主要在美国市场运营,提供自动化大批量招聘软件,其平台具备AI驱动的求职者跟踪工具、招聘分析和用户友好的工作流程。收购完成后,SAP将把SmartRecruiters技术整合到SuccessFactors平台中,为客户提供增强的招聘和员工规划能力。
18岁的贾斯汀·金利用AI开发社交娱乐应用Giggles,吸引12万用户预约,无需传统工程团队。"氛围编程"概念兴起,创业者通过自然语言与AI协作开发产品,Y Combinator显示许多初创公司95%代码由AI生成。这种模式democratizing创业门槛,但面临扩展性挑战。专家警告非技术创始人难以在缺乏工程深度的情况下规模化发展,未来需要创意与编程技能的平衡结合。
应用AI研究公司基础研究实验室宣布完成3300万美元A轮融资,由Prosus领投,Stripe联合创始人兼CEO帕特里克·科利森参投。该公司采用独特结构,在多个领域开发AI应用。目前推出通用消费助手Fairies和电子表格智能体Shortcut等产品,前者可连接应用并执行工作流程,后者专为分析师创建金融模型。公司创始人杨博士表示,希望打造具有历史意义的公司,未来计划向机器人领域扩展。
腾讯混元团队通过强化学习方法革新了图像生成技术,开发出X-Omni系统,解决了传统自回归模型在图像生成中的累积误差问题。该系统实现了图像生成与理解的统一架构,在文字渲染特别是中文长文本处理方面取得突破性进展,证明了"过时"技术通过正确训练方法的巨大潜力。
普度大学研究团队提出MaPPO方法,通过引入先验知识改进AI偏好训练,解决传统方法中的"挤压效应"问题。该方法能根据回答质量差距动态调整训练强度,在多个基准测试中实现显著性能提升,且无需额外参数调整,可作为插件与现有方法无缝集成,为AI系统提供更好的偏好对齐能力。
这项由尼日利亚阿雷瓦数据科学学院主导的国际研究,通过对比DenseNet、ResNet、EfficientNet和Vision Transformer四种深度学习模型,为非洲野生动物保护提供了AI技术解决方案。研究发现DenseNet-201在实用性和准确率间达到最佳平衡,并成功部署了在线识别应用,为AI技术服务野生动物保护事业提供了完整的从理论到实践的范例。
伊利诺伊大学研究团队开发出UGST框架,解决了用户模拟器在对话中频繁出现的目标错位问题。通过将用户目标分解为可跟踪的子组件并采用三阶段训练方法,使小型模型性能提升14.1%,甚至超越大型模型,为对话AI训练提供了更可靠的用户模拟解决方案。
AMD研究团队开发的SAND-Math系统是首个能从零开始生成高质量原创数学题的AI工具。该系统不仅能创造新题目,还配备独特的"难度攀登"技术来提升题目挑战性。实验证明,用其生成题目训练的AI在数学测试中表现比现有方法高出17.85个百分点,为解决数学教育资源稀缺和AI训练数据不足问题提供了创新方案。
香港科技大学研究团队发现大型AI推理模型在处理主观问题时存在思维单一化问题,开发了MultiRole-R1框架让AI学会多角度思考。该框架通过并行多角色推理、多角色微调和强化学习三个阶段,让AI从不同角色视角分析问题。实验显示这种方法不仅提升了主观推理能力,客观推理表现也显著改善,验证了多样性思维与准确性的正相关关系。
普林斯顿大学等40多家顶尖机构联合发布首份自我进化智能体综合报告,系统阐述了AI从静态工具向自主学习伙伴转变的技术路径。研究揭示了智能体如何在模型、记忆、工具和架构四个层面实现自我优化,通过实时学习和课后总结两种时机持续进化,并在医疗、教育、编程等领域展现实用价值,为实现通用人工智能提供了清晰框架。
腾讯混元团队开发了UloRL算法,通过分段生成和动态遮蔽策略解决AI超长推理训练中的效率和质量问题。该方法让30B参数模型在数学推理任务上超越了更大的235B模型,准确率提升超14%,同时训练速度提升2倍。这项技术为AI深度推理能力发展提供了新路径。