谷歌推出升级版图像生成模型Nano Banana Pro,基于最新Gemini 3语言模型构建。新模型支持更高分辨率(2K/4K)、准确文本渲染、网络搜索功能,并提供专业级图像控制能力,包括摄像角度、场景光照、景深等。虽然质量更高但成本也相应增加,1080p图像费用为0.139美元。模型已集成到Gemini应用、NotebookLM等多个谷歌AI工具中,并通过API向开发者开放。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
谷歌为Gemini应用和网页版发布SynthID检测器,允许用户上传图像判断是否由AI生成。但该功能局限性明显,仅能识别带有谷歌SynthID水印的Gemini生成图像。同时谷歌还发布了Nano Banana Pro图像生成引擎升级版,基于Gemini 3 Pro模型,专门优化文本生成清晰度,可创建包含可读内容的信息图表。
参数实验室等机构联合发布的Dr.LLM技术,通过为大型语言模型配备智能路由器,让AI能根据问题复杂度动态选择计算路径。该系统仅用4000个训练样本和极少参数,就实现了准确率提升3.4%同时节省计算资源的突破,在多个任务上表现出色且具有强泛化能力,为AI效率优化开辟新方向。
OpenAI宣布ChatGPT群聊功能正式向全球所有用户开放,涵盖免费版、Go版、Plus版和Pro版计划。该功能允许最多20人在共享对话中与ChatGPT协作,用于规划旅行、共同撰写文档、解决争议或进行研究。用户个人设置和记忆保持私密,ChatGPT能智能判断何时参与对话。这标志着OpenAI将ChatGPT从简单聊天机器人转变为社交协作平台的重要步骤。
香港科技大学团队提出"空间强制"方法,让机器人无需3D传感器就能获得空间感知能力。通过让机器人向3D基础模型学习,该方法在保持硬件简单的同时,显著提升了机器人的空间理解和操作精度,训练效率提高3.8倍,为机器人技术发展开辟了新路径。
为应对AI数据中心激增带来的能源缺口,谷歌与西屋公司合作,计划于2030年开始建设10座核反应堆。双方开发了基于谷歌云的AI优化平台,早期测试显示可显著节约成本和时间。西屋公司此前宣布投资800亿美元建设AP1000反应堆,单座功率1150兆瓦可供750万家庭使用。新AI平台有望将反应堆建设周期从传统的10-15年缩短至5-6年。
伊利诺伊大学团队开发的ERA框架通过创新的两阶段训练方法,让30亿参数的小型AI模型在具身智能任务上超越了GPT-4o等大型模型。该框架结合具身先验学习和在线强化学习,在高级规划和低级控制任务上分别实现了8.4%和19.4%的性能提升,为小而精的AI发展路径提供了重要示范。
人工智能机器人初创公司Sunday今日发布家用机器人Memo,专门设计用于完成日常家务。该机器人采用无腿设计,配备厚重滚动平台,可执行厨房清洁、洗碗、制作咖啡等任务。公司开发了技能捕捉手套,在500多个家庭中收集了1000万个真实家务数据用于训练。Sunday获得3500万美元融资,计划2026年底向50个家庭提供测试版本。
香港大学团队开发的SRUM框架首次实现了统一多模态AI系统的内部自我指导机制。通过让系统的理解模块充当"内部教师"指导生成模块改进,结合全局-局部双重奖励评价系统,在复杂图像生成任务上取得显著突破,为AI系统自主改进开辟了新路径。
PHP 8.5正式发布,引入了期待已久的管道操作符和符合标准的URI解析器。管道操作符支持函数调用链式操作,让代码更具可读性,避免冗余变量和嵌套语句。新增的URI扩展基于RFC 3986和WHATWG URL标准,为开发者提供标准化的URI解析功能。此外还包括Clone With属性更新、NoDiscard属性警告等特性。
清华大学团队提出BGPO算法,巧妙解决扩散大语言模型强化学习训练中的内存瓶颈问题。通过将复杂指数运算转化为线性运算,实现内存使用量恒定,支持更大规模重复计算。实验显示该方法在数学、编程、游戏等任务上显著提升性能,其中游戏规划准确率提升68%,为AI训练效率优化提供新思路。