最新文章
教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作
2025-09-16

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。

阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架

阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架

阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。

智能头戴设备AiSee为视障人士提供全新“视觉“体验

智能头戴设备AiSee为视障人士提供全新“视觉“体验

新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。

腾讯混元3D 2.0:让想象变为3D现实的神奇“数字魔术师“

腾讯混元3D 2.0:让想象变为3D现实的神奇“数字魔术师“

腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。

OpenAI发布GPT-5-Codex模型,可自动处理耗时编程任务

OpenAI发布GPT-5-Codex模型,可自动处理耗时编程任务

OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。

VITA-1.5:让计算机像人一样同时“看“和“说话“的革命性突破

VITA-1.5:让计算机像人一样同时“看“和“说话“的革命性突破

VITA-1.5是首个实现GPT-4o级别实时视觉语音交互的开源多模态大语言模型。通过创新的三阶段训练策略,系统能够同时处理图像、视频和语音信息,实现端到端的语音对话,无需外部ASR或TTS模块。在多项基准测试中表现优异,语音识别准确率达到97.8%以上,为多模态人机交互开辟了新的可能性。

英伟达与CoreWeave达成63亿美元GPU算力担保协议

英伟达与CoreWeave达成63亿美元GPU算力担保协议

英伟达与新兴云服务商CoreWeave签署协议,承诺在2032年前为其提供63亿美元GPU计算容量担保。作为CoreWeave 7%股东,英伟达此举旨在培养与AWS、微软和谷歌抗衡的合作伙伴。该协议平均每年担保9亿美元容量,相当于约9400个GPU的年租赁。这种合作模式反映了AI领域中云服务商、芯片厂商和AI模型开发商之间复杂的资本循环关系。

VideoRefer套件:阿里达摩院让视频AI真正“看懂“复杂场景中的每个物体

VideoRefer套件:阿里达摩院让视频AI真正“看懂“复杂场景中的每个物体

阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。

Divergent获2.9亿美元融资,扩大军用部件生产

Divergent获2.9亿美元融资,扩大军用部件生产

先进制造公司Divergent Technologies融资2.9亿美元,用于扩大导弹零部件及其他军用专业组件的生产。此轮融资对公司估值23亿美元,客户包括洛克希德·马丁、RTX和通用动力等主要国防承包商。新资金将用于扩建洛杉矶制造设施,并在俄克拉荷马州建设新工厂。该公司专业3D打印机可制造多达600种零部件,金属导弹机身是其核心业务。

UC默塞德等高校联合推出Sa2VA:让AI同时看懂图像和视频的智能助手

UC默塞德等高校联合推出Sa2VA:让AI同时看懂图像和视频的智能助手

Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。

Spotify将允许免费用户挑选和播放指定歌曲

Spotify将允许免费用户挑选和播放指定歌曲

Spotify宣布为全球免费用户推出新功能,允许他们搜索并播放任意歌曲,或播放朋友和关注艺人分享的音乐。新功能包括"Pick & Play"、"Search & Play"和"Share & Play"。尽管如此,免费用户仍有每日点播时长限制,超出后将受到跳过次数限制。此举旨在提升免费用户参与度并增加广告收入,目前Spotify的6.96亿月活用户中有4.33亿为免费用户。

Lightricks团队打造视频生成新利器:2秒生成5秒视频的LTX-Video模型

Lightricks团队打造视频生成新利器:2秒生成5秒视频的LTX-Video模型

LTX-Video是由以色列Lightricks公司开发的革命性开源视频生成模型,能够在2秒内生成5秒高质量视频,实现了比实时播放更快的生成速度。该模型创新性地整合了视频压缩和生成过程,采用1:192的超高压缩比和共享去噪机制,在人类评估中表现显著优于同类模型。作为完全开源的项目,它为教育、营销、内容创作等多个领域提供了强大而accessible的视频生成能力。