AI初创公司Hark宣布完成7亿美元A轮融资,融资后估值达60亿美元。本轮由Parkway Venture Capital领投,AMD、英特尔、高通、Salesforce等多家知名机构参与。Hark由连续创业者Brett Adcock创立,致力于开发多模态AI模型及配套硬件,打造面向普通用户的通用AI交互界面。公司计划今夏发布首批多模态模型,并随后推出专属硬件设备,现有员工70人,配备英伟达B200 GPU数据中心。
IBM正式发布Granite 4.1系列模型,涵盖小型语言模型(3B、8B、30B参数)、语音、视觉、嵌入及Guardian安全模型。新一代语言模型在指令遵循和工具调用方面表现突出,Granite Speech 4.1达到5.33%词错误率,Granite Vision 4.1专注表格与图表提取,Guardian 4.1提供校准不确定性评分用于风险检测。全系模型基于Apache 2.0协议开源,可在watsonx、Hugging Face等平台使用。
谷歌DeepMind推出最新多模态音乐AI模型Lyria 3及更高级的Lyria 3 Pro,支持文字、音频、图像多种输入方式,可生成高保真音乐,涵盖旋律、节奏与歌词,支持八种语言。该工具面向内容创作者、教育用途及专业开发者,已集成于Gemini、Vertex AI等平台。然而,独立音乐人已就版权问题对谷歌提起诉讼,AI生成内容的版权归属与商业化风险仍存争议。
阿里巴巴支持的中国AI初创公司月之暗面发布Kimi K2.5模型,号称是迄今为止最强大的开源模型。该模型基于15万亿文本和视觉令牌预训练,具备原生多模态能力,可从上传的图像或视频生成Web界面。在编程基准测试中表现与OpenAI、谷歌和Anthropic的前沿模型相当。其"视觉编程"功能能够直接从视频创建前端界面,降低了用户的技术门槛。
Meta发布了Llama家族的新一代AI模型Llama 4,包括Scout、Maverick和Behemoth三个模型。这些模型在大量未标记的文本、图像和视频数据上进行训练,具备广泛的视觉理解能力。Llama 4采用混合专家架构,提高了计算效率。Meta表示,这标志着Llama生态系统新时代的开始,将为用户带来更强大的AI能力。
Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升,旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理,并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token,适合各种硬件使用,且开源可供下载。
微软推出了新型AI模型Magma,旨在提升机器人的视觉、理解和行动能力。Magma能同时处理多种类型的数据,是朝着"代理AI"迈出的重要一步。该模型结合了视觉和语言处理技术,经过多模态训练,可以执行操控机器人和导航用户界面等任务,为AI自动化日常生活开辟了新的可能性。
前OpenAI首席技术官Mira Murati今天推出了一家新的人工智能初创公司——思维机器实验室,专注于开发多模态模型。该公司在竞争激烈的AI市场中崭露头角,Murati曾在四个月前与投资者洽谈筹集超过1亿美元的资金。思维机器实验室的初始团队包括前OpenAI研究高管Barret Zoph,Murati担任首席执行官,Zoph担任首席技术官。该实验室计划训练能够处理文本和多媒体文件的模型,并将基础设施质量作为首要任务,致力于提高研究生产力。
Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。
马斯克旗下AI公司x.ai推出Grok-1.5 Vision,具备视觉功能,能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品,展示了强大的理解、数据转换和检索能力,如将图片翻译成Python代码。即将向早期测试者和现有用户推出。
DeepSeekVL是一款开源多模态模型,通过对训练数据、模型架构和训练策略的联合拓展,构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。