多模态技术 关键字列表
Muse Spark发布后,Meta AI应用跃升至App Store第五名

Muse Spark发布后,Meta AI应用跃升至App Store第五名

Meta于周三发布全新AI模型Muse Spark后,旗下Meta AI应用排名从第57位跃升至美国App Store第5位。该模型支持语音、文字和图像多模态输入,可协助用户处理健康咨询、科学推理、视觉编程等任务,并具备多智能体协同能力。Meta AI应用迄今全球累计安装量达6050万次,今年新增下载量已达2500万次,过去五个月下载量同比增长138%。

Meta携全新模型Muse Spark重返AI竞争赛道

Meta携全新模型Muse Spark重返AI竞争赛道

Meta超级智能实验室正式发布首款模型Muse Spark,这是扎克伯格斥巨资重组公司AI团队后的首个成果。该模型目前已为美国地区的Meta AI应用及网站提供支持,未来数周内将扩展至WhatsApp、Instagram、Facebook、Messenger及Meta智能眼镜,并向其他国家推出。Muse Spark支持多模态输入,具备多AI子代理协作能力,可在"即时"与"深度思考"两种模式间切换,并特别强调在健康领域的应用潜力。

阿联酋发布Falcon Perception,推进主权AI发展战略

阿联酋发布Falcon Perception,推进主权AI发展战略

阿布扎比技术创新研究院推出多模态AI模型Falcon Perception,具备视觉识别、阅读和解释物理世界的能力。该模型拥有约6亿参数,相比其他数十亿参数的模型更加紧凑高效。它采用统一的变换器架构,能够端到端集成视觉和语言特征,在制造业缺陷检测、机器人自然语言指令执行、企业文档处理等领域具有广泛应用前景,标志着阿联酋在全球AI竞争中的重要进展。

微软发布三款新AI模型,超越传统文本处理边界

微软发布三款新AI模型,超越传统文本处理边界

微软发布了三款非大语言模型的新AI工具:语音转录模型支持25种语言翻译,可用于视频字幕和会议转录;语音生成模型能创建60秒音频录音;第二代图像模型在生成速度和逼真度方面显著提升。这些模型现已在微软Foundry和MAI平台上线,未来将集成到Bing和PowerPoint中,体现了微软在AI市场的全面布局战略。

英伟达扩大开放AI模型产品组合并联合合作伙伴开发前沿技术

英伟达扩大开放AI模型产品组合并联合合作伙伴开发前沿技术

英伟达宣布大幅扩展其开放模型生态系统,推出新一代Nemotron 3系列多模态模型,涵盖语言、视觉和语音能力。公司还发布了面向机器人、自动驾驶和生物医学的专业模型,包括Cosmos 3、Isaac GR00T N1.7和Proteina-Complexa等。同时成立Nemotron联盟,与多家AI实验室合作开发开放式基础模型,旨在降低AI开发成本并推动前沿AI系统建设。

字节跳动发布Seedance 2.0多模态AI视频生成模型

字节跳动发布Seedance 2.0多模态AI视频生成模型

字节跳动发布新一代AI视频生成模型Seedance 2.0,支持文本、图像、视频和音频多模态输入。该模型可生成最长15秒的带音频视频片段,能处理复杂多主体场景,支持摄像机运动、视觉效果和动作控制。用户可通过最多9张图片、3个视频片段和3个音频片段来优化文本提示。目前仅在字节跳动的Dreamina AI平台和豆包AI助手上提供服务。

智能体重新定义通用设计,提升可访问性

智能体重新定义通用设计,提升可访问性

谷歌研究团队推出原生自适应界面框架,通过多模态AI工具自动适应用户独特需求。该框架与残障社区共同开发,采用"没有我们参与就没有关于我们的决定"理念,将静态导航转换为动态智能体驱动模块,从被动工具转变为主动协作者,为全球13亿残障人士创造更个性化的数字体验。

Google发布Gemini 3 Flash并将其设为默认模型

Google发布Gemini 3 Flash并将其设为默认模型

谷歌发布基于Gemini 3的快速低成本模型Flash,并将其设为Gemini应用和AI搜索的默认模型。新模型在多项基准测试中表现优异,在MMMU-Pro多模态推理测试中得分81.2%超越所有竞品。该模型已向全球用户开放,并通过Vertex AI和API向企业及开发者提供服务。定价为每百万输入token 0.5美元,输出token 3美元,速度比2.5 Pro快三倍且更节省token用量。

IT领导者快问快答:思科光网络公司首席数字信息官Craig Williams分享AI转型经验

IT领导者快问快答:思科光网络公司首席数字信息官Craig Williams分享AI转型经验

Ciena副总裁兼首席数字信息官Craig Williams分享了光网络和高速连接提供商如何应对AI挑战。他指出这一转型过程"既令人兴奋又让人谦卑,没有既定的变革模板"。Williams团队已评估超过250个AI创意,并将最有前景的项目投入实施。他强调了两个AI战略应用:利用AI辅助编程提升内部效率,以及通过AI降低数字基础设施能耗。

多模态AI初创公司Fal.ai完成新一轮融资 估值超40亿美元

多模态AI初创公司Fal.ai完成新一轮融资 估值超40亿美元

多模态AI基础设施公司Fal.ai完成新一轮融资,估值超过40亿美元,融资金额约2.5亿美元。此轮融资由凯鹏华盈和红杉资本领投。该公司为开发者提供图像、视频和音频AI模型托管服务,拥有超过600个模型和数千块英伟达H100、H200 GPU。客户包括Adobe、Canva等知名企业,主要应用于广告、电商和游戏内容创作。

前沿模型推动人工智能边界突破

前沿模型推动人工智能边界突破

前沿模型代表了最先进的AI系统,具有多模态、零样本学习和智能体行为等关键特征。OpenAI的GPT-4o和谷歌的Gemini 1.5等为典型代表。专家指出,这些模型需要大量资源投入,在质量与成本之间寻求平衡。基准测试虽然重要但存在局限性。未来发展方向包括AI智能体、跨学科技术和非Transformer架构。预计十年内,前沿模型将成为无处不在的后台智能体,通过语音、视觉和情感等多种方式与人类自然交互。

前沿模型的工作方式:与AI智能对话的新时代

前沿模型的工作方式:与AI智能对话的新时代

前沿AI模型代表着当前最先进的人工智能系统,具备多模态处理、零样本学习和智能体行为等关键特征。以GPT-4o和Gemini 1.5为代表的前沿模型需要大量资源投入,面临成本与质量的平衡挑战。专家指出,基准测试既是推动发展的工具也存在被操控的风险。未来十年,这些模型将演变为无处不在的背景智能体,通过语音、凝视和情感识别与用户交互,彻底改变人机界面体验。

为什么使用多个 AI 成为当前趋势

为什么使用多个 AI 成为当前趋势

随着AI技术的发展,企业和个人用户越来越倾向于使用多个AI模型和工具。这一趋势源于单一AI模型难以满足多样化需求,专业化AI可以在特定领域发挥更好的效果。多模型组合不仅可以提高性能和效率,还能避免对单一供应商的依赖。然而,管理和协调多个AI也带来了新的挑战。

2025 年多模态 AI:从医疗保健到电子商务及更多领域的应用

2025 年多模态 AI:从医疗保健到电子商务及更多领域的应用

多模态人工智能将在2025年重新定义企业如何利用AI。它能同时处理文本、图像、音频等多种数据,为企业提供更全面的洞察。在医疗领域,多模态AI可以帮助医生从海量数据中提取关键信息。在电子商务领域,它将彻底改变搜索体验,让用户通过描述、图片等多种方式找到心仪商品。多模态AI的应用将涉及各行各业,为企业带来无限可能。