加拿大AI公司Cohere发布了Command A Vision视觉模型,专门针对企业应用场景。该模型拥有1120亿参数,仅需两个GPU即可运行,能够处理图表、图形、扫描文档和PDF等企业常见视觉数据。在九项基准测试中,Command A Vision平均得分83.1%,超越了GPT-4.1、Llama 4等竞争对手。该模型采用开放权重系统,支持23种语言,旨在为企业提供成本优化的多模态AI解决方案。
周四,法国大型语言模型(LLM)开发商Mistral推出了一款新API,专为处理复杂PDF文档的开发者设计。Mistral OCR是一种光学字符识别(OCR)API,可以将任何PDF转换为文本文件,以便AI模型更容易地进行处理。