模型评测 关键字列表
微软全新AI图像工具在关键评测中超越谷歌Nano Banana

微软全新AI图像工具在关键评测中超越谷歌Nano Banana

微软在Build开发者大会上发布了两款新文生图模型——MAI-Image-2.5与Flash版本,同时还推出了首个推理模型MAI-Thinking-1及多款语音、转录和代码模型,共七款新AI模型。根据Arena AI排行榜评测,MAI-Image-2.5在图像编辑能力上已超越谷歌Nano Banana 2,但仍位居OpenAI GPT-Image-2之后。新图像模型现已集成至PowerPoint、Foundry企业市场及OneDrive,主打精准编辑与专业级输出能力。

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

Anthropic最新发布的Claude Opus 4.8以"更诚实、判断力更强"为核心卖点。作者通过10个精心设计的测试提示,涵盖代码调试、医学引用、保险索赔等场景,对比评估Opus 4.7与4.8的诚实度、准确性和校准度。结果显示,4.8整体优于4.7,但在一个涉及旅行保险的法律测试中,4.8仍出现了"以有限信息过度自信推断管辖权"的典型判断失误,表明其距离完全可信仍有差距。

我对GPT-5.5进行了10轮测试:总分93分,仅因过度热情失分

我对GPT-5.5进行了10轮测试:总分93分,仅因过度热情失分

OpenAI发布GPT-5.5,在智能编码、概念理解、科研辅助和知识工作准确性方面均有提升。作者通过十项标准测试对其进行评估,总分100分中GPT-5.5获得93分。失分主要源于模型的"过度热情"——在新闻摘要测试中擅自引用六个来源而非指定的一个,在翻译测试中提供两个译文选项而非一个。除此之外,各项测试表现扎实,创意写作尤为突出,作者表示将其作为默认模型使用。