模型评测文章列表第1页-至顶网频道

模型评测关键字列表

微软全新AI图像工具在关键评测中超越谷歌Nano Banana

微软在Build开发者大会上发布了两款新文生图模型——MAI-Image-2.5与Flash版本，同时还推出了首个推理模型MAI-Thinking-1及多款语音、转录和代码模型，共七款新AI模型。根据Arena AI排行榜评测，MAI-Image-2.5在图像编辑能力上已超越谷歌Nano Banana 2，但仍位居OpenAI GPT-Image-2之后。新图像模型现已集成至PowerPoint、Foundry企业市场及OneDrive，主打精准编辑与专业级输出能力。

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

人工智能

自然语言处理

模型评测

2026-06-03

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

Anthropic最新发布的Claude Opus 4.8以"更诚实、判断力更强"为核心卖点。作者通过10个精心设计的测试提示，涵盖代码调试、医学引用、保险索赔等场景，对比评估Opus 4.7与4.8的诚实度、准确性和校准度。结果显示，4.8整体优于4.7，但在一个涉及旅行保险的法律测试中，4.8仍出现了"以有限信息过度自信推断管辖权"的典型判断失误，表明其距离完全可信仍有差距。

人工智能

大语言模型

模型评测

2026-04-27

我对GPT-5.5进行了10轮测试：总分93分，仅因过度热情失分

OpenAI发布GPT-5.5，在智能编码、概念理解、科研辅助和知识工作准确性方面均有提升。作者通过十项标准测试对其进行评估，总分100分中GPT-5.5获得93分。失分主要源于模型的"过度热情"——在新闻摘要测试中擅自引用六个来源而非指定的一个，在翻译测试中提供两个译文选项而非一个。除此之外，各项测试表现扎实，创意写作尤为突出，作者表示将其作为默认模型使用。

白皮书

数字化转型方略

人工智能

图像生成

模型评测

微软全新AI图像工具在关键评测中超越谷歌Nano Banana

人工智能

自然语言处理

模型评测

我为Claude Opus 4.8设置了10个诚实陷阱——一道法律题让它"崩了"

人工智能

大语言模型

模型评测

我对GPT-5.5进行了10轮测试：总分93分，仅因过度热情失分

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: