最新文章
YC加速器掌门人Gary Tan深度对话:下一代AI独角兽的逻辑变了,先去大厂再创业的时代已成往事,那里只是高智商人群的托儿所?
2025-05-28

YC加速器掌门人Gary Tan深度对话:下一代AI独角兽的逻辑变了,先去大厂再创业的时代已成往事,那里只是高智商人群的托儿所?

AI正在彻底改写创业规则:YC最新数据显示,10人团队12个月达成千万美元营收已成常态,"氛围编程"让技术不再是瓶颈,而创始人能否深度理解客户需求成为成败关键。当6人团队就能创造八位数收入时,我们看到的不仅是速度革命,更是对公司本质的重新定义。

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

浙江大学研究团队开发的"自制动力训练"(Self-Braking Tuning,SBT)方法解决了大型语言模型在推理过程中的过度思考问题。该方法不依赖外部干预,而是培养模型自主识别冗余推理并适时终止的能力。研究者通过分析推理效率比率和过度思考标记比率,构建了两种数据策略:SBT-E(精确版)和SBT-D(动态版)。实验结果表明,经过训练的模型在多个数学基准测试上保持原有准确率的同时,将标记消耗减少了30%到60%,显著提高了推理效率。这项创新使AI系统能更像人类一样有效思考,为资源受限环境下的AI部署提供了新解决方案。

OnePlus 全力投身 AI 革新

OnePlus 全力投身 AI 革新

OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral AI 推出新专有 API,利用 Mistral Medium 3 模型快速集成自主生成 AI 代理。平台内置 Python 执行、图像生成、文档库 ( RAG ) 及网络搜索等功能,支持多代理协同处理复杂任务,适用于各领域应用。

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

浙江大学研究团队开发的"自制动力训练"(Self-Braking Tuning,SBT)方法解决了大型语言模型在推理过程中的过度思考问题。该方法不依赖外部干预,而是培养模型自主识别冗余推理并适时终止的能力。研究者通过分析推理效率比率和过度思考标记比率,构建了两种数据策略:SBT-E(精确版)和SBT-D(动态版)。实验结果表明,经过训练的模型在多个数学基准测试上保持原有准确率的同时,将标记消耗减少了30%到60%,显著提高了推理效率。这项创新使AI系统能更像人类一样有效思考,为资源受限环境下的AI部署提供了新解决方案。

SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

上海交通大学AI团队提出的SpatialScore是迄今最全面的多模态空间理解评测基准,包含28K样本,涵盖各类空间任务。研究首创VGBench专门评估视觉几何感知能力,并开发SpatialAgent多代理系统,集成9种专业工具增强空间理解。实验表明,即使最先进的大模型在空间理解方面仍存显著局限,特别是在视觉几何感知任务上,而SpatialAgent通过结构化工具调用显著提升性能。这项工作为未来多模态模型在实体AI应用中的发展提供关键方向,填补了AI系统在3D空间认知能力评估的重要空白。

SophiaVL-R1:为多模态大语言模型注入思维奖励,让AI推理能力更上一层楼

SophiaVL-R1:为多模态大语言模型注入思维奖励,让AI推理能力更上一层楼

SophiaVL-R1是香港中文大学和上海人工智能实验室联合开发的多模态大语言模型,创新性地引入了"思维奖励"机制来提升AI的推理能力。与传统方法不同,该研究不仅关注AI是否得出正确答案,还评估整个思考过程的质量,通过Trust-GRPO算法智能地整合思维奖励和结果奖励。实验表明,即使只有7B参数,SophiaVL-R1也能在MathVista、MMMU等多个基准测试中超越参数量大10倍的模型,证明了思维过程监督对提升AI泛化推理能力的重要价值。

思考还是不思考?为视觉-语言模型打造通过强化学习的选择性推理

思考还是不思考?为视觉-语言模型打造通过强化学习的选择性推理

这项由香港中文大学和新加坡国立大学研究者合作开发的"思考或不思考"(TON)框架,通过创新的"思考丢弃"策略和两阶段训练方法,实现了让视觉-语言模型能够像人类一样根据问题难度选择性推理的能力。实验表明,TON可减少高达90%的输出长度,同时保持或提升性能,在计数、数学和导航等多种任务中展现出显著优势,为AI系统在保持推理质量的同时大幅提升效率提供了新思路。