最新文章
UniTEX:打破传统纹理生成限制,HKUST和Light Illusion团队带来高保真3D纹理生成新方法

UniTEX:打破传统纹理生成限制,HKUST和Light Illusion团队带来高保真3D纹理生成新方法

UniTEX是香港科技大学与Light Illusion团队联合开发的创新3D纹理生成框架,彻底突破了传统UV映射的限制。该技术引入了"纹理函数"概念,将纹理定义为3D空间中的连续函数,完全绕过了拓扑歧义问题。配合精心设计的大型纹理模型和高效的扩散Transformer微调策略,UniTEX能从单一参考图像生成高保真、完整的3D纹理,同时在艺术家创建和AI生成的复杂模型上都表现出色,为游戏、VR和数字内容创作领域带来革命性变化。

仅需单一数据即可超越强化学习:Ubiquant研究团队揭示的单样本熵最小化训练法突破

仅需单一数据即可超越强化学习:Ubiquant研究团队揭示的单样本熵最小化训练法突破

研究人员训练了13,440个大型语言模型,发现熵最小化方法仅需一个未标记数据和10步优化,就能实现比传统强化学习更好的性能提升。这种"单样本熵最小化"完全无监督,基于两个简单假设:语言模型生成过程本质上是随机的,且正确答案通常熵值更低。研究表明该方法能使模型logits分布向右偏移,增强置信度,对推理能力产生显著提升,平均提高24.7个百分点。这一发现或将重塑大型语言模型的后训练范式。

互联网女皇玛丽·米克尔刚发布了一份340页的《人工智能趋势报告》,这里总结了10个核心观点

互联网女皇玛丽·米克尔刚发布了一份340页的《人工智能趋势报告》,这里总结了10个核心观点

大模型时代,玛丽·米克尔(Mary Meeker)的名字可能大家不一定熟悉,但是在互联网时代,这位被可被誉为“互联网女皇”的。她是美国风险投资家和前华尔街证券分析师,专注于互联网及新兴技术领域。玛丽·米克尔(Mary Meeker)发了一份340页的《人工智能趋势报告》,粗粗看了一下,并没有非常轰动的观点,但是数据比较全面

吴恩达LangChain对话:别纠结Agent定义,成功的智能体往往从线性工作流开始,Vibe Coding这个概念充满误导

吴恩达LangChain对话:别纠结Agent定义,成功的智能体往往从线性工作流开始,Vibe Coding这个概念充满误导

毫无疑问,Agent,也就是智能体已经预定了今年的最火AI关键词。不知道明年会不会是AGI呢,既然OpenAI和Anthropic的预测都是在2027年左右。而在Agent领域,非常有发言权的一位就是吴恩达。LangChain前不久的开发者活动Interrupt上,LangChain创始人Harrison Chase邀请了吴恩达专门做了一场对话

是否应该为 Google 的 Veo 3 支付 Gemini Ultra 费用来制作 AI 视频?我的体验告诉你答案

是否应该为 Google 的 Veo 3 支付 Gemini Ultra 费用来制作 AI 视频?我的体验告诉你答案

本文评测了 Google 最新 AI 视频生成工具 Veo 3,从音频生成、功能局限、等待时长及费用限制等方面展示其优劣,适合 AI 爱好者体验,但专业创作者可能会感到不便。

KO 满血版DeepSeek?AM-Thinking-V1,32B干翻一众千亿级大模型

KO 满血版DeepSeek?AM-Thinking-V1,32B干翻一众千亿级大模型

在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。

字节Seed团队绝地翻盘,发现多模态模型也有涌现时刻,开源BAGEL模型

字节Seed团队绝地翻盘,发现多模态模型也有涌现时刻,开源BAGEL模型

北京时间5月21日,百度发布2025年第一季度财报,这场会议不仅仅是一次常规的财务数据披露,更像是百度在AI时代战略布局的全景展示,李彦宏在开场发言中,将2025年第一季度形容为一个“稳健的开局”。

SridBench:首个科研插图绘制基准测试揭示AI绘图能力差距

SridBench:首个科研插图绘制基准测试揭示AI绘图能力差距

SridBench是首个评估人工智能模型科研插图绘制能力的基准测试,由中国科学技术大学等机构研究团队创建。该测试包含1,120个来自自然科学和计算机科学13个学科的高质量样本,并设计了六维评估标准。实验结果显示,即使是目前表现最佳的GPT-4o-image模型也仅达到基本合格水平,文本信息缺失、视觉元素不完整和科学错误是主要瓶颈。这项研究揭示了AI科研绘图能力的现状,为未来技术发展提供了方向。

VF-EVAL:评测多模态大语言模型为AI生成视频提供反馈的能力

VF-EVAL:评测多模态大语言模型为AI生成视频提供反馈的能力

这项由中国科学院大学、新加坡国立大学、浙江大学和耶鲁大学研究人员联合发表的研究提出了VF-EVAL,一个专门评估多模态大语言模型对AI生成视频提供反馈能力的新基准。研究通过四项任务:连贯性验证、错误感知、错误类型检测和推理评估,全面测试模型理解合成视频的能力。研究发现即使是最先进的GPT-4.1模型也难以在所有任务上保持良好表现,表明AI对生成视频的理解仍有巨大提升空间。研究还通过REPROMPT实验证明,将大模型反馈与人类偏好更好地对齐可以显著提升视频生成质量。

KVzip:全新压缩技术让AI大模型记忆力翻倍,用"上下文重建"解决查询无关的KV缓存压缩

KVzip:全新压缩技术让AI大模型记忆力翻倍,用"上下文重建"解决查询无关的KV缓存压缩

这篇研究介绍了KVzip,一种创新的查询无关KV缓存压缩方法,通过上下文重建机制为大型语言模型提供高效存储解决方案。该技术能将KV缓存大小减少394倍,同时提高解码速度约2倍,在各种任务上性能几乎不受影响。不同于传统查询相关的压缩方法,KVzip创建可在多种查询场景下重用的通用压缩缓存,特别适合个性化AI助手和企业信息检索系统。研究在LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B等多种模型上进行了验证,处理长度高达17万词元的文本,并能与KV缓存量化等其他优化技术无缝集成。

DeepTheorem:腾讯突破性研究如何通过自然语言和强化学习提升大模型定理证明能力

DeepTheorem:腾讯突破性研究如何通过自然语言和强化学习提升大模型定理证明能力

腾讯与上海交通大学联合推出的DeepTheorem研究突破了大型语言模型在数学定理证明领域的限制。该项目创建了包含12.1万个IMO级别非形式化定理的大规模数据集,开发了专门的RL-Zero强化学习策略,并设计了全面的评估框架。研究表明,通过使用自然语言而非传统形式化系统,即使是7B参数的模型也能在复杂定理证明上取得显著成果,超越许多更大的专业模型。这一成果为AI数学推理开辟了新途径,使语言模型能够像人类数学家一样思考和证明。

字节跳动MAGREF:革命性技术让你的照片变身栩栩如生的视频,还能保持多个人物与物体的精准特征

字节跳动MAGREF:革命性技术让你的照片变身栩栩如生的视频,还能保持多个人物与物体的精准特征

MAGREF是字节跳动智能创作团队开发的多主体视频生成框架,能从多张参考图像和文本提示生成高质量视频。该技术引入了区域感知动态遮罩机制,使单一模型灵活处理人物、物体和背景,无需架构变化;并采用像素级通道拼接机制,在通道维度上运作以更好地保留外观特征。实验表明,MAGREF在身份一致性和视觉质量方面优于现有技术,能将单主体训练泛化到复杂多主体场景,为内容创作者提供了强大而便捷的视频生成工具。

深度剖析偏好机制背后的隐藏逻辑:多领域概念解释框架如何帮助我们理解GPT-4与人类判断的根本差异?——来自Technion和IBM的前沿研究

深度剖析偏好机制背后的隐藏逻辑:多领域概念解释框架如何帮助我们理解GPT-4与人类判断的根本差异?——来自Technion和IBM的前沿研究

这项研究揭示了大型语言模型(LLMs)偏好决策的内在机制。以色列理工学院和IBM研究院的团队开发了一种自动化方法,不需人工预设即可发现和解释影响AI判断的关键概念。研究横跨八个领域(从一般问答到安全评估),分析了12种偏好机制,发现人类评判者重视权威性和清晰度,而AI评判更关注事实准确性。他们提出的层次多领域回归模型不仅能准确预测偏好,还能清晰解释判断过程,为构建更透明、更符合人类价值观的AI系统提供了新途径。

PATIENTSIM:一位栩栩如生的虚拟患者,让医患沟通更真实——KAIST等多家研究机构联合推出基于个性化角色扮演的医患互动模拟器

PATIENTSIM:一位栩栩如生的虚拟患者,让医患沟通更真实——KAIST等多家研究机构联合推出基于个性化角色扮演的医患互动模拟器

PATIENTSIM是韩国科学技术院等机构最新研发的医患交流模拟系统,它突破了传统模拟器的限制,通过四个维度(性格、语言水平、记忆能力和认知混乱程度)构建了37种独特的患者角色。基于MIMIC数据集中的真实临床资料,系统利用Llama 3.3大型语言模型生成真实且多样的患者反应,经临床医生评估获得3.89/4分的高分。作为开源可定制平台,PATIENTSIM为医学教育和AI医生评估提供了安全、可靠且符合隐私规定的解决方案。

图视角解密大模型知识结构:俄勒冈大学研究揭示大语言模型如何组织和存储知识

图视角解密大模型知识结构:俄勒冈大学研究揭示大语言模型如何组织和存储知识

这项研究首次从图论视角探索大语言模型的知识结构模式,揭示了模型知识的三峰分布特性、节点度数与知识水平的正相关关系,以及知识同质性现象——拓扑位置相近的实体往往具有相似的知识水平。基于这些发现,研究团队开发了图神经网络模型来预测实体知识水平,并证明了这种方法在选择高价值三元组进行模型微调时的有效性,特别是在专业领域知识方面取得了显著提升。

大模型能否欺骗CLIP?通过文本更新测试预训练多模态表示的对抗组合能力

大模型能否欺骗CLIP?通过文本更新测试预训练多模态表示的对抗组合能力

首尔国立大学研究团队提出了"多模态对抗组合性"(MAC)基准测试,评估预训练多模态表示(如CLIP)在理解文本与图像、视频、音频关系时的组合性弱点。研究使用大语言模型生成欺骗性文本,通过样本成功率和多样性双重指标进行评估。团队创新性地提出了多样性促进自训练方法,即使使用较小的Llama-3.1-8B模型,也能显著提高攻击成功率和多样性。实验在COCO、MSRVTT和AudioCaps数据集上验证,该方法优于现有技术,并展示了良好的跨模型迁移性,为构建更可靠的多模态系统提供了重要见解。

ChartLens:让图表理解更加透明 —— 从马里兰大学和Adobe研究院联合推出的细粒度视觉归因技术谈起

ChartLens:让图表理解更加透明 —— 从马里兰大学和Adobe研究院联合推出的细粒度视觉归因技术谈起

ChartLens是马里兰大学与Adobe研究院合作开发的创新技术,专门解决多模态大型语言模型在图表理解中的"幻觉"问题。这项研究提出了"后验细粒度视觉归因"方法,能够将AI对图表的分析结果与图表中的具体视觉元素(如特定柱形或数据点)精确关联起来,使AI的回答变得可验证。研究团队还创建了ChartVA-Eval基准测试集,并证明他们的方法比现有技术提高了26-66%的归因准确率,为金融分析、政策制定和科学研究等领域提供了更可靠的图表理解工具。

CrEval:首个跨领域文本创造力评估方案——人大、北师大、快手联合推出创造力评估数据集与评估模型

CrEval:首个跨领域文本创造力评估方案——人大、北师大、快手联合推出创造力评估数据集与评估模型

这篇论文介绍了一个名为"CrEval"的创新框架,用于跨领域评估文本创造力。研究团队构建了"CreataSet"数据集,包含超过10万条人类水平和100多万条合成创意文本,涵盖87个领域。基于此训练的CrEval评估器在与人类判断的一致性上显著优于现有方法,包括GPT-4o。研究发现,结合人类创建的数据和合成数据对训练有效评估器至关重要,且CrEval不仅能评估创造力,还能提升AI模型生成更有创意内容的能力,为创造力评估和提升开辟了新方向。

推理增强的大模型更容易产生幻觉吗?清华和新加坡国立大学团队深度解析

推理增强的大模型更容易产生幻觉吗?清华和新加坡国立大学团队深度解析

这项研究由清华大学和新加坡国立大学团队完成,系统探讨了大推理模型在事实查询任务中的幻觉问题。研究发现,仅通过单一训练阶段(仅SFT或仅RL)开发的推理模型更容易产生幻觉,而完整SFT+RL流程训练的模型幻觉较少。研究者识别出两种导致幻觉的关键认知行为:"错误重复"和"思考-答案不匹配",并从模型不确定性校准角度揭示了幻觉产生的内在机制,为开发更可靠的推理模型提供了重要指导。

动态适配的无分类器引导:用低置信度掩码提升AI生成质量

动态适配的无分类器引导:用低置信度掩码提升AI生成质量

这项由香港理工大学和复旦大学联合领导的研究提出了"自适应无分类器引导"(A-CFG)技术,用于改进AI文本生成。传统CFG使用静态无条件输入,而A-CFG能识别模型在生成过程中最不确定的部分,动态地重新掩码这些低置信度标记,创建针对性的无条件输入。实验表明,A-CFG在多种基准测试中显著优于标准CFG,如在GPQA上提升3.9点,在数独任务上提升8.0点,证明了在迭代生成中动态响应模型不确定性的价值。