人工智能 关键字列表
大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

Skoltech等机构联合开发了首个多语言"常青问题"识别系统EverGreenQA,能准确区分问题答案的时效性。研究创建了包含7种语言4757个问题的数据集,训练的EG-E5分类器准确率达90.6%,超越现有大型语言模型。该技术可改善AI自我认知、优化数据集质量,并能预测GPT-4o的检索行为,为构建更可信的AI问答系统提供重要突破。

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

西安交通大学与昆明理工大学研究团队开发了一种基于集成学习的婴幼儿语音情感识别方法,能有效分辨饥饿、困倦、不舒服和高兴四种情绪状态。研究采用三层分类器架构,整合SVM、随机森林和KNN算法,达到85.82%的准确率,显著优于单一分类器。这项技术有望应用于智能婴儿监护和早期疾病筛查,为理解婴幼儿非语言表达开辟了新途径。

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

这项来自普渡大学和微软的研究探索如何让AI助手更好地保护用户隐私。研究团队通过让大型语言模型在回答前先思考"语境完整性"(即在特定场景下什么信息适合分享),并结合强化学习技术进行训练,成功降低了隐私信息泄露风险高达40%,同时保持了任务完成能力。研究仅使用约700个合成数据样本进行训练,却在真实场景测试中展现出色效果,为构建更隐私友好的AI助手提供了实用方法。

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队利用扩散模型革新自动驾驶3D感知技术,通过生成式建模取代传统判别式方法,让AI系统具备类人想象推理能力。该方法在遮挡区域预测准确率提升15%,并显著改善下游规划任务性能,为自动驾驶向更智能安全方向发展提供重要技术突破。

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company研究团队开发了开源网页操作AI系统Surfer-H,配备专门训练的Holo1视觉语言模型。该系统在WebVoyager基准测试中达到92.2%的成功率,媲美GPT-4性能但成本仅为其四分之一。研究团队还发布了专门的网页定位测试集WebClick,并完全开源模型权重,为AI技术民主化做出重要贡献。

通过奖励优化图像描述:让多模态大模型拥有推理能力而不用重新训练视觉模块

通过奖励优化图像描述:让多模态大模型拥有推理能力而不用重新训练视觉模块

这项研究提出了RACRO框架,通过奖励优化图像描述来解决多模态推理问题,避免了传统方法中昂贵的视觉-语言重新对齐过程。研究表明,通过将视觉感知与推理解耦并使用强化学习优化图像描述质量,即使只使用较小模型训练,也能在推理阶段无缝适配更强大的语言模型,实现性能显著提升。实验证明RACRO在多项多模态推理基准上取得了领先结果,展示了极强的可扩展性和即插即用兼容性。

FusionAudio-1.2M:当AI学会像人类一样"听懂"声音的故事——香港中文大学(深圳)团队的突破性研究

FusionAudio-1.2M:当AI学会像人类一样"听懂"声音的故事——香港中文大学(深圳)团队的突破性研究

香港中文大学(深圳)研究团队开发出FusionAudio-1.2M数据集,创新性地融合音频、视觉、语音和音乐信息来生成详细的音频描述。该研究采用多模态专家系统和大语言模型整合的两阶段方法,构建了包含120万高质量音频描述的大规模数据集。实验表明,使用该数据集训练的AI模型在音频理解和检索任务上显著超越现有方法,为智能语音助手、自动驾驶等领域带来重要应用前景。

浙江大学推出动态场景重建的新方法——FreeTimeGS,知名KOL:这就是未来Midjourney要实现的效果

浙江大学推出动态场景重建的新方法——FreeTimeGS,知名KOL:这就是未来Midjourney要实现的效果

浙江大学与吉利汽车研究院提出了一个叫做FreeTimeGS的新方法,通过一种全新的思路给予高斯基元"自由",让它们能够在任意时间和位置出现,从而更好地重建具有复杂动作的动态场景。

当AI遇上癌症诊断:上海交大团队如何让机器"看懂"细胞的秘密

当AI遇上癌症诊断:上海交大团队如何让机器"看懂"细胞的秘密

上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。

听声音懂内容:微软与台湾大学研究团队开发音频感知大模型评估说话风格的新方法

听声音懂内容:微软与台湾大学研究团队开发音频感知大模型评估说话风格的新方法

这项由台湾大学与微软研究团队合作的研究探索了使用音频感知大语言模型(ALLMs)作为自动评判员来评估语音生成模型的说话风格。研究设计了"语音风格指令跟随"和"角色扮演"两个任务,测试了四种语音模型的表现,并比较了人类与AI评判的一致性。结果表明,特别是Gemini-2.5-pro模型,其评判结果与人类评判的一致性甚至超过了人类评判者之间的一致性,证明ALLMs可以作为可靠的自动评估工具。同时研究也发现,即使是最先进的语音模型在说话风格控制方面仍有显著改进空间。

Kinetics:从全新视角重新思考大语言模型测试阶段的资源分配,卡内基梅隆大学研究表明稀疏注意力机制至关重要

Kinetics:从全新视角重新思考大语言模型测试阶段的资源分配,卡内基梅隆大学研究表明稀疏注意力机制至关重要

卡内基梅隆大学研究团队提出全新"Kinetics"缩放定律,揭示大语言模型测试阶段的资源分配策略需要重新思考。研究发现小型模型效率被严重高估,因为以往研究忽略了内存访问成本这一关键瓶颈。在测试阶段,注意力机制而非参数数量成为主要成本因素。基于此,团队提出以稀疏注意力为核心的新范式,显著提升问题解决准确率,在AIME测试中低成本场景下提升高达60个百分点,高成本场景下仍有5个百分点优势。

搜索舞台:加入"放大镜"的大语言模型特性深度剖析 —— 伯克利大学研究团队探索网络搜索增强型AI系统

搜索舞台:加入"放大镜"的大语言模型特性深度剖析 —— 伯克利大学研究团队探索网络搜索增强型AI系统

这项研究由加州大学伯克利分校团队完成,通过创建"Search Arena"平台收集了24,000多次用户与搜索增强型大语言模型的真实交互数据。研究发现用户提问远不止简单事实查询,他们更看重引用丰富的回答,即使引用与内容无直接关联。有趣的是,用户更偏爱社区平台引用,而非维基百科。研究还表明搜索能力不会影响AI在普通场景中的表现,但在需要实时信息时至关重要。这些发现为改进下一代AI助手提供了重要指导。

巴克莱为 100,000 名员工推出 Microsoft Copilot,AI 采用持续加速

巴克莱为 100,000 名员工推出 Microsoft Copilot,AI 采用持续加速

巴克莱银行与 Microsoft 签订协议,将 Copilot 集成到内部生产力工具中,为全球 10 万员工打造一站式 AI 平台,提升工作效率。

‘严重’网络中断全球损失达1600亿美元

‘严重’网络中断全球损失达1600亿美元

思科调查全球逾8065名高级IT及业务领导发现,拥堵、网络攻击和配置错误引发的网络故障每年可能使企业损失达1600亿美元。为迎接AI、IoT和云环境的挑战,现代网络必须更智能、更安全、更灵活。

Guardz 获得 5600 万美元融资,为小型企业带来企业级网络安全保护

Guardz 获得 5600 万美元融资,为小型企业带来企业级网络安全保护

Guardz 获得 5600 万美元 B 轮融资,通过 AI 驱动的全能安全平台与 MSP 合作,为中小企业提供与大企业同等的网络防护,帮助应对自动化网络攻击。

WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

Apple在WWDC 2025中推出重大软件更新,包括采用全新液体玻璃界面的iOS26、以年份命名的系统升级、专用游戏应用及多项智能化功能,展现系统革新和便捷体验。

macOS Tahoe 即将推出的新功能

macOS Tahoe 即将推出的新功能

苹果在 WWDC 上宣布 macOS Tahoe,通过智能设计、系统联动及 Spotlight 升级,带来全新用户体验。

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的报告详细解析了 AI 技术在数据、训练与商业应用上的飞速增长,展现了 ChatGPT 等产品快速超越传统搜索的趋势,预示着未来各领域都将迎来全面变革。

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks 创始人 Brad Menezes 指出,AI 应用的核心在于定制化系统提示,通过角色设定、上下文和工具运用,帮助优化 LLM 调用,从而赋能非开发者构建企业级应用。