最新文章
Roig Arena 将以 6GHz Wi-Fi 网络及先进分析技术开幕

Roig Arena 将以 6GHz Wi-Fi 网络及先进分析技术开幕

Roig Arena 将于 2025 年 9 月在瓦伦西亚开业,借助 Extreme Networks 的 6GHz Wi-Fi 与数据分析技术,实现无缝运营与个性化观众体验,打造全天候活动中心。

OpenMamba:吃点绿菜,它们对你有益

OpenMamba:吃点绿菜,它们对你有益

OpenMamba 是一款意大利独立滚动更新的 Linux 发行版,基于 Fedora 工具构建,提供 KDE Plasma 与 LXQt 桌面。它采用最新组件和标准打包工具,运行稳定且易用,适合规避主流系统限制的用户。

微软纯文本编辑器升级:Notepad 新增格式选项

微软纯文本编辑器升级:Notepad 新增格式选项

微软更新Notepad,新增工具栏格式选项支持粗体、斜体、超链接、列表和标题,并兼容Markdown输入,传统纯文本编辑体验或将受影响。

埃隆·马斯克表示 XChat 正逐步向全体用户推出,但其所谓的安全性仍存在疑问

埃隆·马斯克表示 XChat 正逐步向全体用户推出,但其所谓的安全性仍存在疑问

Elon Musk 宣布新版 XChat 支持自毁消息、加密、文件共享及音视频通话,目前仅在部分用户中测试,预计本周面向所有用户开放。Musk 称其基于 Rust 构建,并采用 “Bitcoin 风格” 加密,但这一说法引发争议。

驱动汽车电子创新:RIGOL CAN-FD总线分析解决方案
2025-06-04

驱动汽车电子创新:RIGOL CAN-FD总线分析解决方案

——高性能示波器助力汽车电子系统开发与验证

普源精电:科技创新引领聚合力,产教融合赋能电子教育
2025-06-04

普源精电:科技创新引领聚合力,产教融合赋能电子教育

——RIGOL成为2025年TI杯全国大学生电子设计竞赛全国总测评仪器合作方

揭秘大语言模型的假话问题:弗吉尼亚大学团队打造可靠生物医学假设生成评估工具

揭秘大语言模型的假话问题:弗吉尼亚大学团队打造可靠生物医学假设生成评估工具

弗吉尼亚大学研究团队开发了TruthHypo基准和KnowHD框架,用于评估大语言模型生成生物医学假设的真实性及检测幻觉。研究发现大多数模型在生成真实假设方面存在困难,只有GPT-4o达到60%以上的准确率。通过分析推理步骤中的幻觉,研究证明KnowHD提供的基础依据分数可有效筛选真实假设。人类评估进一步验证了KnowHD在识别真实假设和加速科学发现方面的价值,为AI辅助科学研究提供了重要工具。

语言模型安全推理重大突破:亚马逊Nova团队利用AI智能代理协作创建高质量策略链式思维数据

语言模型安全推理重大突破:亚马逊Nova团队利用AI智能代理协作创建高质量策略链式思维数据

亚马逊Nova责任AI团队与亚利桑那州立大学共同开发了AIDSAFE,这是一种创新的多代理协作框架,用于生成高质量的安全策略推理数据。不同于传统方法,AIDSAFE通过让多个AI代理进行迭代讨论和精炼,产生全面且准确的安全推理链,无需依赖昂贵的高级推理模型。实验证明,使用此方法生成的数据训练的语言模型在安全泛化和抵抗"越狱"攻击方面表现卓越,同时保持了实用性。研究还提出了"耳语者"代理技术,解决了偏好数据创建中的困难,为直接策略优化提供了更有效的训练材料。

控制随心,视频随意:ByteDance智能创作的ATI轨迹控制系统如何彻底改变视频生成技术

ByteDance智能创作团队推出的ATI系统彻底改变了视频生成技术的控制方式。这个统一框架通过简单的点轨迹同时实现相机移动、物体平移和局部变形控制,不再需要分散的工具。用户只需在初始图像上标记关键点并绘制运动路径,系统就能生成符合指令的高质量视频。研究表明,ATI不仅提高了控制精度,还能兼容多种顶级视频生成模型,有望让专业级视频创作变得更加直观简单。

System-1.5 推理:蒙特利尔大学研究团队打造动态捷径,让AI思考更灵活高效

System-1.5 推理:蒙特利尔大学研究团队打造动态捷径,让AI思考更灵活高效

这项来自蒙特利尔大学研究团队的突破性工作提出了System-1.5推理框架,通过在潜在空间中创建动态捷径,使大语言模型能够灵活调整思考路径。研究者设计了模型深度捷径和推理步骤捷径,让AI系统能像人类一样区分关键与非关键推理步骤,在不损失准确性的情况下将推理速度提升20倍以上。这种方法在数学推理和常识推理任务上表现出色,为解决大语言模型推理效率问题提供了全新思路。

被难倒的视觉语言模型:为什么人工智能看不懂视觉谜题?

被难倒的视觉语言模型:为什么人工智能看不懂视觉谜题?

这项研究揭示了视觉语言模型在解决视觉文字谜题方面的重大局限性。研究团队通过432个手工注释的谜题数据集,评估了从OpenAI到Google等多家公司的AI模型表现。结果显示,即使最先进的模型在抽象推理、横向思维和理解视觉隐喻方面仍然表现不佳,尤其在识别物体缺失和文化参考上存在显著差距。研究还发现,模型对直接视觉输入的依赖程度很高,特别是推理类模型。这些发现对未来开发更具人类化理解能力的AI系统提供了重要指导。

灵活又靠谱,红帽给AI时代定了个调
2025-06-04

灵活又靠谱,红帽给AI时代定了个调

红帽相信开放将继续带来更快速、更优质的安全改进,而非相反。去年Red Hat Summit带来了Linux AI(RHEL AI)和OpenShift AI的重磅更新,今年则重点聚焦在Linux 10和llm-d。

Adobe 在 Android 上发布 Photoshop 应用 beta 版本

Adobe 在 Android 上发布 Photoshop 应用 beta 版本

Adobe 周二宣布推出适用于 Android 系统的 Photoshop 应用测试版,提供与桌面版相似的图像编辑工具和 AI 功能,初期免费使用,旨在吸引更多偏好手机创作的年轻用户。

MMSI-Bench:上海人工智能实验室打造的多图像空间智能新基准,揭示AI与人类空间认知的巨大差距

MMSI-Bench:上海人工智能实验室打造的多图像空间智能新基准,揭示AI与人类空间认知的巨大差距

上海人工智能实验室研究团队开发了MMSI-Bench,这是首个专注于多图像空间智能评估的全面基准。研究人员花费300多小时,从12万张图像中精心构建了1000道问题,涵盖了位置关系、属性和运动等多种空间推理任务。评测结果显示,即使最先进的AI模型也仅达到41%的准确率,远低于人类的97%,揭示了AI空间认知能力的重大缺陷。研究还识别了四类主要错误:物体识别错误、场景重建错误、情境转换错误和空间逻辑错误,为未来改进提供了明确方向。

ZPressor:突破性信息瓶颈压缩技术让3D高斯渲染不再受限于输入视图数量

这项研究提出了ZPressor,一种轻量级模块,可帮助前馈式3D高斯渲染(3DGS)模型更有效地处理大量输入视图。研究团队通过信息瓶颈理论,将输入视图分为锚点视图和支持视图,然后使用交叉注意力将支持视图信息压缩到锚点视图中。实验表明,ZPressor可让现有模型在80GB GPU上处理100多个480P输入视图,同时提高渲染质量并降低计算成本。在DL3DV-10K和RealEstate10K数据集上,集成ZPressor的模型在PSNR等指标上显著优于原始模型,特别是在处理36个输入视图时性能提升更为明显。

视觉世界中的定位强化学习:卡内基梅隆大学团队让AI"看"得更透彻

视觉世界中的定位强化学习:卡内基梅隆大学团队让AI"看"得更透彻

卡内基梅隆大学研究团队开发了ViGoRL系统,通过视觉定位强化学习显著提升AI的视觉推理能力。该方法让模型将每个推理步骤明确锚定到图像的特定坐标,模拟人类注视点转移的认知过程。与传统方法相比,ViGoRL在SAT-2、BLINK等多项视觉理解基准上取得显著提升,并能动态放大关注区域进行细节分析。这种定位推理不仅提高了准确性,还增强了模型解释性,为更透明的AI视觉系统铺平道路。

当你不在时,动物们是如何跳舞的?——华盛顿大学与加州大学伯克利的奇妙动物舞蹈研究

华盛顿大学和UC伯克利的研究团队开发了一种创新框架,让动物在音乐节奏下翩翩起舞。该研究《当你不在时,动物们是如何跳舞的》从少量生成的关键帧开始,通过图优化问题找出满足特定编舞模式的最佳路径,并应用视频扩散模型生成中间帧。技术亮点包括从人类舞蹈视频中提取编舞模式和生成镜像姿势图像。研究成功创建了长达30秒的各类动物舞蹈视频,用户评价显示其在节拍同步性和舞蹈感知方面表现出色。

Character.AI: 关于角色扮演 AI 工具及其新视频功能须知

Character.AI: 关于角色扮演 AI 工具及其新视频功能须知

文章详细介绍了Character.AI这款主要面向娱乐、角色扮演和互动叙事的AI聊天工具的原理、用户群体、特色功能以及面临的法律与伦理争议,同时揭示了其新推出的视频和游戏互动体验。

LUNGUAGE:一个结构化胸片X光报告评估的里程碑——KAIST与微软等顶尖团队推出的纵向解读评估框架

LUNGUAGE:一个结构化胸片X光报告评估的里程碑——KAIST与微软等顶尖团队推出的纵向解读评估框架

LUNGUAGE是由KAIST、微软和多家医疗机构联合开发的胸片X光报告结构化评估框架,解决了现有评估方法忽视时间连贯性和细节准确性的问题。该框架包含1,473份专家标注的胸片报告和80份纵向序列标注,通过两阶段结构化流程将自由文本转化为结构化表示,并提出LUNGUAGESCORE评分系统同时评估语义、时间和结构维度的准确性。实验证明该框架可有效评估各类报告生成模型,为放射学AI带来突破性进展。

FAMA:意大利和英语的首个大规模开源语音基础模型

FAMA:意大利和英语的首个大规模开源语音基础模型

意大利布鲁诺·凯斯勒基金会研究团队发布FAMA,首个遵循开放科学原则的英意双语语音基础模型。与Whisper等闭源模型不同,FAMA完全开放训练数据、代码和模型权重,在超过15万小时开源语音数据上训练。研究创建了包含1.6万小时伪标注数据的新数据集,实验表明FAMA性能可与现有语音基础模型媲美,同时速度提升8倍。这一突破不仅促进研究可重复性和公平评估,还为语音技术领域树立了开放科学新标准。