最新文章
PEC 2025 AI创新者大会年度提问:新工作时代:AI工作流由谁主导?
2025-10-09

PEC 2025 AI创新者大会年度提问:新工作时代:AI工作流由谁主导?

9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上,“年度提问二:新工作时代:AI工作流由谁主导?”从企业实践到技术实现、从业务落地到战略决策,展开了一场高密度的思想碰撞与经验分享,将AI工作流背后的难题和解决路径彻底揭开。

PEC 2025 AI创新者大会年度对话:新创意时代,AI如何定义“第十艺术”?
2025-10-09

PEC 2025 AI创新者大会年度对话:新创意时代,AI如何定义“第十艺术”?

在9月13日召开的“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场主题为“新创意时代,AI如何定义‘第十艺术’?”的圆桌对话引发了热烈讨论。至顶AI实验室联合主理人路飞携六位数字艺术家与AI创业者,围绕AI在艺术中的角色、价值与未来展开了一场深度对谈。

土耳其AI如何识破聊天机器人的"胡说八道"?伊斯坦布尔Newmind AI团队首创检测系统

土耳其AI如何识破聊天机器人的"胡说八道"?伊斯坦布尔Newmind AI团队首创检测系统

土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect,能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型,在包含17790个样本的数据集上训练,最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白,为8000万土耳其语使用者提供了更可靠的AI交互体验。

法国团队打造"推理核心":让AI像数学家一样思考的训练场

法国团队打造"推理核心":让AI像数学家一样思考的训练场

法国研究团队开发了"推理核心"训练环境,专门培养AI的基础推理能力。该系统包含18个核心任务,涵盖逻辑推理、规划、因果分析等领域,能无限生成新题目并精确控制难度。与传统依赖固定题库的方法不同,推理核心专注于培养通用认知能力,并使用专业工具验证答案。GPT-5测试显示任务具有挑战性,为AI推理能力发展开辟新路径。

阿里巴巴Qwen团队打造史上最强多模态AI:一个模型搞定文字、语音、图像和视频,实时对话延迟仅234毫秒

阿里巴巴Qwen团队打造史上最强多模态AI:一个模型搞定文字、语音、图像和视频,实时对话延迟仅234毫秒

阿里巴巴Qwen团队发布的Qwen3-Omni实现了AI领域的重大突破,首次让单一模型在文字、语音、图像、视频处理上都达到专业水平,无任何性能损失。该系统支持119种文字语言,实时对话延迟仅234毫秒,在36项测试中32项达到开源最佳。采用创新的"思考者-表达者"架构和多码本流式生成技术,为真正智能的多模态AI助手奠定了基础。

字节跳动发布ByteWrist:让机器人手腕像人手一样灵活的革命性设计

字节跳动发布ByteWrist:让机器人手腕像人手一样灵活的革命性设计

字节跳动研究团队开发出革命性的ByteWrist并联机器人手腕,采用三层嵌套驱动机制和弧形连接杆设计,体积比传统手腕减少40%,承载能力提高60%。在狭窄空间操作测试中,搭载ByteWrist的机器人比传统Kinova机器人快一倍,成功完成116小时的衣物整理数据收集,展现出卓越的灵活性和拟人化特征,为家庭服务、医疗和精密制造等领域提供了新的解决方案。

Littelfuse推出IX3407B隔离栅极驱动器简化大功率设计
2025-10-09

Littelfuse推出IX3407B隔离栅极驱动器简化大功率设计

新型单通道驱动器采用2.5 kV电容隔离技术,可提升功率密度、加快开关速度、增强电机驱动器、逆变器及工业电源的可靠性。

Scale AI团队推出SWE-Bench Pro:AI编程助手能否胜任真正的企业级软件开发挑战?

Scale AI团队推出SWE-Bench Pro:AI编程助手能否胜任真正的企业级软件开发挑战?

Scale AI团队推出SWE-Bench Pro测试平台,专门评估AI编程助手在真实企业级软件开发中的表现。研究发现,即使是最先进的GPT-5和Claude模型,成功率也仅有23%左右,远低于在传统测试中70%的表现。该测试平台包含1865个来自真实企业的复杂编程任务,要求修改多个文件和大量代码,为AI编程能力提供了更严格的现实检验。

图像编辑智能评分员:微软团队开发AI助手彻底改变图像修改质量评估

图像编辑智能评分员:微软团队开发AI助手彻底改变图像修改质量评估

微软团队开发的EdiVal-Agent是首个针对AI图像编辑的自动化评估系统,能像专业评委一样从指令遵循、内容一致性和视觉质量三维度评分。该系统与人类评审一致性达81.3%,测试发现Nano Banana表现最均衡,GPT-Image-1指令遵循最佳但一致性不足,大多数模型在数量变化任务中成功率低于25%。

首次建立的"材料显微镜图像理解力测试"让AI暴露了重大盲区——中大深圳团队发现现有模型在专业领域表现堪忧

首次建立的"材料显微镜图像理解力测试"让AI暴露了重大盲区——中大深圳团队发现现有模型在专业领域表现堪忧

中大深圳团队创建MatCha测试平台,评估15个先进AI模型在材料显微图像理解方面的能力。结果显示,即使是最优秀的GPT-4模型准确率也仅59%,远低于人类专家的89%。研究揭示AI在专业领域存在知识缺乏和视觉感知不足的重大局限,为AI专业化发展提供重要参考。

Meta推出RecoWorld:让推荐系统在虚拟世界里"练手",就像飞行员在模拟器中学习一样

Meta推出RecoWorld:让推荐系统在虚拟世界里"练手",就像飞行员在模拟器中学习一样

Meta研究团队推出RecoWorld,这是首个专为智能推荐系统打造的虚拟训练环境。该系统通过虚拟用户与推荐系统的多轮对话互动,让算法在安全环境中学习理解和响应用户指令。RecoWorld支持文本、多模态和语义编码三种内容处理方式,能够模拟真实的用户行为和社交互动,为推荐系统的训练和评估提供了全新的解决方案,有望显著改善未来的个性化推荐体验。

大语言模型评测中的"空格陷阱":一个看似无关紧要的符号竟能让AI模型排名彻底颠倒

大语言模型评测中的"空格陷阱":一个看似无关紧要的符号竟能让AI模型排名彻底颠倒

德国美因茨约翰内斯·古腾堡大学研究团队发现,在AI大语言模型的多选题评测中,"Answer:"后空格的处理方式竟能导致11%的准确率差异和模型排名颠倒。通过对15个主流模型的详尽测试,研究证实采用"空格+字母"的答案格式比单纯字母格式表现更优,还能显著改善模型校准度。这一发现揭示了AI评测中被忽视的技术细节可能产生巨大影响,呼吁建立更标准化透明的评测协议。

开发者与AI助手的真实对话:当代码生成遇上现实编程场景

开发者与AI助手的真实对话:当代码生成遇上现实编程场景

这项研究分析了82,845个真实开发者与AI助手的编程对话,发现AI回复比开发者提问长14倍,68%为多轮对话。Web开发和机器学习是最热门话题。AI代码质量存在问题:Python代码83.4%命名不规范,JavaScript代码75.3%有未定义变量。研究为改进AI编程助手提供了重要参考。

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

OpenAI发布了音视频生成模型Sora 2,同时推出配套社交应用Sora,用户可生成包含自己的视频并在类似TikTok的信息流中分享。Sora 2在物理定律遵循方面有显著改进,视频更加真实。应用提供"客串"功能,允许用户将自己植入生成场景中,并可与朋友分享形象使用权限。该iOS应用目前在美加地区采用邀请制,ChatGPT Pro用户可直接体验。

大语言模型已遭遇瓶颈,是时候重新定义智能了吗?

大语言模型已遭遇瓶颈,是时候重新定义智能了吗?

大语言模型和生成式AI自诞生以来问题频发,从推理模型表现不佳到AI幻觉现象,再到版权诉讼,这些都表明当前技术路径可能并非通往真正智能的正确道路。专家认为,仅靠增加数据和算力的扩展模式已显现边际效应递减,无法实现通用人工智能。研究者提出智能应包含统计、结构、推理和目标四个层次的协调,并强调时间因果性的重要性。面对LLM技术局限,业界开始探索神经符号AI等替代方案。

微软推出智能体模式,让办公软件变身"氛围工作"助手

微软推出智能体模式,让办公软件变身"氛围工作"助手

微软发布Microsoft 365新功能,知识工作者可通过文本提示生成复杂的Word文档或Excel电子表格。该功能包含两个产品:基于GPT-5的代理模式和基于Anthropic模型的Office代理。代理模式能进行多步骤工作规划和验证循环,目前仅支持Web版本。微软将此称为"氛围办公",类似于氛围编程概念。不过在电子表格应用中存在风险,代理模式准确率为57.2%,而人类为71.3%,需要谨慎使用。

DeepSeek发布稀疏注意力技术降低AI推理成本

DeepSeek发布稀疏注意力技术降低AI推理成本

DeepSeek发布实验版本DeepSeek-V3.2-Exp,引入"稀疏注意力"技术来解决长对话处理中的计算瓶颈。该技术通过选择性处理词汇关系而非全量计算,将API成本降低50%。稀疏注意力并非新概念,OpenAI早在2019年就使用过类似技术,但DeepSeek声称实现了"细粒度稀疏注意力"的突破。基准测试显示该模型性能与前代相当,且开源发布。

Infinidat将全闪存阵列Infinibox SSA G4 F24容量提升一倍

Infinidat将全闪存阵列Infinibox SSA G4 F24容量提升一倍

Infinidat发布新款Infinibox SSA G4 F24全闪存阵列,存储容量从17PB提升至33PB,同时机架空间从14U缩减至11U。该产品采用8个78盘位的24TB驱动器替代原有的60盘位20TB配置。年内还将推出QLC驱动器选项,预计容量密度再增33%。新版本在InfuzeOS中原生集成对象存储功能,支持块、文件和对象存储混合部署,并可按5%增量扩容。

CIO如何平衡新兴技术与技术债务管理

CIO如何平衡新兴技术与技术债务管理

技术创新尤其是AI发展速度超越以往,CIO面临数字化转型压力,学会避免盲目追逐最新技术模型。同时他们正应对前所未有的技术堆栈复杂性挑战,持续产生大量技术债务。德勤数据显示70%技术领导者认为技术债务是最大生产力消耗。专家建议CIO应在创新前先盘点现状,确保IT与业务目标对齐,采用模块化增量方式,避免过度关注新工具。

ServiceNow押注AI优先界面将定义企业AI未来

ServiceNow押注AI优先界面将定义企业AI未来

ServiceNow发布AI Experience多模态用户界面,主张界面而非模型将决定企业AI竞争胜负。该平台将AI代理、数据结构和工作流程整合到单一环境中,支持语音、图像和文本交互。公司已实现超3.5亿美元节省,AI代理可自动化89%支持工作流程。ServiceNow直接挑战微软和Salesforce,通过开放性集成和AI控制塔提供治理优势,力图成为企业AI的前门入口。