最新文章
微软推出自研AI模型,欲减少对OpenAI依赖

微软推出自研AI模型,欲减少对OpenAI依赖

微软发布两款内部训练的AI模型:MAI-Voice-1自然语音生成模型和MAI-1-preview大语言模型。后者专门为Copilot聊天机器人设计,使用约15000块英伟达H100 GPU训练。此举被视为微软减少对OpenAI依赖的努力,尽管两家公司仍保持投资关系。新模型更专注于消费者应用场景,MAI-Voice-1已在Copilot Daily使用,MAI-1-preview将逐步部署到Copilot文本功能中。

本地大语言模型崛起:为何用户开始选择自主部署AI

本地大语言模型崛起:为何用户开始选择自主部署AI

随着AI服务成本上升和数据隐私担忧加剧,越来越多用户开始尝试本地部署大语言模型。硬件性能提升和软件工具优化使得在个人设备上运行AI模型变得可行。通过量化技术降低模型精度要求,配合llama.cpp等开源工具,用户可在消费级硬件上运行各类专业模型。虽然本地模型在通用性上仍逊色于云端大模型,但在特定场景下已能满足需求,且在隐私保护和成本控制方面优势明显。

IBM与AMD联手构建混合量子-超算架构系统

IBM与AMD联手构建混合量子-超算架构系统

IBM和AMD宣布合作开发可扩展的开源平台,旨在实现新型混合量子-超算架构。双方将整合AMD的FPGA、CPU和GPU技术与IBM量子计算机,以加速新兴算法处理。该混合系统中,量子计算机负责模拟原子分子行为,传统AI超算同时进行大规模数据分析。两家公司计划年底前展示初步成果,通过量子计算机与传统高性能计算基础设施协同工作,解决现实世界复杂问题。

国产车载智能芯片首个千万里程碑达成,地平线征程量产突破1000万

8月29日,地平线登陆成都国际车展并举办“地平线征程千万量产见证仪式”,邀请合作伙伴、用户代表、媒体嘉宾共同见证这一历史性时刻。同时,地平线在活动上提出,未来3-5年,希望HSD达成千万量产。

微软造出AI播音员,单次录制90分钟多人对话!看VIBEVOICE如何重新定义语音合成?
2025-08-29

微软造出AI播音员,单次录制90分钟多人对话!看VIBEVOICE如何重新定义语音合成?

微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。

成均馆大学团队破解AI如何理解人类交互意图:让机器像人一样学会物体可供性

成均馆大学团队破解AI如何理解人类交互意图:让机器像人一样学会物体可供性

成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。

南洋理工大学重磅突破:让AI同时"造梦"第一视角视频和人体动作

南洋理工大学重磅突破:让AI同时"造梦"第一视角视频和人体动作

新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。

复旦大学团队让机器人学会"速成版"人体姿态计算:从反复试错到一次搞定的神奇突破

复旦大学团队让机器人学会"速成版"人体姿态计算:从反复试错到一次搞定的神奇突破

复旦大学与上海人工智能实验室联合开发的Learnable SMPLify技术,将传统人体姿态计算的耗时从12秒缩短至0.06秒,实现200倍速度提升。该方法通过神经网络学习姿态转换规律,摒弃传统反复优化策略,采用时间序列数据构造、人体中心坐标标准化和残差学习等创新设计,在保持高精度的同时大幅提升计算效率,为VR、游戏制作、体育训练等领域提供实用解决方案。

看不见的语言背后:语音如何透露说话者的种族身份

看不见的语言背后:语音如何透露说话者的种族身份

布朗大学和普林斯顿大学研究团队发现,自动语音识别系统能够仅凭语音特征推测说话者的种族身份,并且对不同种族群体表现出不同的识别准确性。研究揭示了这种现象的技术机制,发现系统在学习语音内容的同时无意中学会了种族特征识别。研究团队提出了包括改进训练数据多样性、开发去偏见算法等多种解决方案,强调了在人工智能发展中考虑公平性的重要性。

微软Copilot AI正式进驻三星电视和显示器

微软Copilot AI正式进驻三星电视和显示器

微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。

基于主权数据与AI平台跨越智能体鸿沟

基于主权数据与AI平台跨越智能体鸿沟

在全球经济不确定性增加的背景下,AI创新竞赛正在加速进行。但许多企业仍缺乏执行工具:Gartner预测到2027年,60%的组织将因数据治理问题而无法实现AI用例的价值。企业需要统一的数据平台支持所有数据模型,建立可靠的AI就绪数据管道,并通过主权AI工厂标准化AI流水线。通过集成向量数据库、嵌入管道和模型服务,企业可将生产就绪应用的部署时间从数月缩短至数小时,实现完整的数据主权和治理。

MathGPT.ai防作弊AI导师扩展至50多所高校

MathGPT.ai防作弊AI导师扩展至50多所高校

MathGPT.ai是一个专为高等教育设计的AI数学辅导平台,采用苏格拉底式提问法,不直接给出答案而是引导学生思考。该平台为教师提供教学助手功能,包括自动生成题目、批改作业等。目前已在宾州州立大学、塔夫茨大学等30所院校试点成功,计划今秋扩展至50多所学校。平台支持大学数学各科目,新增LMS集成、无障碍访问等功能,并严格控制AI交互内容确保学习环境安全。

Anthropic宣布使用Claude聊天数据训练AI:如何退出

Anthropic宣布使用Claude聊天数据训练AI:如何退出

Anthropic宣布将开始使用用户与Claude的聊天记录来训练其AI模型。新用户在注册时可选择是否参与"帮助改进Claude"功能,现有用户将收到相关通知。该功能将于9月28日默认启用,用户需在此前选择退出。启用后,数据保留期将从30天延长至5年。企业版、政府版和教育版用户不受影响。用户可随时在隐私设置中关闭此功能。

智能体AI赛道早期领导者显示智能体将持续发展

智能体AI赛道早期领导者显示智能体将持续发展

生成式AI已成为过去,2025年的焦点转向智能代理AI。这些基于大语言模型的自主软件程序能够从多数据源学习并实现既定目标。本文调研了该领域的领先厂商,发现智能代理AI已在客户支持、财务运营、网络安全、销售生产力和IT运营等多个部门落地应用。从专业化平台到通用解决方案,从开发者工具到企业级部署,14家厂商展示了功能完备的智能代理产品。尽管仍是新兴技术且存在炒作,但这些平台正在解决实际业务问题,变革软件处理复杂业务需求的方式。

华盛顿大学团队揭秘:如何让语言模型像人类一样推理

华盛顿大学团队揭秘:如何让语言模型像人类一样推理

华盛顿大学研究团队通过创新的内部分析方法,深入探索了大语言模型的推理机制。研究发现模型确实具备多步推理能力,但存在脆弱性和一致性问题。当推理出错时错误会传播,且对相似问题可能给出不同答案。研究揭示了模型内部的专门化功能模块和注意力分配机制,为开发更可靠的AI系统提供了重要指导。

ByteDance推出AetherCode:揭秘AI编程大赛中的真实差距有多大

ByteDance推出AetherCode:揭秘AI编程大赛中的真实差距有多大

ByteDance推出AetherCode基准测试,采用IOI、ICPC等顶级编程竞赛真题,并由67名专家设计高质量测试用例。结果显示最先进AI模型通过率仅35.5%,极难题目仅3.8%,揭示AI编程能力被严重高估。该研究为AI评估树立新标准,表明AI在复杂逻辑推理方面仍远落后人类,推理型模型优势明显,为未来AI发展提供重要指导。

看视频就能探测到隐藏的脑血管异常——约翰霍普金斯大学团队破解人眼无法察觉的生理密码

看视频就能探测到隐藏的脑血管异常——约翰霍普金斯大学团队破解人眼无法察觉的生理密码

约翰霍普金斯大学团队开发出突破性技术,仅通过分析普通视频中人眼无法察觉的微小颜色变化,就能检测血管功能异常。该技术利用人工智能识别心脏跳动在皮肤表面产生的细微光学信号,为心血管疾病提供便捷的无接触筛查方法。研究成果发表于2024年CVPR会议,有望推动远程医疗和个人健康监测领域的重大变革。

苹果新突破:手机相机也能拍出电影级视频!背后的3D几何秘密

苹果新突破:手机相机也能拍出电影级视频!背后的3D几何秘密

苹果公司研究团队在2024年发表突破性研究,提出"几何感知视频稳定"技术。该技术突破传统二维处理局限,通过理解场景三维结构来实现视频稳定,能准确区分相机抖动与真实物体运动。实验显示稳定性提升40%,在各种场景下表现优异。技术采用高效并行计算架构,可在普通移动设备实时运行,将显著降低专业视频制作门槛,推动从自动驾驶到医疗等多领域应用发展。

剑桥大学突破:AI可以像人类一样推理了吗?神经网络中的思维链现象大揭秘

剑桥大学突破:AI可以像人类一样推理了吗?神经网络中的思维链现象大揭秘

剑桥大学研究团队发现神经网络能够自发涌现思维链推理能力,无需明确编程就能学会逐步分析复杂问题。研究显示网络在训练中会经历"顿悟"时刻,突然掌握多步推理,内部形成专门的推理通道。这种能力具有强泛化性,能应用于更复杂任务。不同架构表现各异,Transformer最优秀。这一发现为开发更智能AI系统和理解机器智能涌现机制提供了重要启示。

波士顿大学揭秘:只听声音就能"看见"说话者,AI如何读懂声音里的视觉密码

波士顿大学揭秘:只听声音就能"看见"说话者,AI如何读懂声音里的视觉密码

波士顿大学研究团队开发出Audio2Face人工智能系统,能够仅通过音频信号生成对应的面部动画。该技术通过深度学习分析声音中的细微特征,准确率达87.3%,可应用于视频通话、影视制作、教育康复等领域。研究揭示了声音与视觉之间的深层联系,为跨模态人工智能开辟新方向,但也带来隐私保护和技术滥用等挑战。