近日,豆包语音对话功能迎来更新,可以说4种地道方言,包括粤语、四川话、东北话及陕西话。用户打开豆包App对话框,发送简单的文字或语音指令,要求豆包使用上述方言对话,通过默认的“温柔桃子”升级版音色,即可开启对话体验。
由贝索斯共同领导的普罗米修斯项目已收购AI初创公司General Agents。该公司开发了名为Ace的AI智能体,可自主执行视频编辑、数据复制等计算机任务。General Agents基于视频语言行为架构开发模型,这与普罗米修斯项目专注制造业AI系统的目标高度契合。收购完成后,普罗米修斯团队已超过100人,预计将推进工业机器人领域的AI应用发展。
Kagi公司发布Orion浏览器1.0版本,这是一款专为苹果平台设计的全新浏览器。该浏览器主打极速浏览体验和用户隐私保护,完全免费使用并附赠200次Kagi搜索。Orion还提供月费5美元的付费订阅服务,解锁更多高级功能。未来计划包括更深度的自定义选项和性能优化。
Opera AI浏览器Opera Neon近日发布重要更新,新增"一分钟深度研究"模式,让用户能够快速获取深入的研究结果。此次更新还引入了模型选择器功能,支持谷歌Gemini 3 Pro和Nano Banana Pro模型,用户可在对话中途切换模型。此外,Neon的"Do"智能助手现已支持Google Docs集成,这是用户最期待的功能之一。Opera Neon需要每月19.99美元的订阅费用。
马斯克创立的人工智能公司xAI计划在其Memphis的Colossus数据中心旁建设一个占地88英亩的太阳能发电场。该发电场预计产能约30兆瓦,仅能满足数据中心约10%的电力需求。此前,xAI因无许可证运营超400兆瓦天然气涡轮机而受到批评,这些设备每年排放超2000吨氮氧化物污染。当地居民报告呼吸道疾病增加。
微软与Ciena合作定义了零信任分层光网络架构蓝图。该架构结合两个完全独立的光学系统,包括基于ROADM的传输网络和光学业务连续性灾难恢复层,仅在路由以太网边缘连接。架构具备人为错误隔离、维护灵活性、零停机时间和带宽灵活性四大优势,支持10G/100G/400G服务,能在系统性故障期间维持不间断服务,为关键业务流量提供卓越的网络弹性。
近年来,关于软件定义汽车(Software-defined Vehicles)的讨论非常多。但事实上,其他电子产品也早已越来越多地依赖软件。这对制造商而言意味着:他们必须掌控全新的开发流程,以确保透明度、可追溯性与合规性。
斯科尔科技学院联合俄罗斯多家研究机构开发出革命性的多语言AI虚假信息检测技术。该研究构建了覆盖14种语言的大型数据集PsiloQA,通过"诱导AI说谎"的创新方法自动生成训练样本,成本仅为传统人工标注的数十分之一。实验证明多语言训练的检测模型性能显著优于单语言模型,为全球AI可信度监督提供了实用解决方案。
NVIDIA研究团队发现,训练机器人最有效的方法竟然是最简单的:直接用普通文字告诉机器人该做什么,而不需要复杂的编码系统。他们开发的VLA-0系统在标准测试中超越了所有复杂方法,平均成功率达94.7%,在真实机器人测试中也比预训练系统高出12.5个百分点。这项发现挑战了"越复杂越好"的传统观念,可能加速智能家用机器人的普及。
UCLA研究团队提出UI-Simulator系统,通过AI生成虚拟用户界面环境来训练数字助手,突破了传统方法需要大量人工数据收集的瓶颈。该系统结合LLM数字世界模拟器、引导式探索和智能训练策略,在WebArena和AndroidWorld测试中表现优异,UI-Simulator-Grow策略仅用66%训练数据就达到了传统方法的效果,为AI助手训练提供了高效低成本的解决方案。
在高速发展的数字化环境中,企业所需的已不止是单纯的存储能力,更需要一个能够推动创新、灵活扩展,并可胜任严苛工作负载的存储平台。
JetBrains Research团队发现,让AI理解项目级代码补全并不需要海量数据和复杂方法。通过调整OpenCoder模型的位置编码参数,仅用10亿token数据就达到了与使用数千亿token训练的顶级模型相当的性能。研究还发现,不同的上下文组织策略对最终效果影响很小,真正的关键是模型架构的调整。这为资源有限的团队开发高质量代码AI工具提供了新路径。
德国ELLIS研究所团队开发扩散强制采样器,通过借鉴图像生成技术,将递归深度AI模型的推理速度提升5倍。该技术采用"对角线并行化"策略,同时处理多个文本位置而非串行等待,在保持相同准确率下大幅提升效率。关键是可直接应用于现有模型无需重训练,为AI实时应用带来突破,在数学推理、编程等复杂任务中表现优异。
南洋理工大学研究团队提出RealDPO方法,突破传统AI视频生成在人体动作方面的局限。该技术直接使用真实世界高质量视频指导AI学习,避免依赖可能有偏见的评价模型,显著提升了生成视频中人体动作的自然性和流畅性。配套的RealAction-5K数据集包含5000个精选视频样本,验证了"质量胜过数量"的训练理念。实验显示该方法在多项评估中均优于现有技术。
西湖大学研究团队开发了VLA?智能框架,让机器人具备"即时学习"能力。当遇到训练数据中没有的新物品时,系统能主动搜索网络信息、分析物品属性、转换陌生概念为熟悉词汇,并用彩色遮罩精确标记。在包含完全陌生概念的困难测试中,VLA?成功率达76.2%,显著超越现有方法,为机器人从被动执行向主动学习的转变提供了技术突破。
加州大学洛杉矶分校研究团队发现,当前先进的AI图像生成器在处理不同英语方言时存在严重的理解障碍,性能下降可达48%。研究构建了包含4200个提示词的DialectGen测试平台,评估了17个主流模型,并提出了创新的编码器训练策略,成功将五种方言的处理性能提升34.4%,几乎达到标准英语水平,为构建更具语言包容性的AI系统奠定了基础。
新加坡国立大学等机构联合发布RAGCap-Bench,这是首个专门评估智能问答系统"中间过程"的测试基准。通过255道选择题,该工具能精确测试系统的规划能力、证据提取能力、推理能力和抗噪声能力。测试发现当前智能系统在信息筛选和来源可靠性判断方面存在显著不足,为改进技术提供了明确方向。
伊利诺伊大学研究团队开发出SCas4D技术,通过层次化优化策略将动态3D场景训练速度提升20倍。该技术模仿指挥乐团的方式,先处理整体运动再细化局部调整,仅需100次迭代即可达到传统方法2000次迭代的效果。技术还能自动识别物体不同部分,在VR游戏、电影制作、自动驾驶等领域具有广阔应用前景。