微软正在为其Microsoft 365 Copilot研究助手增加多模型功能,旨在提高AI生成研究输出的准确性和深度。更新引入了"批评"系统,为生成和评估分配不同角色,以及"委员会"功能来比较多个模型的输出。内部测试显示,带有批评功能的研究助手在综合评分上比之前系统提高了13.8%。专家指出,多模型系统虽然功能强大但增加了管理复杂性,企业需要重新考虑AI部署的治理框架。
谷歌发布Gemma 4开源模型系列,采用Apache 2.0许可证。该系列包含E2B、E4B、26B MoE和31B Dense四个版本,具备先进推理、智能体工作流、代码生成、视觉音频处理等能力。支持140多种语言,上下文窗口最大256K。31B模型在Arena AI排行榜位列全球第三,超越了体积大20倍的竞品模型。
IBM发布了一道关于特殊模拟时钟的数学难题。这个时钟表盘无标记,有三根长度相同且无法区分的指针连续转动。虽然通常可以通过三根指针间的相对角度推断时间,但某些时刻会产生相同的角度配置而无法准确判断。挑战要求计算在标准时间制下无法推断的时刻数量,并找出在总秒数为43200秒约束下使无法推断时刻最多的最差时间制度。
谷歌发布Gemma 4系列开放模型新成员,包括E2B、E4B、26B和31B变体,专为从边缘设备到高性能GPU的高效部署而设计。NVIDIA与谷歌合作优化该模型,支持从RTX PC到DGX Spark个人AI超级计算机等多种设备。新模型具备推理、编程、智能体、多模态交互等能力,支持35种以上语言。通过Ollama和llama.cpp等工具可实现本地部署。
微软发布三款AI模型:MAI-Image-2图像生成模型支持1024x1024像素分辨率,速度比前代提升一倍;MAI-Transcribe-1语音转录模型速度提升2.5倍,25种语言错误率仅3.9%;MAI-Voice-1语音合成模型支持自定义声音。三款模型通过Microsoft Foundry服务提供,并已集成到Bing、PowerPoint等产品中,定价具有竞争优势。
微软发布三款自研机器学习模型的公开预览版,包括语音识别模型MAI-Transcribe-1、语音合成模型MAI-Voice-1和文本生成图像模型MAI-Image-2。这些模型已在Copilot、Bing等产品中应用,现通过Azure AI Foundry平台向开发者开放。此举使微软从OpenAI投资者转变为直接竞争对手,为企业客服、会议字幕、媒体存档等场景提供解决方案。
谷歌发布新一代开放权重Gemma 4模型,针对智能体AI和编程进行优化,采用更宽松的Apache 2.0许可证。该发布旨在应对来自月之暗面、阿里巴巴等中国厂商开源大模型的竞争压力。Gemma 4由DeepMind团队开发,包含310亿参数和260亿参数的MoE架构模型,以及面向边缘设备的轻量级版本,支持140多种语言、原生函数调用和多模态输入,为企业提供本土化AI替代方案。
谷歌为其视频编辑工具Vids推出重大AI升级,集成了最新的Veo 3.1视频模型和Lyria音频模型。用户可选择多种可控AI虚拟形象出现在生成视频中,并能直接分享到YouTube。免费用户每月可生成10个视频,AI Pro订阅用户可生成50个,Ultra计划用户可达1000个。新功能还包括Chrome扩展程序支持屏幕录制,以及直接发布到YouTube的便捷分享功能。
威斯康星大学麦迪逊分校研究团队提出MuRF多分辨率融合方法,让AI模拟人眼从多个角度同时观察图像。该方法无需重训练现有模型,通过融合不同分辨率的视觉信息,在语义分割、深度估计、视觉问答和异常检测等四个关键任务上都获得显著性能提升,为AI视觉理解提供了新的通用增强策略。
微软本周扩展Copilot功能,推出持续性AI助手,谷歌也在Chrome中集成AI能力。这标志着AI正嵌入工作环境中,实时观察、解释和处理信息。传统企业安全基于数据移动管理,但AI不仅移动数据,更会重塑数据,通过总结、重组信息创造新风险。浏览器成为交互层控制缺口,现有身份管理和数据防泄漏工具难以应对AI授权访问产生的意外结果。企业需要新的控制层来监管AI数据使用和转换过程。
克利夫兰市首席创新技术官伊丽莎白·克劳面临着将城市数字化升级的巨大挑战。该市拥有130个企业系统,数据分散存储在本地机器甚至便利贴上。在市长支持下,克劳团队制定了开放数据政策,选择微软Azure云平台和Power BI作为技术栈,建立数据分级管理体系。通过培训各部门数据负责人,该市成功启动开放数据门户,推出公墓查看器、311服务请求仪表板等公共工具,实现了从数字落后到现代化政府的转型。
Elgato在Stream Deck 7.4更新中引入模型上下文协议(MCP)支持,允许Claude、ChatGPT和Nvidia G-Assist等AI助手代替用户查找并激活Stream Deck操作。用户仍可在应用中正常设置操作,MCP只是提供了新的触发方式。通过语音或文字请求,AI工具可以触发对应的Stream Deck动作,实现免手动操作的宏命令执行。
加州初创公司Kintsugi历经七年开发语音抑郁症检测AI,但未能及时获得FDA批准而关闭。该公司将大部分技术开源,其AI可通过分析语音模式检测心理健康问题。虽然技术在同行评议研究中表现良好,但FDA的审批流程耗时过长,公司资金耗尽。开源技术引发滥用担忧,但创始人认为技术被低估使用的风险更大。
OpenAI收购了在线访谈节目TBPN,该节目每周日播出,专门采访AI高管和科技领袖。节目在X和YouTube平台直播,平均每期观众约7万人,今年广告收入超500万美元。OpenAI表示收购目的是"加速全球AI对话",TBPN团队将协助公司传播和营销工作,但保持编辑独立性。此举正值OpenAI面临公众形象挑战,同时准备今年上市之际。
OpenAI收购了备受关注的科技行业脱口秀TBPN,这是该AI巨头首次收购媒体公司。TBPN由前科技创始人主持,是在YouTube和X平台直播的日播节目,专注科技、商业、AI和国防话题。该节目在硅谷拥有狂热追随者,成为行业高管坦诚交流的平台,今年收入预计超过3000万美元。OpenAI承诺保持节目编辑独立性,并将利用创始人的营销能力帮助向世界推广AI技术。
IBM宣布与Arm合作构建双架构硬件,支持IBM Z大型机和Arm应用程序,帮助企业运行AI和数据密集型工作负载。该合作使现有客户能够继续使用IBM Z大型机而无需修改代码,基于Arm的新客户也可在IBM Z平台上运行工作负载。双架构硬件为CIO提供了VMware的替代方案,降低了工作负载迁移到IBM大型机的障壁,满足现代工作负载需求并扩展应用部署灵活性。
Solvd调研显示,80%的企业技术领导者将AI项目失败归因于缺乏可见性或监督。超半数公司可能因表现不佳而关闭试点项目,五分之四的CIO和CTO表示董事会质疑AI支出金额。尽管71%的领导者计划增加AI投资,但项目将面临更严格审查。专家建议建立清晰的项目所有权和组织透明度,必要时应果断重新开始而非继续无效投资。
谷歌推出Gemini记忆导入功能,让用户能够从ChatGPT或Claude等AI服务转移聊天记录、偏好设置和个人信息。该功能支持免费和付费个人账户,覆盖全球大部分地区。用户只需复制指定提示词到原AI服务获取个人信息摘要,然后粘贴到Gemini即可完成记忆导入,同时还可导出并转移历史对话记录,让AI无需重新学习就能提供个性化服务。
Kyndryl发布智能代理服务管理包,帮助企业自动化控制代理工作流程。该服务结合成熟度模型、结构化评估、实施蓝图和分阶段路线图,符合ISO 42001等新兴标准。服务评估企业AI实施情况,识别服务管理、AI治理、安全和运营方面的差距。同时推出智能代理AI数字信任包,提供中央控制点进行代理管理和治理,包括代理验证、实时防护栏和安全测试等功能,确保代理在批准边界内运行。
谷歌研究院发布TurboQuant压缩算法,可将AI模型内存使用量减少6倍,在相同GPU数量下提升8倍处理速度,且不损失准确性。该技术无需重新训练或微调,可直接集成到现有推理管道中。消息发布后内存芯片股价大跌,DDR5内存价格下降15%-30%。不过分析师提醒,这仍是研究突破而非成熟产品,实际应用效果有待验证。