微软Azure云平台周一晚间发生超过10小时的大规模宕机事故,影响企业云操作的两个关键层面。事故始于UTC时间周一19:46,周二06:05才完全恢复。问题源于策略配置错误,导致虚拟机部署和扩展失败,随后引发托管身份服务认证故障。Azure Kubernetes、DevOps和GitHub Actions等多项服务受到影响。专家指出,随着AI工作负载复杂性增加,云服务中断频发,建议CIOs制定多样化的弹性策略和应急预案。