2015 年 1 月 23 日云代码服务故障公告
2015-01-28
- 时间: 2015 年 1 月 23 日凌晨 01:30 到 上午 9:30 左右,持续 8 个小时
- 现象:部分依赖于云代码的应用的云代码请求返回 502 状态码的应答,不依赖云代码的应用没有受到影响。
- 原因:为了对云代码部署服务做扩容,我们增加了新的部署节点,但是因为配置文件没有同步,导致新节点的服务没有正常启用,分配到该节点的部分应用受到影响。
- 解决:在意识到是配置文件之后,我们的工程师迅速同步了配置,并重新启动了受影响的应用,服务恢复。
这次故障持续时间较长,暴露了我们在监控和告警上的短板。我们很惭愧,将做如下一些改进:
- 针对云代码服务 502 状态应答增加报警,提高告警优先级。
- 改进部署流程,做配置复查。
- 改进云代码的容灾,在极端情况下,可以将受影响服务自动迁移到新节点。
评论