今天(2014-04-17)推送和云代码服务故障说明

上一篇博客有提到,今天凌晨电信网络切割,我们知道会遇到一些问题,如部分地区或部分运营商的用户会有一段时间的无法访问,推送消息失败等.
比如北京移动用户无法访问等(到傍晚才恢复).这些网络割接的引起的跨网连接问题,慢慢才会恢复,我们也无力吐嘈了.

故障时间

2014-04-17 00:57 到 2014-04-17 12:35 (没有算网络切割时间窗口)

受到影响的服务

  • 推送服务:无法收到消息
  • 云代码服务:云代码中依赖于非大陆地区服务的功能全部失效
  • 技术支持系统: ticket邮件通知失效

未受到影响的服务

  • API服务
  • 数据存储服务
  • 应用统计服务
  • 网站和开发文档

故障原因

由于电信网络割接,电信出口(服务器的默认出口)到美国/香港等非大陆地区的网络无法连通(国内正常),从而无法推送消息给iOS设备,无法从GitHub/BitBucket等获取代码等.并且由于iOS推送消息失败,导致消息队列积压,从而影响了Android用户的推送.

我们在查明故障原因后,立即联系了华为机房,并开始恢复服务,我们在华为的配合下,开始将服务器默认网络出口切换到联通,12:12服务部分开始恢复,到12:35全部恢复.

我们将改进

  • 对类似网络切割提前做好网络切换准备
  • 告警服务改进
  • 对此次相关的点添加监控
  • 将推送队列按设备类型分开
  • 提供多IDC给开发者选择

此次故障,对受到影响的开发者和用户,表示非常非常的抱歉.

评论