4 月 6 日 LeanCloud 中国节点因底层服务商的故障而引发部分服务中断 38 分钟的说明

2017 年 4 月 6 日 22:19,我们收到内部告警,发现中国节点的 API 服务出现了响应超时。在调查过程中,我们收到了来自底层服务提供商的通知,证实了中国节点所在的数据中心因部分网络设备异常而发生了容灾切换,导致部分 IP 不可访问,从而影响到部分 LeanCloud 服务(包括数据存储、REST API 和 LeanCloud 官网)无法使用,底层服务商已在紧急修复相关机房的网络故障。

与此同时,云引擎与实时通信服务并未受到任何影响,一直正常提供服务。此外,故障仅发生在中国节点,美国节点和腾讯节点及其之上的所有服务也都正常。截至到 22:57,根据我们的服务状态报告,中国节点的各项服务均恢复了正常。

故障大约持续了 38 分钟,期间也不断有用户询问进展。我们在第一时间通过微博发布了状态,并于问题解决后发送了通知邮件和短信。我们各节点的服务状态也可以随时通过 https://status.leancloud.cn 来查询。

用户们对事件进展的关注以及对 LeanCloud 系统的依赖,让我们深刻体会到自己所肩负的重任。因此,我们将会增加「异地多活」的服务选项,这样应用数据和代码将分两处部署于不同的机房,当一处机房的网络或硬件出现了问题,便能实时切换至另一处,从而最大程度上来保障应用的对外服务的稳定性。届时我们会通过官网博客(支持订阅)、邮件等渠道与大家沟通方案详情,敬请留意。

最后,我们诚挚地向大家道歉,希望能得到你们的理解与支持!如果有任何疑问,请联系 support@leancloud.rocks

以下附上来自服务商的《故障报告》。

LeanCloud Team


2017 年 04 月 06 日 22 时 06 分 UCloud 技术支持收到告警:UCloud 北京可用区 C,部分云主机外网网络通讯异常。随即联系 UCloud 网络运维工程师立即介入处理。网络于 22 时 48 分恢复正常。

故障时间:

22:06~22:48

处理过程:

22:06 UCloud 技术支持收到告警:UCloud 北京可用区 C,部分云主机外网网络通讯异常。随即联系网络运维工程师介入处理。
22:16 经过网络工程师定位问题原因:为灰度北京二可用区 C 的 VPC 2.0 升级,进行前期的针对现网配置检查和清理的工作,由于清理程序 bug 导致 NAT 设备部分转发信息丢失,影响部分云主机的外网通信。
22:25 网络运维工程师开始针对丢失的转发信息紧急恢复,部分 IP 开始恢复。
22:48 北京二可用区 C 受影响的 EIP,外网网络通讯全部恢复正常。

故障原因:

为灰度北京二可用区 C 的 VPC 2.0 升级,进行前期的针对现网配置检查和清理的工作,由于清理程序 bug 导致 NAT 设备部分转发信息丢失,影响部分云主机的外网通信。

改进措施:

  1. 暂停使用清理程序,并且紧急修复 bug。(修复 bug 已经完成)
  2. 优化转发信息丢失后的自动恢复机制,实现在转发信息丢失后也能做到自动恢复。(4 月 13 日完成)
  3. 优化监控机制:提高针对现网正在使用转发信息的监控检测频率。(已完成)

给您带来的影响,我们深感抱歉。如有任何问题,请联系 4000188113。

UCloud 云计算团队
2017 年 04 月 07日

评论

Loading comments ...