12 月 25 日凌晨 5 点 30 分至上午 8 点整,数据存储服务器的某一分片突然发生故障,导致所属的 1468 个应用无法向云端写入数据。我们在 5 点半收到报警后着手开始处理故障,最终在 8 点修复了这一问题,故障时间共持续 2 小时 30 分钟。
故障期间,受到影响的应用无法向云端保存和更新数据,但仍可以进行查询,并可使用不依赖于数据存储服务的其他功能。其它应用和服务均不受影响。
故障发生的直接原因,在于出现问题的分片上的处理超时查询的服务工作异常,从而导致该分片上的存储进程的网络连接数缓慢增加,最终耗尽系统资源而导致存储进程异常退出。在多个副本节点产生异常之后,该分片最终变为只读模式。问题排查定位之后,我们手动恢复了这个分片。
我们向受到此次故障影响的用户表示诚挚的道歉!我们会进一步完善流程,避免类似错误再次发生。如果您对此故障有任何疑问,请联系 support@leancloud.rocks。