2 月 22 日晚间云引擎日志、推送记录和统计数据部分丢失的说明

2017 年 2 月 22 日将近 18:00,我们在进行后端集群维护的过程中发现一个集群在重启后无法正常上线,影响了统计数据的存储,统计的数据接收 API 不再响应。同时统计服务也承担了云引擎日志、推送记录的写入,以及相关记录的 REST API 查询功能,所以事故期间,统计数据、云引擎日志和推送记录都会有不同程度的丢失。但是存储、聊天、云引擎等核心服务和业务数据并未受到影响,请大家放心。

我们连夜对该集群进行修复,待部分数据恢复后,其服务于凌晨 0 点开始恢复,但仍有一定比例的请求会失败。直至次日凌晨 5 点所有数据得以修复后,统计服务完全恢复健康。故障期间,推送记录和云引擎日志约有 75% 的记录丢失,数据收集和实时展示基本不可用。由于统计数据不完整,所以最终统计的相关指标也会有所下降。

恢复该集群所花费的时间比我们预想的要长。究其原因,是系统线程池被大量的云引擎日志、推送记录和统计数据的请求所挤占,导致集群因负载过重而无法正常完成主备节点切换,引起了内部状态和数据的不一致,所以在集群上线之前要先恢复相关数据的一致性。

通过本次事件,我们会进行如下方面的改进:

  • 进一步拆分和隔离统计服务,让内部服务之间尽可能独立,缩小故障影响范围。
  • 将集群维护任务移至凌晨业务低峰时段,降低影响用户业务的风险。

我们对这次事件给您带来的影响表示诚挚道歉!我们会认真对待这些失误,尽最大努力来保证服务的稳定性。最后有一点提示,推送记录和云引擎日志仅在服务端保留 7 天,过期后会被自动删除,所以请根据业务需要做好相应处理。

评论

Loading comments ...