Postmortem - Cloudflare 1.1.1.1 outage 17 minutes

查看原文

本文是 Cloudflare 1.1.1.1 挂了 17 分钟的事故分析,写得不太好。

  • 事故:17 minute outage
  • 原因:Gatebot, 一个主动防御 DDos 的模块,因为没将 1.1.1.0/24, 1.0.0.0/24 放入特别处理的列表里面,所以将正常流量误杀了。
  • 后续:好好测试

衍生思考:好好测试简直是随便糊弄出来的方案。正解应该是上 1% Canary 测试啊!可能是局内人推不动这件事情吧。