Postmortem - Cloudflare 1.1.1.1 outage 17 minutes
本文是 Cloudflare 1.1.1.1 挂了 17 分钟的事故分析,写得不太好。
- 事故:17 minute outage
- 原因:Gatebot, 一个主动防御 DDos 的模块,因为没将
1.1.1.0/24
,1.0.0.0/24
放入特别处理的列表里面,所以将正常流量误杀了。 - 后续:好好测试
衍生思考:好好测试简直是随便糊弄出来的方案。正解应该是上 1% Canary 测试啊!可能是局内人推不动这件事情吧。