What I learned by bringing down linkedin

查看原文

Linkedin 的 SRE 工程师搞挂了一个多小时的网站。起因是把线上环境弄脏了,回滚的时候又把一半的服务拿去做滚动升级,最后发生了雪崩 - 剩下的那一半服务器不够承载流量直到挂了。

事故管理:大部分事故都不是一个人的责任,它一定是环环相扣导致的。事故管理对事故不对人,找到原因,做出改进,就这样。