Techshack Weekly - What I learned by bringing down linkedin

Linkedin 的 SRE 工程师搞挂了一个多小时的网站。起因是把线上环境弄脏了，回滚的时候又把一半的服务拿去做滚动升级，最后发生了雪崩 - 剩下的那一半服务器不够承载流量直到挂了。

事故管理：大部分事故都不是一个人的责任，它一定是环环相扣导致的。事故管理对事故不对人，找到原因，做出改进，就这样。