SRE vs DevOps - close friends
这又是一篇比较 SRE 和 DevOps 的文章。SRE 要去定义什么算一个服务的可用指标,哪些可用的级别, 以及不可用时的预案。这些事情有对应的概念,SLI-指标,SLO-指标的目标,SLA-跟客户的约定目标。SRE 在定义出这些指标后,要去搜集监控信息,算出 uptime,进而算出各个指标。如果违背了 SLO,也就是 uptime 降低了,甚至烧光了预定的额度(error budget),那在恢复之前就别做特性开发了,把系统调稳了先。Toil 是指手动做运维的部分工作,SRE 的目标是尽可能将这部分工作降低。