2010-2015 Instagram 的 五年,如何应对突发流量和宕机
Instagram 上线第一天服务器资源仅相当于一台 Macbook Pro,但要 Serve 25000 个用户已经很吃力了。好在 IT 行业素来有分享实践的传统,偷师学艺,没几天就迁移到 AWS 上,用云服务买来了发展的时间。
Virginia 暴风肆虐导致 AWS us-east 机房断电,他们有一半的实例没电了。由于基本功没做,网站没法迅速搞起来,结果花了整整 36 个小时重建整个 infrastructure。经过这个事故,他们痛定思痛,去掉了脆弱的 bash 部署脚本,用上了成熟的 chef,另外采用 WAL-E 和 Postgres WAL shipping replication,并把整个后端运行在异地数据中心。
并入 F 家以后做了一次数据大迁移,相当于 100mph 高速运行的跑车逐个更换零件。他们搞了 8 人的小团队,开发了一系列工具能从 EC2 导数据回自家数据中心。好处是能用上 F 家的各种内部服务了,不用再去造轮子。