你担任一个管理者,多长的宕机时间是可以接受的,答案是相同的:“没有”。告诉管理者成本和性能影响,他也许会做不同的回答。五个9是可用性的黄金标准,主要由电信公司保持,但这根本上是源于生命线的需求。大多数互联网应用还没有达到生或死的可用性标准。五个9依然是Web运维人员的目标,关键的部分可以以(也应该)按这样的标准设计,但对于单个应用来说这似乎有些过了。用户日常折腾的计算机、网络连接和便宜的家用网络地址转换(NAT)都达不到这样的标准,所以服务器这里或那里的几分钟中断往往都注意不到。
注意分析你的恢复时间目标(RTO)和恢复点目标(RPO)要有益得多,而不是注重有多少个9。RTO是指在站点运行中断时,恢复站点运行所需的时间。RPO是指你愿意损失多少数据。这两个目标常常是相互竟争的。如果RPO目标是零,而你的数据复制有几分钟延迟,你会选择中断站点几小时来将主备份运行起来,而不是通过故障转移而损失这几分钟的数据。另一方面,如果RTO目标是零,你可能会立即决定故障转移,宁愿损失几个正在进行的事务。
两者兼得的唯一方法是牺牲一部分性能进行真正的同步复制。你注意过在ATM机上取一笔钱要多长时间?这是由于后台系统有非常严格的RTO和零RPO目标。放弃一笔ATM交易是完全不可接受的,全系统的宕机,无论时间长短,都是金融灾难。所以每次取钱都不得不坐听机器在那儿呼呼响,它正在完成写操作、复制、将你的交易提交到全球多个网站建设站点。如果你不是银行,则应现实x对待RTO和RPO目标。为了在稳定状态下的高性能表现,偶尔的几分钟宕机或损失留言板的个把评论,也算是种公平交易吧。
>>> 查看《网站运维者的五个9标准?》更多相关资讯 <<<
本文地址:http://weboss.link/news/html/3359.html