阿里云香港节点全面故障给我们的启示

admin 2024-10-13 08:16:51 0

扫一扫用手机浏览

文章目录 [+]

2022年12月18日上午,阿里云宣布《阿里云香港可用区C某机房装备非常》通知布告。“阿里云监控发现香港地区某机房装备非常,影响香港地区可用区C的云服务器ECS、云数据库PolarDB等云产物使用,阿里云工程师已在紧迫处置中。”

在这个严寒的冬天,一个炸雷给业界惊起了一个年夜海浪。许多人不解的是说好的高可用呢。说好的N个9呢。SLA 便是个笑话,服务该挂不照样挂了。固然颠末十几个小时,阿里云香港节点服务规复了,数据也规复了,终于可以让列位老板松了口吻,估量许多运维的小伙伴已经开端迁徙服务或者开端做备份了。

然则并不是每个公司都这么荣幸,不知道还有谁记得「前沿数控」这个公司,当初由于所稀有据都在云硬盘上,成果由于云硬盘故障,导致公司的所稀有据全体丧失,一夜回到解放前,也不知道讼事如今成果若何了。

阿里云香港节点全面故障给我们的启示 家电资讯
(图片来源网络,侵删)

颠末阿里云此次年夜故障,估量许多老板都邑斟酌靠得住性的问题了,尤其是服务和数据的平安。再心年夜的老板估量也得让人做个服务和数据的冷备份,轻微懂点的得用混合云搞搞,估量再也没人讥笑那些自建小容器云、自建机房的公司了。

公有云故障和公司内部服务处置方式区别很年夜

之前一个老板问我说公司内部要不要搞一个StatusPage。我说可以搞,然则优先级不高,等以后有精神有光阴了可以搞。公司内部的许多服务会不会出问题,哪里出问题,怎么解,实在许多时刻都是有固定谜底的,你一回顾就能知道哪里可能有问题。许多时刻我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有练习训练过。出故障是确定的,只是不肯定什么时刻产生罢了。先把紧张的事,不做就得死的事做了、做好了再斟酌其它的。

StatusPage,一句话描写便是:当你的在线营业宕机时,StatusPage 容许你和你的客户进行沟通,见告他们当前服务的状况和问题处置进展。营业正常服务状况下,客户也可以查看当前服务状况是否正常。同时,客户也可以查看这一营业所有汗青上的问题产生和处置记载。

公司内部我们有许多的渠道与用户沟通。在公司内部,一样平常都有体系的用户群,当服务挂了,各类监控诉警就会发出来,体系相关人都邑注意到,第一光阴在群内周知。这个和公有云的服务照样有很年夜分歧的。

再好的预案没练习训练过也只是预案

就像日常平凡,许多公司都邑声称我们的体系有备份能还原。现实上许多时刻也只是一个备份、还原「预案」。成果末了真的必要还原的时刻发现,要么备份没胜利,要么备份胜利了然则数据陈旧,要么找到数据了然则无法还原。。。。总之结论便是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全年夜哥 :)

线上服务故障练习训练

我们真的必要对线上服务进行故障练习训练。针对各类故障场景下服务的容错才能、设置装备摆设合理性、服务硬朗性、监控诉警实效性、定位与办理问题应急才能等进行练习训练。发现线上服务的软弱环节,晋升服务的容错性和可规复性。

别有侥幸生理,扎实干事,一步一个脚印能力让失落坑里的次数少点。

相关浏览

中国云服务走向环球。先把 Status Page 搞定

我们可以相信阿里云的故障处置吗?

感激点赞、转载,存眷我,相识研发效能成长动向



相关文章