双11第二天,阿里云崩了!
而且很可能不是一般的“崩了”,根据当前获知的信息来看,很可能是刷新历史级的“崩了”。
双11当晚,淘宝曾有短暂宕机,但很快就过去了。但到了12日傍晚,包括淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克、语雀等,多个阿里系App出现无法访问或服务异常的情况。
此外,像纳思云充电桩、乐爽cooleasy等由阿里云提供服务支持的科技平台,相继发出“重要通知”或“紧急通知”。其中,前者表示,阿里云IoT服务API接口故障,导致使用阿里云相关服务的设备无法正常使用;后者则称“阿里云网络全国崩盘了,导致所有平台都出现问题”。
而阿里云官方在晚间18时曾向客户发出说明,“北京时间2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。”
而从阿里云的健康状态页(Status Page)的信息看,这不是某个可用区的故障,而很可能是全球大故障,几乎没有幸免的区域,受影响的不光是阿里云自有的业务区域,还包括对外服务的金融云,政务云。更严峻的是,没有一个幸免的服务,清一色全挂。
有行业从业者表示,对于阿里云此次故障感到十分震撼,因为其从业以来还没听说过这种规模的云计算故障。当前各个技术群里充满着焦虑愤怒,因为这种情况下,用户的自救可能性为零,只能等待阿里云恢复。
而由于阿里云的市场份额巨大,就在十几天前的2023云栖大会上,阿里巴巴集团主席蔡崇信曾指出,目前中国80%的科技企业和一半的大模型公司都跑在阿里云上,此次故障造成的影响面非常大——
比如,很多学校的学生不能使用宿舍里的洗衣机了,因为大部分学校里共享洗衣机的服务商的业务就跑在阿里云上。此外,还有很多很多人因此遭遇了无法使用直饮水机、无法给电瓶车充电等问题。
截至当前看,经手动测试证实,阿里旗下淘宝、钉钉、阿里云盘等APP已基本恢复,而微博上网友提供的信息证明,其他一些使用阿里云的服务也都陆续恢复正常使用。
如何看待阿里云如此重大故障呢?
从阿里云的角度看,这次故障很“不阿里云”,毕竟阿里云一向以安全稳定高可用自居,如此大范围、如此长时间、影响面如此广的故障,对阿里云的品牌形象绝对是致命的打击,这已经不是“杀一个程序员祭天”就能了事的,很可能需要“杀一个CEO”,但遗憾的是,阿里云现在并没有CEO。更头疼的是,后面还要面对漫天如同雪花般的赔偿诉求。
从用户的角度,阿里云不再是高性能、高可用的代名词了,经此一役,普通用户对阿里云的迷信很可能将破灭,我预测此事之后,阿里云将经历一波用户流失潮,当信念不再存在,现在满大街都是公有云服务商,用哪家不是用啊。
从云计算从业者的角度,此刻,我们或许不该幸灾乐祸,自从推特下云创造了成本节省奇迹后,下云正在成为一种潮流,云上的用户每天都在对着收支表犹豫着是否下云,而还未上云的用户更是内心纠结上云是否是一个好的选择,在这样的背景下,作为领头羊的阿里云发生如此重大故障,这对犹豫者和观望者对于云计算的信心是一种沉重的打击,一旦云计算行业整体开始萎缩,受影响的绝对不仅仅是阿里云。
何况,都在江湖飘,谁又能这样的故障不会落到自己头上呢,只是大部分厂商还没机会经受这样的考验而已。