年终盘点 | 2020云巨头们的宕机事件

云计算
以下是今年规模巨大的十大宕机事件,随着这些问题的出现和解决,云计算技术正面临着新的挑战和机遇。

本文转载自微信公众号「SDNLAB」。转载本文请联系SDNLAB公众号。   

今年,疫情的爆发给云计算带来了一次非凡的考验——云计算不仅要提供正常运营业务的能力,还需要具有在负载激增的情况下保持可用性的能力。目前,云计算已被很多企业采用,但是,在此过程中也出现了许多问题。

以下是今年规模巨大的十大宕机事件,随着这些问题的出现和解决,云计算技术正面临着新的挑战和机遇。

1. 3月份,Microsoft Azure

3月,微软发生两次大规模宕机事件。

3月3日,微软位于美国东部的数据中心发生了服务中断,持续六小时,导致美国北部的客户无法使用Azure云服务。

[[360714]]

微软称,这次故障应归咎于冷却系统故障。发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度达到峰值,影响了网络设备的性能,使得计算和存储都无法继续使用。

3月24日-26日,Azure Pipelines发生故障,这是DevOps团队使用的持续交付服务,接下来的几天,软件开发管道遇到了严重的延迟,开发人员受到的影响特别大。

微软证实,由于全球疫情爆发,需求激增,虚拟机容量受限使得设备重新映像的时间增加,导致可用代理的等待时间也随之增加。

2. 3月26日,Google Cloud Platform

3月26日,Google多个云服务出现无法访问的问题。Google用户发Twitter称,他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。

[[360715]]

Google最终将这次故障归咎于“基础设施组件”问题。据Downdetector称,美国东部沿海地区的Google客户受到的影响最大。

3. 4月10日,华为云

4 月 10 日,华为云出现大面积宕机,华为云登录、管理后台无法访问,部分公司业务无法正常维持。本次宕机持续约三小时。

[[360716]]

不少网友在微博反映,华为云登录、管理后台便开始无法访问,并出现了“服务器暂时过载或处于维护中,请稍后重试。”、“建立数据库连接时出错”等提示。华为云官方微博随后发布公告回应称:“检测到部分主机异常,目前故障基本修复,部分客户的业务正在配合恢复中。”

对此,有消息称这次宕机主要是由于北京的机房出现故障导致的,广州和上海的用户表示能够正常使用。

4. 4月21日,GitHub

微软旗下的源代码存储库GitHub在4月底发生了多次宕机。

4月21日,多个GitHub服务出现访问异常,持续了一个半小时。4月22日,服务再次出现中断,持续时间至少两小时。4月23日,多个GitHub服务也遇到了各种问题的影响,持续了近三小时。软件工程师经常使用的API请求、Webhooks等服务被标注为 "已降级"。

官方没有提供任何原因,也没有公布恢复过程的信息。虽然GitHub网站上更新了微软试图修复各种故障的情况,但并没有提供任何关于问题的细节,开发者们在Twitter上抨击微软缺乏透明度。

(5) 6月9日,IBM Cloud

6月9日,IBM Cloud 遭遇了重大宕机故障,平台上托管的多项服务也因此中断,其中就包括知名科技新闻聚合网站 Techmeme。本次宕机事件从下午2点30分左右开始,并快速蔓延至全球。

IBM Cloud页面也在故障发生期间短暂关闭,然后在下午6:30之后报告称一系列问题已经得以解决。

IBM网站解释到,INM网络运营团队调整了路由策略,处理了第三方提供商引入的问题,这次故障也得以解决。

(6) 8月24日,Zoom

8月24日,Zoom发生了部分中断,导致用户无法访问其离线会议和在线视频会议,本次中断持续了3小时。Zoom并未解释造成中断的原因,他只是在状态页面上说找到并解决了问题。

Zoom现在每天约有1.15亿活跃用户,该公司的服务可能已成为2020年在家工作的关键词。

(7) 9月28日,Microsoft 365和Azure

9月29日,Microsoft Office 365办公软件和Azure云产品出现故障,导致部分用户服务中断数小时。

[[360717]]

微软表示,故障涉及Outlook电邮服务和Teams办公协作工具的部分用户,其中Teams具备聊天和视频会议功能,在新冠疫情期间其用户增长迅速。微软表示,一些用户无法登录这些服务,但已经登录上去的不受影响。

当天,Azure云计算用户也遭遇了与Office365套件类似的问题。Azure是微软的大规模云计算系统,许多企业都依靠其存储和分析数据。

(8) 10月7日,Microsoft Office 365

10月7日,Microsoft更新了其网络基础结构,随后,Microsoft Teams,Outlook,SharePoint Online,OneDrive for Business和Outlook.com的功能均下降。

[[360718]]

当天下午2:48,Twitter上的Microsoft 365官方号确认中断。微软随后表示,网络基础结构的最新更新对Microsoft 365服务产生了影响,目前环境正在恢复更新。

(9) 11月25日,AWS

11月25日,亚马逊云服务出现中断,大量网站和服务受到影响。本次宕机持续约5小时。

[[360719]]

AWS发布通知称,处理流媒体数据的Kinesis服务出现问题,大量网站受到影响,错误率上升。并且,宕机还影响了它向状态页发布更新的能力。

据了解,此次宕机导致亚马逊智能安全子公司Ring、Roku、软件开发商Autodesk纽约大都会运输署的地铁网站,论坛出版集团旗下的《芝加哥论坛报》和《巴尔的摩太阳报》等一些公司或机构的服务受到了影响,网站频频出现错误。

值得注意的是,AWS 的大客户苹果、Slack、Netflix 并没有受到宕机的影响,仍然运行正常。

(10) 12月14日,Google Cloud

12月14日晚间,Google服务器又一次全球宕机。这是近5个月来第3次全球宕机。

Google旗下的YouTube、Gmail、Google Drive、Google Search等服务出现死机,用户无法正常使用,全球多个国家及地区用户均受到影响。

Google随后发推文确认,由于内部存储配额问题,Google身份验证系统中断。宕机45分后问题得以解决,现在所有服务都已恢复。

互联网时代对系统的可靠性提出了更高的要求。关键系统往往要求每年的不可用时间不能超过53分钟,而以上事故很多都远远超过了故障预算。

未来,系统架构会越来越复杂,整体的数据和流量也会越来越大,有专家表示,快速响应和控制影响半径,是当前的互联网需要重视起来的两个实践方向。

 

责任编辑:赵宁宁 来源: SDNLAB
相关推荐

2019-03-04 11:05:20

阿里云宕机阿里巴巴

2011-08-18 09:18:10

宕机服务器

2020-12-25 15:34:35

AI 数据人工智能

2019-01-13 17:22:27

云计算宕机微软

2020-12-18 15:57:29

人脸识别安全技术

2020-12-21 08:49:53

人工智能AI

2011-06-22 09:03:15

云计算

2015-12-31 09:30:50

云计算云计算市场Docker

2022-06-01 12:27:21

搜狐Gitee字节

2018-02-06 08:44:09

云计算巨头Azure

2013-05-31 09:26:11

云宕机SLA云应用弹性

2021-01-08 16:10:20

大数据数据中心Meta 数据集

2020-12-18 11:32:45

编程语言JavaPython

2015-07-17 13:31:53

2011-12-31 09:11:46

服务器宕机数据中心

2011-06-28 15:03:25

云计算云服务

2019-12-20 10:42:23

AI 数据人工智能

2021-01-29 19:41:46

数据分析数字化大数据

2021-01-05 23:06:59

人工智能机器人人脸识别

2018-09-19 14:04:13

物联网云计算IOT
点赞
收藏

51CTO技术栈公众号