周日晚上,谷歌云平台(GCP)遭遇了严重停电,持续了将近三个小时,打破了包括G Suite,YouTube和谷歌云在内的线下服务。该问题首先在公司的云状态仪表板上于6月2日下午8点25分作为Google Compute Engine问题被注意到。
然而,很快,有关谷歌云,YouTube等问题的报道开始在Twitter上发布,到晚上8点59分,仪表板承认这是一个“更广泛的网络问题”。
嘿那里,我已经要求支持团队研究这个问题。如果我们需要联系您,请给我一个联系电子邮件地址。-双
– Google Cloud(@googlecloud),2019年6月2日
如果没有为您加载YouTube或者您遇到错误消息,我们正在努力解决此问题!
– TeamYouTube(@TeamYouTube)2019年6月2日
截至6月3日上午12点9分,该问题已得到解决,但除了“东部网络拥堵程度高,影响Google Cloud,G Suite和YouTube中的多项服务”之外,所发生的细节仍然很少。
然而,有人声称在谷歌云上工作(但目前正在休假),他们在黑客新闻上发布了一条消息:“它正在破坏一切,包括我们通常用来与公司沟通中断的工具。”
“当然有备份计划,但我想至少来这里说:你不是疯了,什么都不会丢失……但至少有严重的丢包,”他们补充道。
然而,有些人质疑谷歌究竟是什么意思“东部的高水平网络拥堵”。谷歌在一份声明中告诉Cloud Pro:“我们将进行验尸并对我们的系统进行适当的改进,以防止再次发生这种情况。我们真诚地向那些受到昨天问题影响的人道歉。客户随时可以找到最新的更新在我们的状态仪表板上的系统上。“
分析公司Quocirca的联合创始人Clive Longbottom告诉Cloud Pro:“如果是这种情况,那么GCP会受到更多影响:事情似乎并非如此。因此,它似乎是什么谷歌可能意味着东部自身环境中的网络流量过大。“
他认为过多的网络流量可能是由内部事物引起的。
“这可能类似于应用程序疯狂的内存泄漏,或者(像AWS一段时间之后)通过脚本导致人为错误导致循环命令给环境带来混乱。”
但这并不意味着组织应该为业务关键型工作负载放弃云。451 Research数字经济部门的研究主管Owen Rogers告诉Cloud Pro:“四个小时是相当长的一段时间……但这是一个棘手的问题,因为停电会不时发生,所有客户都可以做是建立弹性,以便如果发生中断,他们有一个备份。
“使用多个可用区域和区域是必须的,但如果应用程序对业务至关重要,则应考虑多云。是的,管理起来更复杂;是的,您将需要培训更多人员。但是,如果您的公司要去由于几个小时的停电而破产,这是一项值得投资的投资。看来有些超大规模的公司比其他公司更具弹性,但即便是最好的也可能偶尔出现。