火星科技网您的位置:首页 >资讯 >

Facebook将周一的停电归咎于我们自己造成的错误

导读 昨天影响Facebook、FacebookMessenger、Instagram和WhatsApp的六小时中断不仅对这些应用程序的用户产生了严重影响。由于该公司碰巧拥有上述

昨天影响Facebook、FacebookMessenger、Instagram和WhatsApp的六小时中断不仅对这些应用程序的用户产生了严重影响。由于该公司碰巧拥有上述所有应用程序,因此中断可能使Facebook损失超过1亿美元的广告收入。

该公司将责任归咎于自己,并表示故障是在Facebook工程师进行“例行维护”时开始的。在该公司基础设施副总裁SantoshJanardhan撰写的博客文章中,该高管表示,该公司正试图从停电中吸取教训,以免再次发生。

Janardham补充说:“这次中断是由管理我们全球骨干网络容量的系统触发的。骨干网络是Facebook为将我们所有的计算设施连接在一起而建立的网络,它由数万英里的光纤电缆穿过全球并连接我们所有的数据中心。”与Facebook用户一样,数据中心有不同的大小和形状。

一些数据中心是大型建筑物,里面装有大量计算机,这些计算机存储数据并承担保持网络运行的繁重工作。其他是较小的设施,设备所有者的数据请求被发送,然后使用Facebook的骨干网络转移到更大的数据中心。这是您的应用程序需要的数据被发现并发送到您的手机的地方。

停电开始数小时后,Facebook的股价下跌,联合创始人兼首席执行官马克·扎克伯格(MarkZuckerberg)的身价减少了60亿美元。上个月,Facebook股价下跌12.88%,扎克伯格的个人价值从近1400亿美元降至1209亿美元。然而,我们预计Facebook不会为其陷入困境的首席执行官举办一场烘焙义卖。

路由器用于确定应将所有传入和传出数据发送到何处。有时Facebook工程师需要将主干离线进行维护。昨天,发布了一条命令,旨在检查Facebook主干网的可用容量。相反,它意外地断开了骨干网络中的所有连接,从而断开了Facebook全球数据中心的连接。

Facebook有一个系统,旨在审核命令,以确保不会发生像昨天那样的意外中断。但是审计工具有自己的错误,无法阻止命令关闭系统。

第二个问题影响了Facebook的DNS服务器。正如今天的博客文章所述,“最终结果是我们的DNS服务器无法访问,即使它们仍在运行。这使得互联网的其他部分无法找到我们的服务器。”Facebook指出,一切都发生得如此之快,以至于其工程师遇到了两个大问题:由于其网络出现故障,无法通过正常方式访问数据中心,并且DNS的丢失破坏了Facebook通常用于调查和修复中断的工具。

一旦Facebook能够恢复其骨干网络连接,一切都恢复了。但Facebook有另一个问题需要考虑。如果它立即重新打开所有服务,则通过系统运行的流量可能会导致系统再次崩溃。但得益于Facebook一直在进行的“风暴演练”,它已经做好了应对事件的准备。

这家社交媒体公司表示,它将从停电中吸取教训,以免再次发生。“像这样的每一次失败都是学习和变得更好的机会,我们可以从这次失败中学到很多东西。在每一个问题之后,无论大小,我们都会进行广泛的审查过程,以了解如何使我们的系统更具弹性。这个过程已经在进行中。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。