CloudFlare 宕机导致 78 万网站下线,服务中断超过 1 小时

xinzhix·2013-03-04
几个小时前,CloudFlare 由于 DNS 路由配置错误导致使用其 CDN 和安全服务的 785000 多个网站遭受影响,其中不乏 4chan、Wikileaks, Metallica 等大型网站,故障在 30分钟左右被排除,影响持续了一个多小时。

几个小时前,CloudFlare 由于 DNS 路由配置错误导致使用其 CDN 和安全服务的 785000 多个网站遭受影响,其中不乏 4chan、Wikileaks, Metallica 等大型网站,故障在 30分钟左右被排除,影响持续了一个多小时。

CloudFlare 首席执行官 Matthew Prince 在刚刚官方博客发文阐述了整个事故发生的过程:CloudFlare 的管理团队发现一处 DDoS 攻击,监测工具显示攻击包大小在 99971 ~ 99985 bytes左右(正常包大小是 1500 bytes,通常都在 500 ~ 600 bytes),于是将其规则加入 Juniper 的 Junos 防火墙设置中,不过预期大小的包并没有被拦截,因为实际上并不存在这么大的数据包,取而代之的是匹配规则的数据包冲刷到内存中,直到内存耗尽,系统崩溃。

通常系统崩溃会自动重启而恢复工作,但这次例外了。由于系统没有正常启动,管理端口没有响应控制,于是 CloufFlare 的管理中心只能电话通知全球 14 个国家的 23 个数据中心的管理员硬启动机器,这个过程大概花费了 30 分钟。最早恢复的数据中心由于负荷了最多了访问流量,仍然导致了 CloudFlare 服务的不稳定性,加上等待 DNS 缓存更新等,服务恢复时已经影响已持续超过 1 小时。

CloudFlare 最新数据显示,其服务的网站每月 PV 数超过 1000 亿,是全球十大流量网站之一,此次宕机是 4 年中第三大事故。与今早 Evernote 被黑客入侵事件一起,云计算服务可靠性和造成的大规模影响应该引发使用者更多关注和思考。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

一个月前,为了准备Fast Company一个专题,我采访了Groupon的CEO Andrew Mason,请他谈谈Groupon的未来。他在过程中表现出了犹疑、防备、疲倦、好斗以及天真,这一切预示着他上周离职的下场。

2013-03-03

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业