一个网站的更新,让外国人集体断网6小时
日期:2025-11-23 16:26:18 / 人气:25

互联网大崩溃:Cloudflare故障引发多米诺效应
昨晚,一场互联网大戏震撼上演——Cloudflare崩了,而且这一崩影响极其严重,让半个地球的互联网都受到牵连。起初,人们只是感到莫名其妙,有人发现推特登不上去,即便登上也无法正常浏览内容;ChatGPT无法使用,设计工具Canva也打不开;国外玩家在打LOL和瓦罗兰特的排位时,连不上服务器;当大家想去Down Detector查询是哪个网站出问题时,却发现Down Detector也崩溃了。差评君在Product Hunt给App投票时遇到点不动的情况,刷朋友圈发现之前推荐的网页红警也进不去了。众多常用网站出现Error 500,明确显示是Cloudflare出了问题,一家公司的故障让全世界都跟着“感冒”,全球网友集体哀嚎。有人哭诉因为Cloudflare连AI女友都联系不上,还有人以幽默的方式形容这场灾难,比如没汉堡吃(点餐机崩了),甚至有人发现Cloudflare崩了之后生活里全是蓝天白云。一个叫MrShibolet的用户发推特调侃自己入职Cloudflare第一天推送更新后就准备休息,这条推特火了起来,不过后来发现他是整活,上个月AWS崩的时候他也发过类似推文。
Cloudflare:互联网的“物业公司”
Cloudflare就像是互联网的物业公司,承担着网站的安全、加速、流量管理等重要职责。其主要业务包括CDN(内容分发网络)、DDoS防护、Web应用防火墙、DNS服务等。正常情况下,用户浏览器直接连接网站服务器,但网站使用Cloudflare后,访问流程变为:用户浏览器→Cloudflare→网站服务器→Cloudflare→返回给用户。这样做的好处是让访问又快又稳,Cloudflare在全球铺设了330多个数据中心,当用户访问使用其服务的网站时,会自动被导向离自己最近的数据中心,就像网购从本地仓发货比外地总仓快一样。此外,Cloudflare还像网站的保镖,能防范DDoS攻击、管理机器人爬虫、缓存内容以减轻源服务器压力,网站使用它就如同小区请了五星级物业,能对访客进行身份验证和加速访问。然而,一旦这个“物业系统”崩溃,保安集体“脑子宕机”,所有想访问网站的人都会被拦在门外。
Cloudflare崩溃原因:权限微调引发连锁反应
按常理,一家从事互联网基础设施建设的公司不应轻易崩溃,但一旦崩溃就会产生牵一发而动全身的影响。Cloudflare自己发布的事故报告显示,这次崩溃源于一个看似不起眼的功能——Bot Management(机器人管理)。该功能不仅能识别恶意机器人,还能给每个访问者打分,网站管理员可根据自身需求设定分数标准,例如电商网站为防止抢购机器人可能设置70分以上才能下单,新闻网站为让搜索引擎爬虫进入可能30分就行。这个打分系统需要一个特征文件,记录各种判断标准,通常有60种,系统会每隔5分钟向后台数据库获取最新的Bot特征清单。
在11月18日上午11点(UTC时间),工程师对数据库进行权限微调,将原本指向前台总管(Default)的单线电话改成了连接全公司的大喇叭。原本系统询问“给我一份Bot特征清单”时,前台总管会正常提供60个特征信息。但权限调整后,由于没指名道姓,所有分仓库(r0 - 分片)都开始抢答,原本只有60行的特征清单瞬间被复制成几百行。而Cloudflare为保证性能,给特征文件设定了最多200个特征的上限,数据量瞬间冲破这个上限,系统崩溃。
更糟糕的是,这种崩溃并非持续性的,而是像仰卧起坐一样。由于Cloudflare数据库集群的更新是分批进行的,有些节点数据库更新了,有些还是老版本。系统每5分钟询问数据库时就像开盲盒,碰到老版本时,总管答复提供60条特征数据,网站恢复正常;碰到新版本时,一群分仓库答复,出现几百条重复数据,网站又崩溃,这就导致用户看到网站时好时坏。
故障解决与反思
Cloudflare的工程师一开始被流量忽高忽低、网站时好时坏的情况搞蒙,还以为是遭遇了DDoS攻击,甚至怀疑自己的状态页也被攻击,尝试了限流、切换路由等操作后才发现问题出在内部。14:24,他们停止自动生成新配置文件,手动找出之前能正常工作的旧版本,测试确认无误后推送到全球所有服务器,大部分服务开始恢复。最终17:06,所有下游服务逐步重启完成,清理掉之前的错误状态,宕机正式结束,整个过程持续了将近6个小时。Cloudflare在官方事故报告里承认了错误,并承诺加强配置文件检查、审查所有模块的容错能力。
对于普通用户来说,这次宕机可能只是网站暂时打不开,等待恢复即可。但对于严重依赖在线服务的企业而言,却是真金白银的损失。上个月AWS的宕机影响了60个国家1700多万用户,导致3500多家公司业务中断,经济损失每小时超过7500万美元,这次Cloudflare宕机6小时,损失预计也不少。用户可能无能为力,开发者虽可考虑多云部署、备用方案,但成本和复杂度会大大增加,小公司难以承受。整个互联网建立在极少数基础设施公司之上,就像空中楼阁,地基只有几根柱子,哪根柱子出问题,整座楼都会受到影响,因此这些基础设施公司必须从每次事故中吸取教训。
作者:杏耀注册登录平台
新闻资讯 News
- 以史为鉴,资本支出热潮何时沦为...11-23
- 一个网站的更新,让外国人集体断...11-23
- 什么人适合做生意?答案藏在“退...11-23
- 娃哈哈2025经销商大会:业绩平稳...11-23

