Rust 有麻烦了！重写53天后，Cloudflare犯六年最大错误，Chatgpt和Claude集体失联

2025-11-20 11:08 2422评论

编辑|华为的一半网络又断了。就在今天，Cloudflare 遭遇了持续数小时的宕机，导致许多热门网站和 AI 服务离线。据报道，服务中断持续了约五个半小时。 Openai的Chatgpt和Sora都是受影响的应用程序之列，Claude、Shopify和美国新泽西州公共交通系统的官方网站也出现故障。神秘的流量激增导致大范围的停电。据外媒报道，Cloudflare 于 11 月 18 日美东时间凌晨 5 点 20 分左右首次发现平台流量异常。大约一个半小时后，该公司更新了状态页面公告，告知客户此次中断。错误消息和增加的 mga 延迟表明服务中断“CloudFlare 正在经历内部服务中断。某些服务可能会间歇性受到影响，”Cloudflare 在发布的公告中表示。大约早上 7 点之前。网站的 CDN 服务并不是唯一受到此次中断影响的服务。这次中断还影响了其应用程序产品套件，该套件为云和本地工作负载提供 CDN 功能，同时保护工作负载的应用程序编程接口免受恶意流量的影响。 7 月份的 CloudFlare 博客指出，全球约 20% 的网站依靠它来管理和保护流量。据 DownDetector 报道，X uprising、Spotify、OpenAi 的 Chatgpt、社交媒体网站 Trump Truth Social、在线设计平台 Canva 以及 Letterboxd 的电影应用程序 Movie 均获得批准。是我们自己的DownDetector的bsite受到了短路的影响。这次中断还影响了至少两项其他服务。在修复过程中，CloudFlare 工程师关闭了伦敦地区的 Warp 虚拟专用网络 (VPN) 服务。此外，一些用户无法使用该公司的Cloudflare访问零信任网络（ZTNA）工具。 ZTNA 产品的用途与 VPN 类似但提供更高的安全性和性能。美国东部时间 11 月 18 日上午 8 点 09 分，该公司表示“已发现问题并已实施修复”，但恢复过程并不顺利。 Cloudflare 于 11 月 18 日上午 8:13 左右在伦敦地区重新启用 Warp 服务。据 CloudFlare 称，控制面板服务于上午 9:34 恢复。上午 9:42，该公司在其状态页面上宣布，工程师已修复了流量原因。在接下来的几个小时内，Clou Dflare 将继续监控恢复过程，并“寻找加快完全恢复的方法”。服务中断于上午 11:44 结束。Cloudflare 的一位发言人向媒体证实，在发布第一个状态更新之前，他们发现“其中一项服务出现异常流量激增”，“导致流经 Cloudflare 网络的部分流量变得不稳定”。 “我们全力确保所有交通正常。然后我们将集中精力调查事故原因值得一提的是，在 X 平台上，有网友评论道，“Rust Rust 重写版本的 Cloudflare 没有经受住时间的考验。”9 月 26 日，该公司表示，得益于 Rust 语言的特性，这次重构“更快、更安全”。CloudFlare 的崩溃报告特别指出了导致泄漏的生锈代码行。 “一行 Rust 代码崩溃，导致全球一半的流量瘫痪。”很多人相信写过rust的人都知道，非随便使用并不是一个好习惯。还指出“只有配置文件有问题时，解包才会失败。” 另一位“Cloudflare 的朋友”表示，停机是因为一名工程师试图修改旧的配置文件并删除了一堆似乎过时的代码行。正是这些代码行维持了他们的路由系统的稳定性。配置文件部署时，一半监控系统立即变成红色，整个网络开始出现一些连他们的内部文件都无法完全解释的异常。修复过程需要检索长期丢失的备份，运行一系列自动重新加载操作，并找到一种方法将完全混乱的服务器集群恢复到正常运行。 “而且，他透露，”（Cloudflare）办公室里堆满了红牛罐头，每个人都暗自恐慌。还有一位高级开发人员不断重复“不要碰任何东西”。官方披露：中断的根本原因 CloudFlare 运营着一个内容分发网络 (CDN)，全球大约 20% 的网站依赖该网络。该平台的工作原理是创建网站内容的多个副本并将其分发到世界各地的数据中心。当用户访问网页时，CloudFlare 会从距离用户最近的数据中心加载内容。该公司表示这种架构可以延迟交付世界上 95% 的人口可以享受 50 毫秒或更短的时间。除了提高网站速度之外，CloudFlare 平台还有其他用途。将流量处理任务卸载到 CDN 可以减少网站运营商的服务器负载，从而提高运营效率。此外，CloudFlare 还提供网络安全功能，可过滤掉恶意机器人和其他威胁。对于流量激增的原因，Cloudflare 首席技术官 Dane Knecht 当晚在 X 平台发文称，此次激增是公司流量的恶意流量功能造成的，并非攻击造成的。 Axial Stress引用称，“依赖机器人保护功能的服务存在潜在漏洞。在例行配置更改后，它开始崩溃，导致我们的网络和其他服务的性能普遍下降。”同时，CloudFlare发言人也向国外媒体提供了更详细的最新进展。埃迪亚。据称，“这次中断的根本原因是自动生成的流量配置威胁。”发言人表示，“需要明确的是，目前没有证据表明这是由攻击或恶意活动引起的。”我们预计事件发生后流量会自然增加，部分Cloudflare服务可能会出现暂时的性能下降，但所有服务将在接下来的几个小时内恢复正常。”在后续博客中，CloudFlare进一步解释了完整的故障过程、受影响的系统和处理方法。报告称，“该问题是由我们数据库系统中的权限更改导致数据库向机器人发出请求而触发的。多个条目被输出到管理系统使用的特征文件中。超过了。据报道，CloudFlare 的机器人管理模块包括多个系统，其中包括一个机器学习模型，该模型为流经的每个请求生成机器人评分gh其网络。客户使用这些评级来决定是否允许特定机器人访问其网站。该模型的输入数据是一个“签名”配置文件，每隔几分钟更新一次并在网络上同步，使其能够响应互联网流量的变化。这是底层点击查询行为的变化，导致生成的文件中出现大量重复的“特征”行。此更改更改了之前配置的文件大小配置功能的大小，导致机器人模块触发错误。因此，负责处理客户流量的主代理系统向所有依赖机器人模块的流量返回 HTTP 5xx 错误代码。此问题会影响 KV 工作人员和依赖密钥代理的访问服务。更改是为了允许所有用户获取他们有权访问的表的准确元数据数据。但问题是他们之前的代码中有一个预设的前提：列列表这样的查询返回的结果将只包含默认数据库的内容，并且查询不会过滤数据库名称。当他们逐渐向目标集群用户推出这种显式权限时，上面的查询开始从存储在 R0 数据库中的基础表中返回列的“重复项”。不幸的是，机器人管理模块的文件生成逻辑正是使用这种类型的查询来生成本节开头提到的文件中的每个特征输入“feature”。由于授予用户额外的权限，查询响应包含R0数据库模式的所有元数据，导致响应行数增加一倍以上，最终影响输出文件中的行数（即特征数）。起初，他们错误地认为观察到的症状是由大规模分布式拒绝服务攻击（DDOS）引起的，但后来准确地识别出了主要问题，成功了ully 阻止了大于预期的签名文件的传播，并用早期版本替换了它。详细报道链接：https://blog.cloudflare.com/18-november-2025-outage/六年来最严重停电，“真相”被嘲笑？ CloudFlare 股价整体下跌约 3%。 “鉴于 Cloudflare 服务的重要性，任何停机都是不可接受的。网络将在一段时间内无法正确路由流量，这对我们团队中的每个人来说都非常悲伤。我们知道今天每个人的信任都被背叛了。” Cloudflare也在博客中表示。此外，公司还解释了加固系统以避免故障的后续步骤，包括以下几个方面：根据用户生成的输入保护标准，加强对CloudFlare配置生成的应用程序文件的接受；增加更多全局紧急关闭开关以实现相关功能；防止核心转储或其他错误报告占用过多系统资源;全面分析各关键代理模块的各种错误故障模式。对于这次宕机，CloudFlare承认，这是自2019年以来最严重的一次宕机。“我们过去也曾出现过宕机情况，比如导致控制台无法访问，或者一些新功能暂时不可用，但六年多来，从未出现过导致大部分基本流量无法通过我们的网络发送的情况。”据了解，该公司最近一次重大资金流出发生在6月份，当时其超过6项服务离线了近两个半小时。这次中断是由于 KV 数据存储平台故障造成的。有网友评论道：“都是Cloudflare的错，一个小故障就成了第一张多米诺骨牌。”还有人认为，“宕机本身是件小事，但却暴露了Cloudflare自有服务之间连接过多的问题，导致控制面板无法访问。如果控制面板可用，就无法访??问。”将允许许多服务更快地部分恢复功能。其他人问：“互联网真的需要完全依赖单一提供商吗？” “同时，一些评论家表示，此类中断充分暴露了互联网的脆弱性，尤其是在每个人都依赖同一服务提供商的情况下。e-services-offline/https://arstechnica.com/tech-policy/2025/11/widespread-cloudflare-outage-bled 商业AI产品的秘密，探索AI编码创新的新方向！特别声明：本文由网易自媒体平台“网易号”作者上传发布，仅代表作者观点。网易仅提供信息发布平台。注：以上内容（包括图片和视频，如有）由网易HAO用户上传发布，网易HAO为社交媒体平台，仅提供信息存储服务。

请尊重我们的辛苦付出，未经允许，请不要转载R星吃瓜：反差大赛与暗黑爆发料在线的文章！

R星吃瓜：反差大赛与暗黑爆发料在线

相关文章