从Cloudflare事件,看DNS服务的重要性

虚树磷火
• 阅读 2749

简介: 美国时间7月17日,美国知名的网络安全服务提供商Cloudflare,出现了突发网络服务故障。通过这个事件,和大家聊聊关于网络安全稳定的思考,以及稳定、安全的DNS服务的重要性。

7.17事件

美国时间7月17日下午,知名互联网服务商Cloudflare由于路由器发生错误,引起全球性互联网访问中断,中断持续了27分钟,整个网络上的流量下降了50%,造成包括Shopify、Politico、Discord和LOL(英雄联盟)等在内的网站及服务无法访问。随后,Cloudflare从其全球的十二个数据中心重新路由了流量,逐渐恢复了互联网访问。

据悉,故障波及的范围巨大,包括达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗等多地。

从Cloudflare事件,看DNS服务的重要性
图片来源:Cloudflare

事件起因——“不是攻击的结果”

美国东部时间下午6:09,Cloudflare在其官网上发布一条消息:“今天下午,我们看到了网络中某些部分的中断。这不是攻击的结果。我们全球骨干网中的路由器似乎宣布了错误的路由,并导致网络的某些部分不可用。我们相信我们已经解决了根本原因,并且现在正在监视系统的稳定性。”

随后,Cloudflare博客中更新了此次中断的原因:在处理与纽瓦克到芝加哥的网络阻塞问题时,其网络工程团队更新了亚特兰大路由器上的配置。然而,此配置包含了一个错误,该错误直接导致跨越Cloudflare主干网络的所有流量都发送到了亚特兰大。这很快使亚特兰大的路由器不堪重负,并导致连接到主干网的Cloudflare网络位置出现故障。

从Cloudflare事件,看DNS服务的重要性
图片来源:Cloudflare

时间线

具体的时间线是这样的:
• 20:25 EWR和ORD之间的主干链路丢失
• 20:25 ATL和IAD之间的骨干网拥塞
• 21:12至21:39 ATL吸引了来自整个骨干网的流量
• 21:39至21:47 ATL从主干链路中删除,服务已恢复
• 21:47至22:10 核心拥塞导致某些日志下降,边缘继续运行
• 22:10 全面恢复,包括日志和指标
下图是Cloudflare内部流量管理器工具产生的影响视图。

从Cloudflare事件,看DNS服务的重要性
图片来源:Cloudflare

事件后续

事后,Cloudflare公开发表声明:“我们从未经历过骨干网中断的情况,我们的团队迅速响应以恢复受影响位置的服务,但这对于每个参与人员来说都是一个非常痛苦的时期。对于我们的客户以及中断期间无法访问互联网的所有用户,我们深表歉意。我们已经对主干配置进行了更改,以确保此类情况不会再次发生”。

稳定、安全的DNS服务的重要性

在2019年7月2日,Cloudflare就曾因CPU的大量激增导致主、次系统崩溃,遭受了约30分钟的停机。短短一年时间,Cloudflare又一次发生如此重大的事故,这让我们意识到一个稳定、安全的DNS服务是多么重要。

随着物联网、5G、AI等技术的发展,互联网加速了诸如无人驾驶、远程办公、智能家居等多个新兴行业的诞生与发展。可以试想一下,当无人驾驶汽车运送您前往目的地时、当AI机器人正在为您提供服务时、当您正在进行一个远程大型会议时……如果此时出现断网、网络攻击等问题,将会造成怎样的严重后果。

因此,在这样的背景下,作为本着“用户至上”理念的网络DNS服务厂商,我们更加不能忽视网络安全与稳定的问题。如何保证大量数据运行过程中服务器不宕机、网络不中断,如何反黑客、防止网络攻击,是我们始终需要思考的问题。

阿里云DNS团队拥有多年的DNS运营经验,始终把互联网基础设施重要组成部分作为我们的目标,赢得业界好评。我们的产品深受用户青睐,向来是用户的首要选择。阿里云公共DNS服务,面向所有互联网用户,提供全球公共递归域名解析服务,旨在用优质的服务保障网站运营商的业务持续稳定、保障用户的流畅上网体验。

不论您是普通的互联网用户,还是浏览器的厂商,亦或是智能终端设备的供应商,阿里云公共DNS,都能为您提供安全、稳定、快速的服务。

原文链接
本文为阿里云原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
待兔 待兔
1年前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
4年前
Flink的WaterMark,及demo实例
实际生产中,由于各种原因,导致事件创建时间与处理时间不一致,收集的规定对实时推荐有较大的影响。所以一般情况时选取创建时间,然后事先创建flink的时间窗口。但是问题来了,如何保证这个窗口的时间内所有事件都到齐了?这个时候就可以设置水位线(waterMark)。概念:支持基于时间窗口操作,由于事件的时间来源于源头系统,很多时候由于网络延迟、分布式处理,以
Stella981 Stella981
4年前
Linux日志管理
日志是用来记录系统运行状态的历史事件,主要记录特定时间发生的事件,同时根据日志级别,事件的关键性程序,通常叫作LogLevel.系统日志服务syslog:系统级别:syslogd内核级别:klogdrsyslog特点:多线程:UDP,TCP,SSL
E小媛同学 E小媛同学
1年前
IP代理识别API:网络世界的真相揭示者
在网络世界中,用户的真实位置和身份往往被VPN、代理服务器或Tor网络所掩盖。为了维护网络安全、防止欺诈行为以及遵守地区性法规,识别用户是否通过这些服务连接互联网变得至关重要。IP代理识别API应运而生,成为了揭示网络连接真相的关键工具。本文将探讨IP代理识别API的功能、应用及其在现代网络环境中的重要性。
如何选择适合电商数据采集的代理 IP 服务?
选择适合电商数据采集的代理IP服务,您可以从以下几个关键方面进行考量:稳定性:稳定的代理IP应能长时间稳定运行,避免频繁断线或无法连接的情况。可通过向客服咨询或查看用户评价,了解其在不同时间段的连接稳定性表现,比如一些知名代理IP服务商会保证99%以上的在
秒送LBS场景下的C端SOA服务容灾建设之-数据备份篇
前言在面向服务的架构(SOA)系统中,容灾能力是保障系统稳定性的重要组成部分。通过引入多数据中心部署、自动化故障转移、数据备份等技术手段,可以有效提升系统在面对突发灾难事件时的恢复能力。例如,采用主从复制和异地多活架构,可以确保在某个数据中心发生故障时,其
敏捷开发 敏捷开发
1年前
研发效率低下?试试这些改进方法
根据裁员追踪机构layoffs.fyi提供的数据,截至12月,2024年全球科技公司至少裁员了14.9万人,覆盖了互联网、电子通信、半导体、AI等多个领域……被不确定性因素和突发性事件包裹着的一年中,“大厦倾塌”似乎成为市场中的寻常事件,悬在企业头上的达摩克利斯之剑可能随时坠落。企业亟需考虑的是:如何先活下来。怎么活?无非“降本增效”。今天,想和大家聊聊研发效能中的一些坑,或许能给大家带来一些新的思考。感兴趣的伙伴可以继续往下看。
京东云开发者 京东云开发者
9个月前
秒送LBS场景下的C端SOA服务容灾建设之-数据备份篇
作者:京东零售孙岩前言在面向服务的架构(SOA)系统中,容灾能力是保障系统稳定性的重要组成部分。通过引入多数据中心部署、自动化故障转移、数据备份等技术手段,可以有效提升系统在面对突发灾难事件时的恢复能力。例如,采用主从复制和异地多活架构,可以确保在某个数据
专注IP定位 专注IP定位
3年前
网络攻击盯上民生领域,应对DDoS和APT攻击,如何有效防御?
最近科技日报指出,近年来网络攻击频繁盯上民生领域,在很多人看来,网络攻击这件事好像还离我们很远,然而当关系到国计民生的基础设施遭到攻击时,就可能会影响到整个城市的运行,进而威胁到人们的生活。还记得去年黑客攻击美国最大的输油管事件,导致美国持续6天出现大面积缺油现象,相关公司还被勒索了500万美元赎金。在网络安全业内看来,不管是民用还是军用,是战争还是和平时代
非凸科技 非凸科技
2年前
Rust 等内存安全语言的安全性并不优于C++?
美国国家安全局(NSA)最近发布了一份关于内存安全重要性的网络安全信息表,建议从内存不安全的编程语言(如C/C)转移到内存安全的编程语言(如Rust)。C之父BjarneStroustrup博士表示,“Rust等内存安全语言的安全性并不优于C”