Fastly 和 Akamai 故障的深层次原因 – 作者:CSCDigitalBrandServices

2021年6月17日,在我完成这篇文章时,内容交付网络(CDN)提供商Akamai又一次在全球范围内宕机。其原因似乎与其分布式拒绝服务(DDoS)缓解措施的某个“路由表”容量不足有关。虽然技术分析结果还没有出来,但本文的中心前提也适用于这起事件,它可作为及时的见证。

美国东部时间2021年6月6日上午6点左右,由CDN Fastly托管的网站,如Amazon®、Reddit、Spotify®、eBay®、Twitch、Pinterest®和CNET集体瘫痪,CNET称其为“互联网崩溃之日”  。仅仅在CNET瘫痪11天后,前三大CDN提供商Akamai也先后出故障,以及一些跨国银行和航空公司,包括西南航空公司、联合航空公司、澳大利亚联邦银行、西太平洋银行、澳大利亚和新西兰银行集团,以及香港证券交易所网站。

对Fastly事件的研究显示 ,这些全球大公司似乎都没有任何自动响应系统来缓解此类事件,不得不手动调整域名系统(DNS)记录,以删除Fastly。

Fastly故障的原因被广泛报道。

1. Fastly更新的软件中包含一个未发现的bug。

2. 一位客户在正常操作时触发了该bug。

未发现的软件bug是无辜的,这是所有软件中都可能存在的问题。这次事件除给品牌带来数百万的损失外,还会带来哪些影响呢?虽然这看起来很矛盾,但这是个关键问题。

从零信任到对云端的深信不疑

没有直接受到此次故障影响的人可能不会问“这会带来哪些后果?”然而,根据我们的实际经验,大多数IT和安全经理肯定会问这个问题。类似事件并非第一次发生——2016年DYN瘫痪、2020年Cloudflare®、Azure和Amazon Web Services宕机,从业者群体缺乏行动,这就是证明。Akamai和Fastly事件也不会是最后一起。

我们承认存在实际限制,如与预算冲突的优先事项,导致不作为。然而,更令人担忧的是,云和CDN往往被视为缓解网络中断的解决方案。当这些巨头也出现故障,决策者一般会觉得自己已经尽力。

零信任是近年来网络安全领域一个非常流行的概念。尽管零信任主要指终端的零信任,但它正逐渐演变成一个涵盖整个网络架构的安全理念。这与IT和安全专业人士对云服务的深信不疑与盲目信任形成鲜明对比。

Google®发表了一篇名为《云信任悖论 》(“The cloud trust paradox”)  的文章,描述了信任在使用云服务中的作用,“使用公共云这一概念”与 “信任你的云提供商”密不可分。与其建立真正的零信任网络,现实中更通用的做法是将风险外包给受信任源。

正如Google文章的标题所暗示的,“要更多地信任云计算,你需要拥有更少信任它的能力”。IT安全人士可能必须开始减少对CDN和云资源的信任,以保持更好的安全态势。

鉴于企业无法控制Fastly和Akamai事件的技术根源,如何减少对它的信任并降低风险呢?为此,我们将深入探讨其非技术根源。

根本原因:互联网整合

2019年,互联网协会(ISOC)发布了一份题为《互联网经济的整合》(Consolidation in the Internet Economy)的重要报告。报告认为,互联网基础设施集中在少数几个提供商手中,这会给互联网和更广泛的社区带来风险。互联网整合不是IT和安全人士经常讨论的概念,但我认为这种整合和集中是Fastly和Akamai事件的根本原因之一,任何有意义的缓解策略都必须考虑到这一点。

互联网整合的一个后果是产生对少数服务提供商的深度依赖,当这种依赖不起作用时,互联网会像这两个案例中一样崩溃。

ISOC的报告描述了三个层面的互联网整合:

  • 互联网应用——今天,少数公司经营着互联网最受欢迎的一些服务。仅Google一家就占据全球搜索市场的90%,运营着超过60%的网络浏览器,拥有目前第一大移动操作系统(安卓TM),顶级用户生成的视频平台(YouTubeTM),其电子邮件服务(Gmail)拥有超过15亿活跃用户。中国也有类似的情况,阿里巴巴®和腾讯分别主导着电子商务和社交媒体平台。互联网应用层面的集中过于明显,这本身就有问题。
  • 接入提供——低收入基础和高进入成本高导致了互联网服务提供商集中。
  • 服务基础设施——CDN和云服务提供商正在整合,两者现在都是基础设施的基本组成部分。在全球排名前1000的网站中,CDN的使用率从2014年6月的50%增长到2018年8月的约87.5%。在使用CDN的样本网站中,27%使用亚马逊CloudFront,27%使用Akamai,另有8%使用Fastly。虽然 8% 的市场份额很可观,但尚未达到临界规模,为什么 Fastly中断所造成的影响如此广泛?

《互联网报告》(The Internet Report) 对该事件进行了深入调查,并得出一个有趣的答案。通过查看一些最大在线服务所用的IP地址,他们发现,一些CDN和云服务提供商也在使用Fastly实现冗余。这是因为互联网格局变得非常集中,即使是CDN和云服务提供商本身的冗余,也只使用少数公司的服务。例如,使用CDN A的企业在现实中可能通过Fastly应对一些流量,当Fastly宕机时,也会影响使用CDN A的客户。

《互联网报告》中的另一个有趣事实是,受影响企业很可能使用DNS来从中断中恢复,有些企业比Fastly恢复得还快。这使我们想到ISOC报告中强调的另一个关键服务基础设施:DNS

ISOC的报告表示,递归性DNS和权威性DNS都经历了重大整合。一篇学术论文探讨了市场是否从大规模的DYN DNS事件中吸取了教训。在DYN事件发生四年后,市场似乎没有从集中的DNS提供商的影响中学到什么 。在顶级DNS托管提供商中,似乎只有少数几家接受多样性,并鼓励客户采用这些最佳实践 。本文没有强调的一个关键问题是,最受欢迎的DNS服务提供商也是最大的CDN和云服务提供商,这创造了另一层垂直集中,使情况更加恶化。

DNS值得重视,因为虽然CDN被列为关键基础设施,但它只影响使用CDN的在线属性。在Fastly事件中,任何不直接连接到Fastly的东西,如电子邮件服务器,基本上未受影响。然而,无论在内部还是外部,DNS几乎与一切相连,包括你与CDN和任何云服务的连接。因此,DNS集中对企业的整体安全态势的影响不容低估。DNS是一些企业用于从Fastly故障中恢复的方法,这进一步突出了它在现代网络和网络间设计中的关键地位。

解决方案和建议

Fastly事件再次暴露CDN、云服务和DNS等关键互联网服务过于集中、整合程度过高的问题。主要CDN和云服务提供商之间的超强依赖性进一步加剧了这一问题。以下步骤有助于最大限度地降低风险。

第1步:利用互联网集中的好处

虽然我们讨论了很多互联网集中的问题,但必须承认,互联网集中也带来了很多积极因素。例如,CDN提供商的集中为内容传输创造了规模经济,同时显著降低了数据传输成本。DNS提供商的集中使最大的提供商有足够的规模来维持Terabit级的DDoS攻击。Google的突出地位也有助于QUIC等关键新协议的测试和开发。

因此,对于那些仍保持自有基础设施、主要业务高度依赖互联网的企业,我们建议首先利用互联网集中的好处,将适当的服务转移到CDN、云和企业DNS托管,以降低成本并提高复原力。不过,这只是第1步。

第2步:回归互联网的源头,优先实现多样化

一旦成本降低,基线安全态势得到改善,就要考虑如何使这些关键的基础设施多样化以减少风险。优先级意味着一些东西比另一些更重要,如何判断CDN、云或DNS是否更重要?

互联网不变量是互联网的基本构件,无论如何都不会改变。用ISOC的话说,这些是“真正重要的东西”  。

互联网不变量的一个例子是互联网协议(IP),它强调互联网的互操作性基础。DNS也是互联网的一个不变因素,因为互联网需要一个“全球性、受管制的寻址和命名服务 ”以高度完整性运行。无论是本地服务器还是云端托管服务器,加快网站解析的方法都会随着时间的推移而变化,所以它们并非不变量。

我们一直认为,DNS是最关键的互联网基础设施之一,应该赋予更高的优先级。 它应该与其他互联网服务基础设施相分离,并使用专注于该领域的DNS提供商,以避免深度依赖。

第3步:避免垂直整合

互联网的整合和集中可以是横向(大多数CDN服务整合到Akamai、Cloudflare等等)或纵向的(公司将其CDN、云主机和计算以及DNS整合到提供商)。横向整合是一家公司无法控制的,主要由市场力量决定。《互联网报告》的调查显示,垂直整合和集中可能在你不知道的情况下发生(即服务提供商的深度依赖)。因此,要减少风险,企业必须开始对这些大型提供商的复杂相互依赖关系网进行解耦。第一步应通过解耦和丰富CDN、云主机和企业DNS提供商减少垂直整合。

回到我们的第一个建议,互联网整合会带来成本效益。如果你还未使用企业级云提供商,就需要开始部署。不过,这些互联网服务基础设施独立而又关键,任何故障都会导致重大停机。因此,应尽可能避免垂直整合——即:避免使用同一家提供商的云、CDN、DNS和DDOS保护服务。

第4步:整合管理;基础设施多样化

互联网整合带来的问题很难解决,主要是因为它也带来了很多好处。商业上的好处主要有两个:财务和管理。在财务方面,需要在更高的安全性和成本之间进行权衡,但当涉及到管理或运营效益时,企业可能会在实现基础设施多样化时收获合并管理的好处。以DNS管理为例,你可以将某家提供商作为主提供商,同时将所有更新自动复制到二级DNS基础设施。在CDN和云上都可以有类似的设置,这是合乎逻辑的。

在选择互联网服务基础设施提供商时,应考虑多样化,并保证所选提供商具有必要的企业安全级别。多元化互联网最终会更加稳定和安全,而我们只有通过集体商业选择才能实现这一愿景。

来源:freebuf.com 2021-07-08 16:59:26 by: CSCDigitalBrandServices

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论