下降但不是下降

下降但不是下降

Natalie Bannerman

封面

继2021年广受关注的CDN宕机事件之后,Capacity的Natalie Bannerman探讨了如万搏体育ap何对该基础设施进行未来防护,以避免此类事件再次发生

在内容流媒体时代,我们都可能在家里拥有Disney+、Prime video或Netflix之类的视频流媒体服务,而且——取决于我们的兴趣——还会有某种游戏服务。

但我们中有多少人实际上考虑将此内容提供给我们的网络?全球视频流媒体市场于2020年的5011亿美元价值,预计将以2021至2028年的复合年增长率增加21%。

面对如此庞大的市场,内容分发网络(有时也被称为内容分发网络(cdn))不仅要优化和可扩展,而且要安全,这一点很重要。

作为一系列地理分布式网络代理服务器及其数据中心,CDNS与任何其他形式的基础设施中的中断和安全威胁一样易受。

网络停电
在今年早些时候出现的案例,云计算服务和CDN提供商速度迅速,导致广泛的数字停电导致由于软件错误而导致其边缘云平台。小时长的中断影响了Reddit,Gov.uk,抽搐,Spotify,亚马逊,纽约时报,监护人,CNN和BBC的喜好。

当时,Fastly的工程和基础设施高级副总裁Nick Rockwell证实,该事件是由5月12日软件部署后“有效的客户配置更改”引发的。

随后,在6月8日,一位客户推动了一项有效的配置更改,其中包括“触发漏洞的具体情况,导致我们85%的网络返回错误”,罗克韦尔说。

虽然fast事件是短暂的,但大约一周后,澳大利亚也发生了类似的中断,网络服务公司Akamai也面临着cdn问题——这一次,包括澳新银行、西太平洋银行、圣乔治银行、ME银行、麦格里银行、美国航空公司、西南航空公司、联合航空公司和达美航空公司。

当时,Akamai证实“Prolexic的DDoS服务(路由3.0)出现了中断”,影响了大约500名客户。该公司急于强调:“这个问题不是由系统更新或网络攻击造成的。无意中超过了此特定服务使用的路由表值。结果造成了服务的意外中断。”

由于这些中断,围绕CDN安全性和弹性引发了更广泛的讨论,首先是一个最普遍的问题:这些类型的中断会成为新的常态吗?
新普通
LogicMonitor产品管理副总裁Ranjan Goel表示,随着我们的基础设施变得越来越复杂,发生停电的几率也会增加。LogicMonitor是一个基于云的基础设施监控和可观察平台。

“随着我们的IT基础架构在复杂性成长,除非基础设施监测能力与复杂率保持速度,否则彻底的停电可能会增加频率和严重程度,”他说。

“防止IT基础架构导致的问题的唯一方法 - 例如CDNS - 可能导致广泛的中断是通过整体的可见性进入整个IT基础架构,以识别它们导致更广泛的损坏。”

他对这个问题的回答是利用自动化和人工智能——因为,正如他所说:“这是一项人类无法单独处理的任务:必须让AIOps和机器学习软件来完成这项任务。”

“AI解决方案可以在数十亿数据点上发布IT环境的数据点,并在出现在辍学事件之前需要看时,在存在期间的问题时快速提醒IT团队,”他解释说。

“这可能并不能防止每次宕机,因为没有单一的灵丹妙药,但如果真的发生宕机,它将极大地缓解问题,并缩短宕机缓解时间。”

有趣的是,Netacea(一家支持人工智能的机器人检测和缓解提供商)的首席技术官安迪·斯蒂尔(Andy Still)持略微不同的观点,他认为“像这样的宕机非常罕见”。

“平台弹性通常越来越好,中断比以前的常见程度不那么常见。这是由高可用性系统的技术和自动化的改进驱动的 - 旨在具有高度可用的系统,因此可以在发生任何问题时自动故障转移到替代品,“他说。

如果我们辞去更多基础设施停电的事实,那么问题就会成为如何最大限度地减少这种停电的影响 - 也许在空间中的竞争增加是答案。由于许多行业专家的速度停电,因此少数跨越云/ CDN提供商的过度意义意味着如果服务下降,则规模较大,影响要大得多。

应用流量情报公司NS1的首席执行官Kris Beevers说:“公司应该使用来自多个供应商的多cdn基础设施,以尽可能减少,甚至避免灾难性中断的影响,如Fastly和Akamai事件。”

这也有助于他们避免锁定,并获得控制CDN成本的杠杆。但他们必须对全球应用程序交付性能有很高的可观察性,并且在CDN未能达到预期效果时能够立即采取行动。”

可持续网络管理提供商Men&Mice的首席执行官马格努斯•比约恩松(Magnus Bjornsson)对此表示赞同。他提醒我们,随着越来越多的业务依赖于CDN提供商的小圈子,当问题真的发生时,“后果可能是全面的”。

“解决这个问题的唯一有效方式是增加冗余,”他补充道。“因此,CDN具有适当的冗余解决方案至关重要,但对于用户本身思考冗余并构建其产品以不使用单个CDN服务。”

与冗余一样重要,仍然表示,一些CDN的大小直接与其有效的内容交付直接相关,实际上使用较小的提供商可能会导致更多的中断。

“大型CDN的一个关键好处是它的规模。事实上,大小是使用CDN的驱动因素之一。使用这项服务的公司越多,底层网络就会越好——大量的小型cdn将失去这一好处,”Still解释道。

“CDN规模越大,影响就越大,但这只是因为同时会有很多中断。较小的公司可能会有更多的中断,但它们会更分散,所以不会那么明显。”


安全
当然,解决方案最重要的部分是安全性。但首先,他们目前是如何加强的?嗯,像大多数其他基于云的基础设施一样,这包括从DDoS缓解、SSL认证、应用程序防火墙、监控和可见平台等所有内容。

Bjornsson说:“利用多个托管DNS服务来确保最佳DNS冗余,正迅速成为企业使用的cdn的最佳实践。”

“这意味着以可靠且一致的方式自动处理数据的复制和同步。”


在构建高可用性的话题到基础设施的关键层堆栈,保罗•Speciale Scality首席产品官说,基于软件的虚拟化和软件定义存储和网络已经成为“普遍的数据中心,他们利用商品硬件”意味着“高可用性,安全性和可管理性确实需要在基础设施堆栈的所有关键层进行规划”。

Speciale说,实现“黄金标准”可用性(或通常提到的99.999%可用性)所需的关键属性包括构建在分布式系统上的解决方案,在软件和硬件组件中都有冗余,以消除单点故障。

“在设计这些系统时,应该充分预测并预测可能发生的故障事件:组件故障、服务故障——所以现代系统设计是预测可能发生的故障,并通过可选路径绕过故障,”Speciale补充说。

除了使用人工智能和自动化来检测和纠正问题以及具有成本效益的网络之外,他还表示,“自愈系统已变得越来越普遍”,这意味着从服务器故障或磁盘驱动器故障等事件中自动恢复的能力,通过重建数据并将其冗余存储在其他服务器或磁盘驱动器上,以恢复保护级别。

总的来说,Still认为“任何好的安全性方法都将同时考虑基础设施和应用程序的安全性”,并指出安全攻击通常是通过应用程序的业务逻辑发生的。

“因此,他们不是利用技术弱点,而是为非法目的从事合法活动——例如,创建数千个虚假账户,每个账户都有免费奖金。”

流媒体内容继续激增,而不仅仅是来自视频和游戏,而且来自非媒体公司的高清交付网络,“Goel说。

这反过来意味着这些公司认识到CDN现在是企业架构的一部分,即“需要积极监测他们的商业服务的整体可用性”。

因此,Bjornsson补充道:“重要的是,cdn的设计要有冗余,以确保它们能够继续向用户提供内容。”