火星科技网您的位置:首页 >互联网+ >

AWS是你不知道存在的超级计算重量级人物

导读 许多人可能都知道AWS是世界上最大的云计算服务提供商。但很少有人认为亚马逊子公司是超级计算的重量级人物。这主要是因为AWS乐于在高性能计

许多人可能都知道AWS是世界上最大的云计算服务提供商。但很少有人认为亚马逊子公司是超级计算的重量级人物。这主要是因为AWS乐于在高性能计算(HPC)范围内不那么性感的一端运行,与装饰500强排行榜顶峰的闪亮的概念验证系统相去甚远。

相反,该组织关注的是通过提供大量公司和学术机构可以访问的基于云的服务,使对超级计算资源的访问民主化。

负责实现这一目标的人之一是BrendanBouffler,有人称他为“Boof”,他担任HPC开发人员关系负责人,充当客户与AWS工程团队之间的中介。

作为拥有多年制造超级计算机经验的人,他认为,与直觉相反,影响最大的往往是小型计算机,因为原始性能不一定是最重要的指标。

“设计真正的大型机器很有趣,因为这是一个复杂的数学问题,你必须解决,”他告诉我们。“但我总是从构建较小的系统中获得更多乐趣,因为这是完成最多科学工作的地方。”

AWS的顿悟是,这种HPC方法(生产力优先于性能)可以有效地移植到云中。

云中的高性能计算

尽管像Fugaku这样的大型超级计算机,目前性能排名第一,是最新硬件可以推动多远的极好例子,但这些系统首先是好奇心,其次才是实用程序。

正如Bouffler解释的那样,大型本地机器的基本问题是易于访问。一个能够打破百亿亿次障碍的系统将是一项令人印象深刻的工程壮举,但如果研究人员必须排队数周才能使用它,那么它的实际用途就会减少。

“很多制造超级计算机的人,包括我自己,都陷入了担心会挤出额外1%的性能的陷阱。这在一个层面上值得称赞,但痴迷意味着很容易错过唾手可得的果实,”Bouffler告诉我们。

“更重要的是研究的节奏;这实际上是科学界的机会所在。”

因此,AWS方法与性能一样重要的是可用性和弹性。借助公司的即服务产品,客户能够在云中即时启动其HPC工作负载,并根据需要向上或向下扩展分配的资源,几乎消除了浪费。

“这是关于创造高度公平的准入,”Bouffler说。“如果您有解决问题的预算和愿望,那么您就拥有了所需的计算资源。”

自大流行开始以来,这种系统的好处就特别明显,在此期间,Moderna和AstraZeneca等公司已将AWS实例用于疫苗开发。

根据Bouffler的说法,如果没有基于云的HPC,当今世界可能没有疫苗(更不用说多种)了,这使得研究能够迅速启动并立即扩大规模。

“与我们合作的研究人员想要灵活性和随时可用的原始容量。如果你让计算变得无形,并将权力交到拥有聪明想法的人手中,他们就能做出真正强大的事情。”

我们的数据中心、我们的芯片、我们的规则

Bouffler是第一个承认HPC社区并不十分关注AWS内部发生的事情的人。但他坚持认为该组织有很多创新。

例如,从历史上看,基于云的实例在运行所谓的“令人尴尬的并行”工作负载方面表现出色,这些工作负载可以轻松划分为大量不同的任务,但在需要节点之间的通信时表现不佳。

AWS没有将InfiniBand引入云端,而是提出了另一种解决问题的方法。该公司开发了一种名为ElasticFabricAdapter(EFA)的技术,据称该技术可以在机器学习和流体动力学模拟等复杂工作负载中实现与本地HPC集群相当的应用程序性能。

与InfiniBand不同,它将所有数据包从A发送到B以最快的路径发送,EFA将数据包薄薄地分布在整个网络中。

“我们必须找到一种在云中运行HPC的方法,但又不想让云看起来像一个HPC集群。相反,我们决定重新设计HPC结构以利用云的属性,”Bouffler解释说。

“EFA像群一样一次在几乎所有路径上喷洒数据包,这会产生同样好的性能,如果不是更好的话。当网络拥塞时,扩展也不会停止;系统从一开始就假设存在拥塞,因此即使HPC作业变大,性能也保持平稳。”

与此同时,2018年,AWS宣布将开始开发自己的基于Arm的定制服务器处理器,称为Graviton。尽管并非专门针对HPC用例,Graviton系列为AWS打开了许多大门,因为它允许公司剔除对其需求并非必不可少的所有功能,并加倍努力。

“当你设计像云一样大的东西时,你必须假设事情会失败,”Bouffler说。“一般来说,删除不必要的功能意味着您可以更密切地控制故障概况,而对硅片的控制给我们带来了类似的优势。”

“Graviton3为我们的数据中心优化了wazoo,因为我们是这些东西的唯一客户。我们知道我们的条件是什么,而其他制造商必须支持最奇怪和不寻常的数据中心配置。”

在去年由TechRadarPro参加的AWSre:Invent大会上,该公司推出了由Graviton3提供支持的新EC2实例,据说与上一代相比,其计算性能提高了25%,电源效率提高了60%,至少在某些方面是这样。情景。

Bouffler解释说,Graviton3还内置了许多以HPC为中心的功能,例如300GB/秒的内存带宽,典型的企业工作负载永远不会达到极限。“我们正朝着HPC的各个方向推进,这就是我们一直在做的事情。”

当被问及AWS下一步将在哪里提供HPC服务时,Bouffler引用了JeffBesoz最喜欢的一句话:“从来没有客户要求过更少的种类和更高的价格”。

展望未来,Bouffler和他的团队将继续探寻客户,并努力提供更广泛的实例来满足他们的特定需求,并提供更广泛的硬件选项。

另一个重点是降低在云中运行HPC工作负载的成本。考虑到这一目标,AWS在1月份推出了一个名为Hpc6a的基于AMDEPYCMilan的新EC2实例,它比最接近的基于x86的同类产品便宜三分之二。Bouffler说AWS做了“各种疯狂的事情”来帮助降低成本。

它也不仅仅是关于学术和科学用例。AWS正在与从西部数据到一级方程式的各种公司合作,以帮助加速产品设计,并希望在未来扩展到更广泛的行业。

“我们正在让HPC进入经济的每一个角落,”Bouffler补充道。“而且越多越好。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。