高性能计算 (HPC) 是指通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。高性能计算 (HPC) 或超级计算和日常计算一样,区别只在于它的计算能力更强大。它能够通过聚合结构,使用多台计算机和存储设备,以极高速度处理大量数据,帮助人们探索科学、工程及商业领域中的一些优异的重大难题。
一、什么是高性能计算 (HPC)
高性能计算 (HPC) 是指通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。高性能计算 (HPC) 或超级计算和日常计算一样,区别只在于它的计算能力更强大。它能够通过聚合结构,使用多台计算机和存储设备,以极高速度处理大量数据,帮助人们探索科学、工程及商业领域中的一些优异的重大难题。
目前,HPC 多用于解决性能密集型复杂问题,越来越多的企业将其 HPC 工作负载迁移到云端。云端 HPC 将极大优化产品研究和开发的经济效益,因为它可以减少对原型的需求、加快测试速度并缩短上市时间。
二、HPC 的工作原理
在实际应用中,有一些负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算,从容应对这些规模庞大而又极其复杂的负载挑战。此外,由于支持在云端自动创建和删除集群,HPC 还能有效降低负载成本。
HPC 支持多种类型的负载,其中常见的两种负载是并行负载和紧密耦合负载。
1、并行工作负载
指被细分为多个小型、简单、独立任务的计算问题,这些任务可以同时运行,通常相互之间几乎没有通信。例如,一家企业可能向某节点集群中的各个处理器核心提交了 1 亿条信用卡记录。其中,处理一条信用卡记录即是一项小任务,当 1 亿条记录分布在整个集群上时,1 亿个小任务就能以惊人的速度同时(并行)执行。并行负载的常见使用场景包括风险模拟、分子建模、上下文搜索和物流模拟。
2、紧密耦合工作负载
通常占用较多的共享资源,并分解为相互之间持续通信的小任务。换言之,集群中的各个节点在执行处理时会相互通信。紧密耦合负载的常见使用场景包括计算流体动力学、天气预报建模、材料模拟、汽车碰撞仿真、地理空间模拟和交通管理。
三、HPC 的重要性
数十年来,HPC 一直在学术研究和行业创新中扮演着重要角色。它帮助工程师、数据科学家、设计师和其他研究人员更经济、更高效地解决了许多大型复杂问题。
HPC 的主要优势包括:
1、减少物理测试
HPC 可用于创建仿真,而无需用户进行物理测试。例如在测试汽车事故时,与实际碰撞测试相比,HPC 可以更加经济、便捷地生成碰撞模拟。
2、速度
基于最新 CPU、图形处理单元 (GPU) 和诸如 RDMA(远程直接内存访问)的低延迟网络结构,以及全闪存本地存储和块存储设备,HPC 可以在数分钟内完成以往需要数周才能完成的大量计算。
3、成本
HPC 可以更快速、更低成本地提供答案。此外,借助基于云的 HPC,即使是小型企业和初创企业也能轻松运行 HPC 负载 — 只需为实际使用的资源付费且可按需扩展和收缩。
4、创新
HPC 推动了几乎每一个行业发展创新,是突破性科学发现得以问世,改善全球人民生活质量的重要驱动力。
四、HPC 的使用场景
以下是 HPC 在一些行业中的应用以及相应的 HPC 工作负载类型:
航空航天:创建复杂模拟,例如飞机机翼上的气流
制造: 通过模拟来增强新产品(例如自动驾驶)的设计、制造和测试,从而生产更加安全的汽车和更轻的零部件,提高流程效率,促进创新
金融科技 (fintech):执行复杂风险分析、高频交易、财务建模和欺诈检测
基因组学:通过 DNA 测序、药物相互作用分析和蛋白质分析来推进系谱学研究
医疗卫生:研发药物、研发疫苗以及为罕见和常见疾病研究创新疗法
媒体和娱乐: 创建动画、渲染电影特效、转码大型媒体文件以及创建沉浸式娱乐体验
石油和天然气:执行空间分析,测试储层模型,从而预测油气资源分布位置;对流体流动和地震数据处理等进行模拟
零售:分析海量客户数据,从而为客户提供更有针对性的产品建议和更优质的服务
五、HPC 的部署模式
HPC 可以在本地、云端或混合模式下运行。
在本地 HPC 部署下,企业和研究机构可构建一个由服务器、存储解决方案和其他基础设施构成的 HPC 集群,并自行管理和升级。在云端 HPC 部署下,云服务提供商负责管理基础设施,企业和研究机构可以直接使用并按用量付费。
另外,一些企业会选择混合部署模式,尤其是已经投资购置了本地基础设施,但又希望获得云部署的速度、灵活性和成本节省优势的企业。当本地部署中的排队时间过长时,它们就会使用云来运行 HPC 负载,按需使用云服务。
六、本地 HPC 部署面临的挑战
本地部署模式下,企业可以全面掌控 HPC 运行,但同时也面临一些挑战,包括:
- 投入大量资金购置和持续升级计算设备
- 支付日常管理和其他运营成本
- 用户需要排队几天或几个月的时间才能运行自己的 HPC 负载,尤其是在需求激增时
- 采购周期较长,难以及时升级至功能更强、效率更高的计算设备,导致研究和业务发展速度受到影响
考虑到本地部署环境的成本和其他挑战,云端 HPC 部署越来越受欢迎。
如今,为了赢得和留住客户,拔尖云提供商开发了专为 HPC 负载而设计的名列前茅技术,可以有效避免本地 HPC 设备老化带来的性能下降。它们可以提供最新、非常快速的 CPU 和 GPU 以及低延迟闪存存储、极速 RDMA 网络和企业级安全性,提供全天候服务可用性,尽可能降低甚至消除排队时间。
七、选择HPC 云要考虑的关键要素
目前市场上各个云提供商的实力不尽相同,某些云并非专为 HPC 而设计,无法在负载高峰期提供优异性能。因此,在选择云提供商时,请重点考察以下 4 点:
1、名列前茅性能
您的云提供商应当能提供最新一代的处理器、存储和网络技术,提供可达到或超出典型本地部署水平的 HPC 能力和顶尖性能。
2、HPC 经验
您的云提供商应当具备为各种客户运行 HPC 工作负载的丰富经验,能够在高峰时段(例如运行多个仿真或模型时)提供优异性能。在很多情况下,裸金属计算实例相比虚拟机可提供更加稳定、一致、强大的 HPC 性能。
3、灵活迁移
您的 HPC 工作负载应当能够在云中顺畅运行,就像在本地运行一样。在将负载“原样”迁移至云之后,您在下周运行的模拟应与十年前运行的模拟结果一致。在需要使用相同的数据和计算方法进行年度比较的行业中,这一点极其重要。例如,如果空气动力学、汽车和化学的计算方法没有改变,那么无论什么时候同一模拟的结果都不应有任何不同。
4、无隐藏成本
云服务通常采用“按使用付费”模式,请确保您准确理解云提供商的定价信息。许多用户经常对出站数据移动或数据传出成本感到惊讶,原因就在于用户可能知晓需要为每一个事务和数据访问请求付费,但是很容易忽略传出成本。
以上就是关于什么是高性能计算 (HPC)、HPC 的工作原理、HPC 的重要性、HPC 的使用场景、HPC 的部署模式、本地 HPC 部署面临的挑战、选择HPC 云要考虑的关键要素的全部内容了,希望对你有所帮助。