• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

432 核 Occamy RISC-V 芯片流片成功,将用于太空计算

欧洲航天局(European Space Agency,ESA)正在研究多种提高太空计算能力的方法,其支持的其中一款处理器即将发布。

该局研究人员在上个月的欧洲设计、自动化和测试会议上发表演讲时表示,由苏黎世联邦理工学院和博洛尼亚大学的工程师开发的 Occamy 处理器已接近完成。这颗芯片在2021年4月20日开始研发,2022年7月流片成功后,目前正在进行最后封装。欧洲航天局也是该开源处理器小组的一员。

据悉该芯片属于并行超低功耗 (PULP) 平台项目,包含两个计算单元(CPU),每个采用了 216 个 32 位 RISC-V 内核的 Chiplet设计、未知数量的 64 位浮点单元 (FPU),以及两颗来自美光的 16GB HBM2E 内存。这颗处理器的内核通过中介层实现互连,双块 CPU 估计峰值性能为: FP64 时达到 0.768 TFLOp/s,在 FP32 时达到 1.536 TFLOp/s,在 FP16 时达到 3.072 TFLOp/s,在 FP8 精度时达到 6.144 TFLOp/s。

在该芯片中,研发人员将名为 Snitch 的小型超高效有序 32 位 RISC-V 整数内核,与通过单指令多数据 (SIMD) 增强的大型多精度 FPU相结合,实现以下 FP 格式的功能:FP64 (11,52)、FP32 (8,23)、FP16 (5,10)、FP16alt (8,7)、FP8 (5,2)、FP8alt (4,3)。 除了标准的 RISC-V 融合乘法累加 (FMA) 指令外,两种 8 位和两种 16 位 FP 格式还具有新的扩展和点积和三加数求和(exsdotp、exvsum 和 vsum ) 指示。

为了在数据并行 FP 工作负载上实现超高效计算,研发人员利用了两个自定义架构扩展:数据可预取寄存器文件条目和重复缓冲区。 相应的 RISC-V ISA 扩展流语义寄存器 (SSR) 和 FP 重复指令 (FREP) 使 Snitch 内核能够为计算绑定内核实现高于 90% 的 FPU 利用率。

Occamy 部分die视图

每个 Occamy 每颗Chiplet包含超过 216 个 Snitch 内核,这些内核以四个计算集群为一组进行组织。 每个集群在八个计算内核和一个高带宽(512 位)DMA 增强内核之间共享一个紧密耦合的内存,用于编排数据流。 基于 AXI 的宽多级互连和专用 DMA 引擎有助于管理巨大的片上带宽。 支持 CVA6 Linux 的 RISC-V 核心管理所有计算集群和系统外围设备。 每个Chiplet都有一个私有的 16GB 高带宽内存 (HBM2e),并且可以通过 19.5 GB/s 宽、源同步技术独立的裸片到裸片 DDR 链路与相邻的Chiplet进行通信。 

Occamy 部分die视图

Occamy 是一款用于 AI 和高性能计算工作负载的低功耗芯片,其轻量级的 32 位 CPU 核心更像是一个控制芯片,负责将任务重新路由到 AI 核心。今天的 AI 工作负载在很大程度上依赖于 GPU 和 AI 核心等加速器来进行训练和推理,研究人员希望开源芯片也可以用于太空中的 AI 工作负载。

单个 Occamy 芯片以 1GHz 的频滤运行时功耗是 10 瓦,因此两个芯片加上 HBM 内存会使最终芯片的功耗增加一倍以上。欧空局及其开发合作伙伴都没有透露 Occamy 的具体功耗,但据说该芯片采用了被动式散热,这意味着它可能是一款低功耗处理器。

这款 432 核芯片是新旧技术的有趣结合,当下热门的Chiplet设计优点之一是允许在芯片封装内混合和匹配新旧技术,例如模拟或数字处理器,后续还可以在封装中添加其他功能模块,以便在需要时加速某些工作负载。每颗 Occamy 芯片中都有 216 个 RISC-V 内核和用于矩阵计算的 FPU,这颗尺寸72mm2 的小小芯片上总计大约分布了 10 亿晶体管,,与英特尔 2011 年制造的四核 Sandy Bridge 芯片大致相同(大三倍)。

Occamy基于格芯(Global Foundries)12LPP (12nm低功耗)工艺制造,Chiplet设计置于无源 65 nm中介层之上。

ESA表示,Occamy 项目最初是其在 2020 年 Hot Chips 会议上提出的 Manticore 高性能架构概念的偶然成果。目前的研究原型,用于展示和探索基于 RISC-V 的架构在 2.5D 集成Chiplet系统中的可扩展性、性能和效率,展示了 GlobalFoundries 的技术及其 IP 生态系统,以及 Rambus(HBM2e 控制器 IP 和集成支持) 和 Micron(HBM2e DRAM 供应和集成支持) 的 IP 生态系统。另外新思科技(Synopsys)在EDA工具许可上 的大力支持,以及 Avery在HBM2e DRAM 验证模型上的支持使该项目成为可能。

作为对比,英特尔 Alder Lake 裸片尺寸为 163 mm2。就性能而言,英伟达 A30 GPU 具有 24GB HBM2 显存,可提供 5.2 FP64/10.3 FP64 的 Tensor TFLOPS 以及 330/660 (稀疏性) INT8 TOPS。

据公开资料显示,Occamy 是作为欧空局 EuPilot 计划(European PILOT Project)的一部分开发的,它是 ESA 正在考虑用于航天计算的众多芯片之一。该计划旨在通过创建一套在欧洲设计、实施、制造和部署的自主加速器,交付名列前茅个基于全欧洲开源和开放标准的软件和硬件集成 HPC 系统。 加速器将采用新的欧洲 Global Foundries 先进工艺技术制造,以展示欧洲技术的独立性。

EuPilot计划正在开发本土处理器以减少对专有 x86 和 Arm架构芯片的依赖,也在为超级计算机、人工智能、物联网和自动驾驶汽车开发自主可控芯片。

ESA 对这些芯片很感兴趣,因为它将允许太空中的设备执行片上数据分析。虽然不能保证 ESA 会让该芯片投入太空运行,但它是正在探索用于航天计算的众多处理器之一。美国这边,NASA 也采用了 Microchip 和 SiFive 的 RISC-V 芯片来升级其航天计算机。

据介绍,Occamy 可以在 FPGA 上进行仿真运算,该实现已在两个 AMD Xilinx Virtex UltraScale+ HBM FPGA 和 Virtex UltraScale+ VCU1525 FPGA 上进行了测试。设计 Occamy 芯片的研究人员希望芯片设计能够被采用并被低成本地复用,要实现这点可能取决于软件。

文章来自:https://www.eet-china.com/

相关文章