AMD CDNA™ 2 架構

關鍵字 :AMDCDNA™ 2

AMD CDNA™ 2 架構

專為促進發現和加速運算密集型 HPC 和 AI 工作負載而構建。
read the white-paper

為 Exascale 提供力量

AMD CDNA™ 2 架構首先是為最繁重的科學運算和機器學習應用程式設計的。 它為新的 AMD Instinct™ MI200 系列產品提供力量,這些產品的目標解決方案從緊湊型單一系統一直到世界上最大的具有開放程式設計模型的百億億級超級電腦。
Learn more


適用於 HPC 和 AI 的增強 Matrix Core 技術

AMD CDNA™ 2 架構在 AMD Instinct™ MI200 OAM 加速器中包括了 880 個矩陣核心,增強了矩陣核心技術,從而提高了運算能力和輸送量。 AMD CDNA™ 2 擴充了對更廣泛的資料類型和應用程式的支援,為 HPC 工作負載帶來了全速率雙精度和新的 FP64 矩陣運算。


封裝內 AMD Infinity Fabric™ 技術

封裝內 Infinity Fabric™ 介面是 AMD CDNA™ 2 系列的關鍵創新之一,可連接 MI250 或 MI250X GPU 內的雙圖形運算裸晶 (GCD),使 GCD 之間的理論最大雙向頻寬高達 400 GB/s。1


記憶體擴縮和相干性

已經擴充了 AMD CDNA 2 記憶體控制器,而可存取高達 128GB 的 HBM2e 記憶體容量並利用 3.2TB/s 的頻寬2。 當與最佳化的第三代 AMD EPYC™ 處理器一起使用時,AMD CDNA 2 架構還具有進階和改進的相干性模型。
Learn More

 

AMD Instinct™ MI200 OAM 系列關鍵創新

  • 兩個 AMD CDNA™ 2 裸晶

  • 超高頻寬裸晶互連

  • CPU 到 GPU 互連

  • 第二代 HPC 和 AI 矩陣內核

  • 八疊 HBM2e

Learn More



加速您的資料中心

AMD Instinct™ MI200 加速器:世界上最快的 HPC 和 AI 加速器3


  1. GCD 之間高達 400 GB/s
  2. AMD 效能實驗室於 2021 年 9 月 21 日前,在 1,600 MHz 峰值記憶體時脈下,針對採用 AMD CDNA™ 2 6nm FinFet 工藝技術的 AMD Instinct™ MI250X 和 MI250 (128GB HBM2e) OAM 加速器進行了計算,計算結果為 3.2768 TFLOPS 峰值理論記憶體頻寬效能。 MI250/MI250X 記憶體總線接口為 4,096 位元乘以 2 裸晶,記憶體資料速率為 3.20 Gbps,總記憶體頻寬為 3.2768 TB/s ((3.20 Gbps*(4,096 位元*2))/8)。 NVidia Ampere A100 (80GB) SXM GPU 加速器的最高已公佈結果為 2.039 TB/s GPU 記憶體頻寬效能。https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
  3. 世界上最快的資料中心 GPU 是 AMD Instinct™ MI250X。AMD 效能實驗室於 2021 年 9 月 15 日前,在 1,700 MHz 峰值提升引擎時脈下,針對 AMD Instinct™ MI250X(128GB HBM2e OAM 模組)加速器進行了計算,計算結果為 95.7 TFLOPS 的峰值理論雙精度(FP64 矩陣),47.9 TFLOPS 的峰值理論值雙精度 (FP64)、95.7 TFLOPS 的峰值理論單精度矩陣(FP32 矩陣)、47.9 TFLOPS 的峰值理論單精度 (FP32)、383.0 TFLOPS 的峰值理論半精度 (FP16) 和 383.0 TFLOPS 的峰值理論 Bfloat16 格式精度 (BF16) 浮點效能。 AMD 效能實驗室於 2020 年 9 月 18 日前,在 1,502 MHz 峰值提升引擎時脈下,針對 AMD Instinct™ MI100(32GB HBM2 PCIe® 卡)加速器進行了計算,計算結果為 11.54 TFLOPS 的峰值理論雙精度 (FP64)、46.1 TFLOPS 的峰值理論單精度矩陣 (FP32)、23.1 TFLOPS 的峰值理論單精度 (FP32)、184.6 TFLOPS 的峰值理論半精度 (FP16) 浮點效能。 發佈的 1410 Mhz 提升引擎時脈的 NVidia Ampere A100 (80GB) GPU 加速器結果:19.5 TFLOPS 的峰值雙精度張量核心(FP64 張量核心)、9.7 TFLOPS 的峰值雙精度 (FP64)、19.5 TFLOPS 的峰值單精度 (FP32)、78 TFLOPS 的峰值半精度 (FP16)、312 TFLOPS 的峰值半精度(FP16 張量流)、39 TFLOPS 的峰值 Bfloat 16 (BF16)、312 TFLOPS 的峰值 Bfloat16 格式精度(BF16 張量流)理論浮點效能。 TF32 資料格式不符合 IEEE 標準,因此不包括在此比較中。https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf,第 15 頁,表 1。 MI200-01

★博文內容參考自 網站,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★博文作者未開放評論功能