【ATU Book-MemryX 系列】MemryX 推出浮點運算 AI 晶片，引領精準運算新時代

關鍵字 :MemryX NPU AI accelerator cards20TOPSM.2 PCIe Gen3

一、概述

近年來，隨著半導體製程的進步，硬體計算能力與數據量的有著飛躍性的提升，使得電腦視覺(Computer Vision) 領域迎來了全新的發展階段。過去，影像處理大多依賴像素級別的逐一運算，而現在，藉由 大數據(Big Data) 的支撐以及 深度學習(Deep Learning) 的成熟，AI 模型能夠從海量數據中透過固定的學習模式，快速創造出各式各樣的應用。

人工智慧技術的普及與邊緣運算在工業與車輛應用的雙向崛起
在人工智慧(AI)技術迅速普及的浪潮中，邊緣運算(Edge Computing) 正成為工業與車輛應用的共同核心推動力。傳統雲端運算雖然擁有強大的集中處理能力，但在即時性、高數據吞吐量以及敏感數據保護的多場景需求下，逐漸暴露其短板。而邊緣運算的崛起，通過將計算能力分散至工廠現場、設備端及車輛內部，為這兩個領域提供了解決方案。

工業應用的價值
■ 降低延遲：就近處理來自感測器與設備的數據，確保生產線與工業機器人等即時反應能力。
■ 減輕網絡負擔：在邊緣端完成大數據預處理，減少工廠內部和外部網絡的壓力，提升運營效率。
■ 保護隱私：在邊緣完成關鍵工業數據處理，避免敏感生產數據外流，確保企業機密和用戶隱私。

車輛應用的價值
■ 即時決策：車載邊緣設備即時處理攝像頭、LIDAR 和雷達數據，確保自駕車的快速決策。
■ 本地運算優化：降低車輛對外部網絡的依賴，並確保在網絡中斷的情況下仍然可靠執行。
■ 數據隱私保障：本地化處理車輛內部數據(如駕駛行為與位置資訊)，減少對雲端的依賴，保護駕駛者隱私。

圖文出處 : 生成式 AI 軟體

隨著 2024 年生成式 AI 的爆發，創造出更多 AI 應用需求的多樣化發展，邊緣運算不僅僅是一項輔助技術，更成為現代 AI 應用的重要基石。

MemryX：邊緣運算與浮點計算的革新者
在邊緣運算浪潮中，MemryX 加速卡脫穎而出，憑藉其強大的 BF16 浮點運算能力和全面軟體支援，成為邊緣 AI 應用的理想選擇。與傳統專注整數運算的解決方案不同，浮點運算對於需要高度精確的 AI 推理場景至關重要。MemryX 解決方案在低功耗 ( 1W / 5 TFLOPS ) 下提供 20 TFLOPS 的卓越性能，成為物體檢測、影像辨識、肢體識別、語意分割、深度估算和自然語言處理等應用的關鍵推動力。

全面的軟體支援：助力開發者快速部署
MemryX 不僅硬體性能卓越，還提供豐富的軟體生態，包括模組評估工具、API 接口、驅動程式與開發工具，幫助開發者快速整合並優化 AI 模型運行。其軟體支援涵蓋：

■ 晶片模擬效能(Simulator)

■ 權重精度調整(Weight Precision)

■ 模型裁剪(Model Cropping)工具

■ AI DEMO GitHub 資源

■ Model Zoo 資源

■ Model eXplorer 資源

卓越的 AI 效能
利用 MemryX MX3 晶片來運行當下最熱門的 YOLOv8-Nano 物件偵測算法，可輕鬆達到每秒 350 張左右。

二、 MemryX：邊緣運算與浮點計算的革新者

MemryX 於 2019 年由現任密西根大學電機的盧偉博士與張正亞博士共同創立，並現由原高通(Qualcomm) 的副總裁 Keith Kressin 擔任首席執行長。其設計理念主打輕小、省電、高精準度 (浮點數運算)、可迭代算力、不佔用主平台資源等等特色，榮獲 2022 EE Aards 亞洲金選獎 - 最具潛力產品(Most Promising Product)。同時，活躍於各大社群媒體，趕快加入 linkedin 官方帳號 !! 即時發布最新的 MemryX 資訊。

MemryX 最新的 MX3 晶片，具有低功耗、高運算能力 ( 1W / 5 TFLOPS )、高跨平台整合性等等優勢, 其中以 16 位元的浮點運算 (BF16) 為主, 可以確保模型的準確度，並提供豐富的模組資源與整合套件，能讓用戶體驗更完善的 AI 資源整合，如下圖所示。其中 AI 晶片內部亦有高頻的記憶體的配置，用以消除高運算時所帶來的記憶體瓶頸。故須要衡量所使用的模組大小，一顆晶片大約能夠處理 10 M 參數資料量。舉例來說，A 模組為 40 M 參數量，則需要搭配 4 顆 MX3 晶片才能使用。

規格

優勢介紹
(1)    採用浮點數(BF16) 進行計算，確保模組準確度。
(2)    不占用系統記憶體
(3)    可擴充性 (最多可連結 16 個晶片)
(4)    最佳資料流優化，能夠最大限度地減少資料移動
(5)    模組最佳可操作性，能夠配合其他硬體加速器二次優化

圖文出處 : MemryX 官網

軟體框架 (Software Framework)
MemryX Developer Hub 包含編譯器(Compiler) 、運行器(Runtime) 、公用工具(Utility Tools) 來驅動底下的 MemryX AI SoCs 系列。如下圖所示 :

圖文出處 : MemryX 官網

▼ 編譯器(Compiler)

Neural Compiler 提供數種功能，如將多模型整合 (Multi-Model)、模型剪枝(Model Cropping)、多路串流單一應用(Multiple Input Streams)、單路串流多個應用(Shared Input Stream)、混合精準度權重(Mixed-Precision Weights)、模組所耗資源顯示(Resources Utilization)。以簡單 Command Line指令方式，能夠幫助開發者快速轉換模組，將 Pytorch , Keras, Tensorflow, Tensorflow Lite , ONNX 等模型轉換至 MemryX DFP 模組格式。

▼ 運行器(Runtime)

提供最佳化的使用者體驗，利用 Benchmark 搭配 Model Zoo 能夠幫助開發者快速評估其硬體效能與準確度。並且提供數種開源範例 DEMO (MemryX Examples) 與簡潔有力的 API 能夠幫助開發者快速實現與佈署 AI 應用。

Benchmark (Python , C/C++)

Accelerator API (Python , C/C++)

▼ 公用工具(Utility Tools)

模擬器( Simulator ) : 為 MemryX 提供的軟件，幫助沒有 MX3 晶片的開發者完成性能評估。

視覺化工具( Viewer ) : 為 MemryX 提供的 GUI 介面，包含上述編譯器、模擬器、加速器。

檢視器( DFP Inspect ) : 為 MemryX 提供的一套檢查 DFP 檔案的工具。

▼ DEMO 範例

如下 MemryX 原廠提供許多 AI 範例，一步步教導開發者如何實現 AI 應用 !

https://github.com/memryx/MemryX_eXamples/tree/release

Note : 必須注意的以下範例，皆為開源模型並非可以商業使用 ! 謝謝

圖文出處 : MemryX 官網

三、結語

如下列原廠發布的新聞稿提到，MemryX 是如何透過 AI 晶片來改變邊緣人工智慧應用的客戶體驗

1. 高幀率 (High FPS)

MemryX 的資料流與記憶體運算架構適合管線操作。一張低功耗的 MemryX M.2 卡可以同時處理 10 個攝影機串流，運行一個或多個 AI 模型，特別適合如視訊管理系統等即時性要求高的應用場景。

2. 高模型精度與自動化編譯

MemryX 提供只需一鍵即可完成高精度 AI 模型編譯的工具。MX3 支援浮點術運算 (BF16)，能確保模型的準確度與完整性，無需重新訓練模型或進行額外調整。相較於目前主流的整數模組(INT) ，MemryX 能夠讓客戶能快速部署高效且準確的 AI 應用。

3. 保持原始模型完整性

不同於其他解決方案需要改動模型來適配硬體，MemryX 支援直接在 MX3 上編譯與運行原始模型，並提供可選的模型修剪與壓縮功能以實現設計優化。

4. 自動前/後處理

MemryX 自動識別並打包 AI 模型中的前處理與後處理程式碼，幫助開發者快速整合，減少手動調整的複雜度，提升部署效率。

5. 卓越的可擴展性

MX3 可單晶片使用，也可多晶片結合為邏輯單元，支持從單台智能攝影機到 16 晶片邊緣伺服器的應用，所有配置共享相同的軟體和接口，無需增加 PCIe 交換器等額外硬體。

6. 低功耗設計

每個 MX3 晶片僅消耗 0.5-2.0W，而整個 4 晶片 M.2 模組的功耗不到主流 GPU 的十分之一，同時提供更高效的邊緣 AI 性能。

7. 廣泛的軟體與硬體支援

MemryX 支援多種作業系統及 x86、ARM 和 RISC-V 平台，適配廣泛的硬體環境，為開發者提供靈活性。

因此 MemryX 憑藉其創新的 MX3 解決方案，正在重新定義邊緣人工智慧的應用範疇。從高效的浮點運算能力到豐富的軟體支持，再到可擴展性和低功耗設計，MemryX 正在為邊緣計算的未來奠定堅實的基礎。其核心技術不僅解決了當前市場的諸多痛點，更為開發者和企業用戶提供了靈活、快速且可靠的 AI 部署方案。此外，MemryX 提供數種核心平台的硬體加速解決方案，將 MX3 晶片與周邊硬體整合，更能充分發揮 1+1 大於 2 的平台效能。

隨著人工智慧在零售、汽車、工業、農業和機器人等行業中的廣泛應用，MemryX 正站在邊緣運算技術的前沿，為客戶提供卓越的性能和更高的價值。在未來，MemryX 將繼續推動技術創新，成為 AI 邊緣運算領域中不可或缺的合作夥伴。藉由上述的原廠提供的工具與範例， AI 再也不是遙不可及的夢想，僅需要一步步照著範例步驟，就可以快速實現任何智慧應用。若想試用或購買 MemryX 產品的新夥伴，請直接聯繫伊布小編 ! 謝謝