【ATU Book-MemryX 系列】MemryX 推出浮點運算 AI 晶片,引領精準運算新時代

關鍵字 :MemryX NPU AI accelerator cards20TOPSM.2 PCIe Gen3

一、    概述


近年來,隨著半導體製程的進步,硬體計算能力與數據量的有著飛躍性的提升,使得 電腦視覺(Computer Vision) 領域迎來了全新的發展階段。過去,影像處理大多依賴像素級別的逐一運算,而現在,藉由 大數據(Big Data) 的支撐以及 深度學習(Deep Learning) 的成熟,AI 模型能夠從海量數據中透過固定的學習模式,快速創造出各式各樣的應用。

 

人工智慧技術的普及與邊緣運算在工業與車輛應用的雙向崛起
在人工智慧(AI)技術迅速普及的浪潮中,邊緣運算(Edge Computing) 正成為工業車輛應用的共同核心推動力。傳統雲端運算雖然擁有強大的集中處理能力,但在即時性、高數據吞吐量以及敏感數據保護的多場景需求下,逐漸暴露其短板。而邊緣運算的崛起,通過將計算能力分散至工廠現場、設備端及車輛內部,為這兩個領域提供了解決方案。


工業應用的價值 
■   降低延遲:就近處理來自感測器與設備的數據,確保生產線與工業機器人等即時反應能力。
■   減輕網絡負擔:在邊緣端完成大數據預處理,減少工廠內部和外部網絡的壓力,提升運營效率。
■   保護隱私:在邊緣完成關鍵工業數據處理,避免敏感生產數據外流,確保企業機密和用戶隱私。

 

車輛應用的價值 
■   即時決策:車載邊緣設備即時處理攝像頭、LIDAR 和雷達數據,確保自駕車的快速決策。
■   本地運算優化:降低車輛對外部網絡的依賴,並確保在網絡中斷的情況下仍然可靠執行。
■   數據隱私保障:本地化處理車輛內部數據(如駕駛行為與位置資訊),減少對雲端的依賴,保護駕駛者隱私。   

 

圖文出處 :  生成式 AI 軟體
 


隨著 2024 年生成式 AI 的爆發,創造出更多 AI 應用需求的多樣化發展,邊緣運算不僅僅是一項輔助技術,更成為現代 AI 應用的重要基石。

 

MemryX:邊緣運算與浮點計算的革新者
在邊緣運算浪潮中,MemryX  加速卡 脫穎而出,憑藉其強大的 BF16 浮點運算能力 和 全面軟體支援,成為邊緣 AI 應用的理想選擇。與傳統專注整數運算的解決方案不同,浮點運算對於需要高度精確的 AI 推理場景至關重要。MemryX 解決方案在 低功耗 ( 1W / 5 TFLOPS ) 下提供 20 TFLOPS 的卓越性能,成為物體檢測、影像辨識、肢體識別、語意分割、深度估算和自然語言處理等應用的關鍵推動力。

 

全面的軟體支援:助力開發者快速部署
MemryX 不僅硬體性能卓越,還提供豐富的軟體生態,包括 模組評估工具、API 接口、驅動程式與開發工具,幫助開發者快速整合並優化 AI 模型運行。其軟體支援涵蓋:

■   晶片模擬效能(Simulator)

■   權重精度調整(Weight Precision)

■   模型裁剪(Model Cropping)工具

■   AI DEMO GitHub 資源

■   Model Zoo 資源

■   Model eXplorer 資源

 

卓越的 AI 效能
利用 MemryX MX3 晶片來運行當下最熱門的 YOLOv8-Nano 物件偵測算法,可輕鬆達到每秒 350 張左右。

 



二、    MemryX:邊緣運算與浮點計算的革新者

 

MemryX 於 2019 年由現任密西根大學電機的盧偉博士與張正亞博士共同創立,並現由原高通(Qualcomm) 的副總裁 Keith Kressin 擔任首席執行長。其設計理念主打輕小、省電、高精準度 (浮點數運算)、可迭代算力、不佔用主平台資源等等特色,榮獲 2022 EE Aards 亞洲金選獎 - 最具潛力產品(Most Promising Product)。同時,活躍於各大社群媒體,趕快加入 linkedin 官方帳號 !! 即時發布最新的 MemryX 資訊。

 

MemryX 最新的 MX3 晶片,具有低功耗、高運算能力 ( 1W / 5 TFLOPS )、高跨平台整合性等等優勢, 其中以 16 位元的浮點運算 (BF16) 為主, 可以確保模型的準確度,並提供豐富的模組資源與整合套件,能讓用戶體驗更完善的 AI 資源整合,如下圖所示。其中 AI 晶片內部亦有高頻的記憶體的配置,用以消除高運算時所帶來的記憶體瓶頸。故須要衡量所使用的模組大小,一顆晶片大約能夠處理 10 M 參數資料量。舉例來說,A 模組為 40 M 參數量,則需要搭配 4 顆 MX3 晶片才能使用。

 

規格


 

優勢介紹
(1)    採用 浮點數(BF16) 進行計算,確保模組準確度。
(2)    不占用系統記憶體 
(3)    可擴充性 (最多可連結 16 個晶片)
(4)    最佳資料流優化,能夠最大限度地減少資料移動
(5)    模組最佳可操作性,能夠配合其他硬體加速器二次優化

 

圖文出處 :  MemryX 官網

 



軟體框架 (Software Framework)
MemryX Developer Hub 包含編譯器(Compiler) 、運行器(Runtime) 、公用工具(Utility Tools) 來驅動底下的 MemryX AI SoCs 系列。如下圖所示 :

 

圖文出處 :  MemryX 官網

 

 

▼  編譯器(Compiler)

Neural Compiler 提供數種功能,如將多模型整合 (Multi-Model)、模型剪枝(Model Cropping)、多路串流單一應用(Multiple Input Streams)、單路串流多個應用(Shared Input Stream)、混合精準度權重(Mixed-Precision Weights)、模組所耗資源顯示(Resources Utilization)。以簡單 Command Line指令方式,能夠幫助開發者快速轉換模組,將 Pytorch , Keras, Tensorflow, Tensorflow Lite , ONNX 等模型轉換至 MemryX DFP 模組格式。

 

▼  運行器(Runtime)

提供最佳化的使用者體驗,利用 Benchmark 搭配 Model Zoo 能夠幫助開發者快速評估其硬體效能與準確度。並且提供數種開源範例 DEMO (MemryX Examples) 與簡潔有力的 API 能夠幫助開發者快速實現與佈署 AI 應用

Benchmark (Python , C/C++)

Accelerator API (Python , C/C++)

 

▼  公用工具(Utility Tools)

模擬器( Simulator )    :  為 MemryX 提供的軟件,幫助沒有 MX3 晶片的開發者完成性能評估。

視覺化工具( Viewer )  :   MemryX 提供的 GUI 介面,包含上述編譯器、模擬器、加速器。

檢視器( DFP Inspect ) :  為 MemryX 提供的一套檢查 DFP 檔案的工具。

 

▼  DEMO 範例

如下 MemryX 原廠提供許多 AI 範例,一步步教導開發者如何實現 AI 應用 !

https://github.com/memryx/MemryX_eXamples/tree/release

Note : 必須注意的以下範例,皆為開源模型並非可以商業使用 ! 謝謝

 

圖文出處 :  MemryX 官網




 

三、    結語


如下列原廠發布的新聞稿提到,MemryX 是如何透過 AI 晶片來改變邊緣人工智慧應用的客戶體驗


1.     高幀率 (High FPS) 

MemryX 的資料流與記憶體運算架構適合管線操作。一張低功耗的 MemryX M.2 卡可以同時處理 10 個攝影機串流,運行一個或多個 AI 模型,特別適合如視訊管理系統等即時性要求高的應用場景。

 

2.    高模型精度與自動化編譯

MemryX 提供只需一鍵即可完成高精度 AI 模型編譯的工具。MX3 支援浮點術運算 (BF16),能確保模型的準確度與完整性,無需重新訓練模型或進行額外調整。相較於目前主流的整數模組(INT) ,MemryX 能夠讓客戶能快速部署高效且準確的 AI 應用。
 

3.    保持原始模型完整性

不同於其他解決方案需要改動模型來適配硬體,MemryX 支援直接在 MX3 上編譯與運行原始模型,並提供可選的模型修剪與壓縮功能以實現設計優化。

 

4.    自動前/後處理

MemryX 自動識別並打包 AI 模型中的前處理與後處理程式碼,幫助開發者快速整合,減少手動調整的複雜度,提升部署效率。
 

5.    卓越的可擴展性

MX3 可單晶片使用,也可多晶片結合為邏輯單元,支持從單台智能攝影機到 16 晶片邊緣伺服器的應用,所有配置共享相同的軟體和接口,無需增加 PCIe 交換器等額外硬體。
 

6.    低功耗設計

每個 MX3 晶片僅消耗 0.5-2.0W,而整個 4 晶片 M.2 模組的功耗不到主流 GPU 的十分之一,同時提供更高效的邊緣 AI 性能。
 

7.    廣泛的軟體與硬體支援

MemryX 支援多種作業系統及 x86、ARM 和 RISC-V 平台,適配廣泛的硬體環境,為開發者提供靈活性。
 

因此 MemryX 憑藉其創新的 MX3 解決方案,正在重新定義邊緣人工智慧的應用範疇。從高效的浮點運算能力到豐富的軟體支持,再到可擴展性和低功耗設計,MemryX 正在為邊緣計算的未來奠定堅實的基礎。其核心技術不僅解決了當前市場的諸多痛點,更為開發者和企業用戶提供了靈活、快速且可靠的 AI 部署方案。此外,MemryX 提供數種核心平台的硬體加速解決方案,將 MX3 晶片與周邊硬體整合,更能充分發揮 1+1 大於 2 的平台效能。

 

隨著人工智慧在零售、汽車、工業、農業和機器人等行業中的廣泛應用,MemryX 正站在邊緣運算技術的前沿,為客戶提供卓越的性能和更高的價值。在未來,MemryX 將繼續推動技術創新,成為 AI 邊緣運算領域中不可或缺的合作夥伴。藉由上述的原廠提供的工具與範例, AI 再也不是遙不可及的夢想,僅需要一步步照著範例步驟,就可以快速實現任何智慧應用。若想試用或購買 MemryX 產品的新夥伴,請直接聯繫伊布小編 ! 謝謝



四、    參考文件
 

[1] MemryX 官方網站

[2] MemryX Developer Hub 技術網站

[3] EE Awards 2022 亞洲金選獎

[4] MemryX  - linkedln 官方帳號

[5] MemryX Examples

[6] PR Newswore - MemryX Announces Production Availability of the MX3 Edge AI Accelerator

 

如有任何相關 MemryX 技術問題,歡迎至博文底下留言提問 !!

接下來還會分享更多 MemryX 的技術文章 !!敬請期待 【ATU Book-MemryX系列】 !!

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★文明上網,請理性發言。內容一周內被舉報5次,發文人進小黑屋喔~

評論