資訊革命的浪潮正快速推進!隨著科技日新月異的發展,人工智慧(AI)的應用已悄然融入人們的日常生活,無論是 Google 的搜尋引擎、Facebook 的推薦系統,還是電商平台的銷售排行,AI 技術正潛移默化地改變著我們的生活方式。這些科技成果的普及,使得低成本、高效能的解決方案成為當下的關鍵需求。
同時,視覺相關的 AI 應用正在改變著我們的世界,無論是在車用、工業還是醫療領域,都展示出其無可取代的價值。未來,隨著視覺 AI 技術的進一步發展,更多的創新應用將逐步落地,徹底重塑我們的日常生活與工作方式。應用於以下領域:
◆ 智能監控:可實現即時目標檢測、行為分析及入侵預警,為智慧城市的安全提供保障。
◆ 智慧零售: 藉由顧客行為分析與智能貨架管理,優化購物體驗並提升銷售效率。
◆ 醫療影像分析:協助醫生進行精準診斷,例如腫瘤檢測分析來提升醫療效率與準確性。
◆ 工業質檢: 利用視覺 AI 快速識別產品瑕疵,確保生產品質,提高生產效率。
◆ 自動駕駛: 車載 AI 能夠通過視覺處理分析道路環境、行人和障礙物,實現即時決策,提升駕駛安全性。
其中,邊緣運算(Edge Computing) 將是掀起這項技術的關鍵指標。隨著 神經運算處理晶片(Neural Processing Unit, NPU) 的誕生,運算效能實現了指數級的飛躍,讓機器學習與人工智慧應用得以廣泛實現於移動設備、感測器等多種硬體中,將智慧計算更貼近人們的日常生活。因此 MemryX 推出 MX3 AI 晶片能夠提供每瓦 5 TOPS 的算力效能,並且支持 浮點數(Brain Floating Point) 運算來確保用戶的模組準確度。每顆晶片內建 10.5 MB 的靜態隨機存取記憶體(SRAM) 用以存取模組,不會占用主系統的資源。且能夠最多串聯 16 顆晶片來擴充性能。
圖1 MemryX AI晶片規格示意圖
2024 年,MemryX 重磅推出外掛式 MemryX MX3 AI 推理加速卡,採用 PCIe Gen3 M.2 M-Key 介面,具備高達 20 TOPS 的卓越運算效能,為各類工業電腦帶來 隨插即用 的便捷體驗。該解決方案以「平台升級,迎接 AI 智能時代」為設計理念,助力企業與開發者輕鬆邁向人工智慧領域。本方案特別結合了 Orange Pi 5 Plus (Rockchip RK3588) 與 MemryX AI 加速卡,構建出一套高性價比的智慧解決方案。憑藉 MemryX 提供的豐富軟體資源及對主流深度學習框架 (如 TensorFlow、PyTorch、ONNX) 的支持,即便是新手也能快速上手,輕鬆部署 AI 模型,實現智能應用開發。
圖2 基於 MemryX AI 加速卡結合 Rockchip RK3588 多路物件檢測解決方案優勢示意圖
憑藉 MemryX 的強力運算能力,能夠輕鬆地實現 多路(Multi-Streamer) 的 物件偵測(Object Detection) 應用。僅須要利用一般的 USB 攝像頭或透過網路來源串聯,即可適用於市面上常見的停車場管理系統、智慧停車柱、智慧交通監控、商場人流檢測、居家無死角意外檢測等等應用。現在就加入我們,體驗人工智能的無限魅力!讓 AI 助力您的創新,開創屬於您的智能應用時代!
圖3 多路物件檢測解決方案應用示意圖
搭配 MemryX 所建置的開發環境 Developer Hub,開發者能夠簡單且快速地上手將 TensorFlow Lite、ONNX、Pytorch、Keras 等熱門深度學習框架之模組,轉換為 MemryX MX3+ 晶片所需的 dfp 框架。並透過原廠豐富的範例應用與公共工具,即可一步步實現 AI 應用。
圖4 MemryX 開發環境示意圖
▼ 編譯器(Compiler)
Neural Compiler 提供數種功能,如將多模型整合(Multi-Model)、模型剪枝(Model Cropping)、多路串流單一應用(Multiple Input Streams)、單路串流多個應用(Shared Input Stream)、混合精準度權重(Mixed-Precision Weights)、模組所耗資源顯示(Resources Utilization)。以簡單 Command Line指令方式,能夠幫助開發者快速轉換模組,將 Pytorch , Keras, Tensorflow, Tensorflow Lite , ONNX 等模型轉換至 MemryX DFP 模組格式。
▼ 運行器(Runtime)
提供最佳化的使用者體驗,利用 Benchmark 搭配 Model Zoo 能夠幫助開發者快速評估其硬體效能與準確度。並且提供數種開源範例 DEMO (MemryX Examples) 與簡潔有力的 API 能夠幫助開發者快速實現與佈署 AI 應用。
Accelerator API (Python , C/C++)
▼ 公用工具(Utility Tools)
模擬器 (Simulator) : 為 MemryX 提供一套軟體用以解決手邊沒有 MX3 晶片的開發者的性能評估。
視覺化工具 (Viewer) : 為 MemryX 提供的 GUI 介面,包含上述編譯器、模擬器、加速器。
檢視器 (DFP Inspect) : 為 MemryX 提供的一套檢查 DFP 檔案的工具。
如下圖所示,展示了更多實際的應用,如物件偵測、語意分割、車輛識別、深度估算、肢體識別、虛擬畫筆、人臉識別、車牌辨識、表情偵測、圍籬警示等。都可藉由你的想像力與創造力,開發出更具潛在力的殺手應用!! 這裡,亦提供實際應用數據,而多數應用皆可輕鬆達到每秒 30 張以上的推理速度 !! 並主打 浮點數運算(BF16) 確保模組的準確度 !! 潛力無限 !!
圖5 MemryX 實際應用示意圖
圖6 MemryX M3+ 晶片性能數據表
參考網站 :
MemryX官網 : https://memryx.com/
MemryX 開發網站 : https://developer.memryx.com/
MemryX 銷售網站 : https://eshop.wpgam.com/mx3-2280-m-4
Orange Pi 5 Plus網站 : http://www.orangepi.org/html/hardWare/computerAndMicrocontrollers/details/Orange-Pi-5-plus.html
►場景應用圖

►展示板照片

►方案方塊圖

►核心技術優勢
◆ 採用浮點數 BF16 進行計算,確保模組準確度: 模組設計以 BF16 (Brain Floating Point 16) 為基礎進行運算,相較於傳統的浮點數格式,BF16 能夠在大幅減少記憶體使用量的同時,仍然提供接近 FP32 的計算準確度。這使其特別適合用於人工智慧和深度學習模型的推論與訓練場景,確保結果的精確性。 ◆ 不占用系統記憶體: 模組運行時採用了獨立記憶體的架構,無需占用主系統的 RAM 資源,有效降低對系統整體性能的影響。這種設計特性確保模組在高效運作的同時,仍然能為其他應用程式預留足夠的系統資源。 ◆ 高度可擴充性: 支援連接多達 16 個模組,透過模組化設計實現高擴展性。這使得系統能夠根據需求靈活擴展運算能力,以應對不同場景的計算需求,例如需要更高效能的資料中心或邊緣運算。 ◆ 最佳資料流優化,最大限度減少資料移動: 模組內部針對資料流進行了高度優化設計,透過智能路由和緩存機制,能夠最大程度地減少資料在運行過程中的移動頻率,進而提升處理效能並降低延遲。此外,這樣的設計也有助於降低能耗,進一步增強系統的運行效率。 ◆ 高性價比與低耗電解決方案: 將主平台 Orange Pi 5 Plus 搭配 MemryX MX+ 的 AI 晶片,即可無痛升級為更高階的 AI 平台每秒能夠運行約 480 禎 (YOLOv8) 的物件偵測 ; 且 MX3+ 擁有 5 TOPS/W 的效能表現,整套多路物件偵測解決方案僅耗電約 14 W 。 ◆ 多路應用的新概念: 相較於近年興起的邊緣運算,將其概套上區域性的概念,或許是一個新穎且能夠大幅度成本解決方案。利用輕鬆易取得鏡頭,再搭配一台智能工業主機,即可實現許多應用。且能夠對前端的鏡頭任意更換與配置。
►方案規格
◆ 主平台開發板採用 RockChip RK3588平台為基礎,搭載四顆 Cortex-A76處理器與 4顆Cortex-A55處理器,並提供高性能圖像處理器 Arm Mali-G610 與神經運算處理器 NPU等強大核心架構。 ◆ I/O Board 開發板提供強大的周邊配置,如 Gigabit Ethernet 乙太網路、USB Type A/C 3.0 通用序列匯流排接口、HDMI 高畫質多媒體介面、M.2 E-Key傳輸介面、M.2 M-Key傳輸介面、並能夠透過延伸的 40 pin 針腳來模擬常用的 UART 、I2C、SPI、CAN 等訊號。 ◆ MemryX MX3+ 晶片提供強大的 AI 運算能力 (20 TOPS),以 PCIe Gen3 M.2 2280 M-Key 接口為主,其 M.2 加速卡搭載四顆 MX3+ 晶片,每顆晶片能夠提供 5 TOPS/W 的效能,並內建 10.5 MB 的靜態隨機存取記憶體用以存取模組。支援 Linux 與 Windows 兩大作業系統,並提供豐富的軟體資源供開發者使用,能夠直接移植 Tensorflow , ONNX, Pytorch , Keras 等熱門的深度學習框架。