一、概述
在當前科技迅速發展的環境中,人工智慧(AI)技術日益普及,邊緣運算 (Edge Computing)也隨之成為 AI 應用的核心支柱。傳統雲端運算雖然具備強大的集中處理能力,但在大量數據傳輸和即時回應的需求下,延遲與頻寬的瓶頸逐漸顯現。因此,邊緣運算的概念應運而生,透過將部分運算分配到數據生成端的應用,不僅顯著降低延遲,還有效減輕網路負擔。提升了應用的即時性與隱私性。
在這波邊緣計算浪潮中,MemryX 加速卡以其卓越的浮點計算能力 (BF16) 及全面的軟體服務,成為 AI 邊緣計算中獨樹一幟的存在。過去傳統的邊緣計算多集中於整數運算,但在實際應用中,仍有某些任務需要高度精確度,因此浮點運算的智慧晶片將成為物體檢測、影像識別和自然語言處理等邊緣應用的理想選擇。MemryX 在 2024 年提出了一套新的加速卡解決方案,能夠在低功耗(5 TFLOPS/W)的情況下提供卓越的 AI 計算性能(20 TFLOPS)。,逐漸成為邊緣智能應用的關鍵推動者。
除了硬體性能,MemryX 還提供豐富的軟體服務是一大亮點。其軟體支援包括各模組評估、API 接口、驅動程式和多種開發工具,方便開發者快速整合並靈活調整 AI 運算需求。MemryX 的軟體支援涵蓋了從 MX3+ 晶片模擬性能(Simulator)、權重精度調整(Weight Precision)、模型裁剪(Model Cropping)工具以及...模型庫資源,能夠幫助 MX3+ 運行性能達到最佳狀態。
未來,MemryX 不僅在現有系統升級中扮演重要角色,還將成為邊緣運算與 AI 深度整合的核心引擎。其強大的浮點運算能力與全面的軟體服務,為用戶提供即插即用的 AI 解決方案,開創邊緣智慧新時代。
本章節將向使用者介紹如何安裝 MemryX 以及Python 的範例程式應用。
二、快速搭建 MemryX
(1) 硬體架構
將 MemryX MX3+ 2280 尺寸模組連接到 Orange Pi 的 M.2 插槽,並連接散熱片、螢幕、攝影機(USB Camera)、滑鼠、鍵盤、網路線。
(2)下載 Orange Pi 5 Plus 預建映像檔 (Ubuntu)
請至官方網站下載預建映像檔
下載 Orangepi5plus_1.0.8_ubuntu_focal_desktop_xfce_linux5.10.160.7z 並將其解壓縮
Ubuntu 適用版本:18.04 (Bionic Beaver)、20.04 (Focal Fossa)、22.04 (Jammy Jellyfish)
Linux 核心版本:5.10.x ~ 6.1.x
(3) 將 Ubuntu 系統燒錄至 SD 卡
請將 SD 卡(建議準備 16GB 以上的容量)插入到電腦端,並使用 Rufus 進行燒錄。
(4) 進入 Ubuntu 系統並連接網路
燒錄完成後,請將 SD 卡插入 Orange Pi 5 Plus。即可接上電源進入系統,並連接網路。
(5) 安裝 kernel-header 標頭檔案
$ sudo apt install linux-headers-$(uname -r)
(6)安裝 MemryX SDK 套件
▲ 添加 GPG 金鑰
$ wget -qO- https://developer.memryx.com/deb/memryx.asc | sudo tee /etc/apt/trusted.gpg.d/memryx.asc >/dev/null
▲ 將軟體添加至 APT 清單
$ echo 'deb https://developer.memryx.com/deb stable main' | sudo tee /etc/apt/sources.list.d/memryx.list >/dev/null
▲ 安裝 MemryX MX3+ NPU 驅動程式
$ sudo apt update
$ sudo apt install memx-drivers
▲ 安裝 MemryX MX3+ 運行時環境 (C/C++)
$ sudo apt install memx-accl
▲ 安裝 MemryX SDK 套件(Python)
安裝必要的套件
$ sudo apt install python3.12-venv
(2)建立虛擬環境
$ python3 -m venv ~/mx
(3) 啟動虛擬環境
$ . ~/mx/bin/activate
(4) 將必要的套件安裝到虛擬環境中
$ sudo apt install python3-pip
$ pip3 install --upgrade pip wheel
$ sudo apt install libhdf5-dev python3-dev cmake python3-venv
$ sudo apt install python3-pip
$ sudo apt install python3-numpy
$ sudo apt install python3-opencv
$ sudo apt install python3-matplotlib
$ pip install opencv-python
(5) 安裝 MemryX MX3+ 執行時環境 (Python)
$ pip3 install --extra-index-url https://developer.memryx.com/pip memryx
(6) 驗證環境
透過以下指令確認版本是否正確。
$ mx_nc –version
以下指令用於確認晶片狀態。
$ mx_bench –hello
三、DEMO 實作展示 (Python)
請前往官網連結到 Tutorials 進行 DEMO 教學示範,並請連接一個 USB 攝影機進行展示。切記,記得進入 Python 的虛擬環境中。
(1) 深度估算
深度估計(Depth Estimation)展示了利用彩色影像圖片來生成具有距離意義的深度圖。
●下載depth_estimate.py和midas_v2_small.dfp放入資料夾。
●建立資料夾並複製檔案
$ mkdir DepthEstimation_Python && cd DepthEstimation_Python
●跑
$ python3 depth_estimate.py
每秒運行約 29 幀,CPU 使用率約 200.3%,記憶體使用率約 0.1%(0.25 GB)
(2)姿態估計(YOLOv8)
肢體估計 (Pose Estimation) - YOLOv8是目前最熱門的DNN演算法,於2023年提出Ultralytics被設計用於計算人體肢體的節點位置與相關性。
●下載並解壓縮Pose_Estimation_Python.zip
$ unzip Pose_Estimaton_Python.zip
●跑
$ cd Pose_Estimaton_Python
$ python3 app.py
每秒執行約 30 幀,CPU 使用率約 260.0%,記憶體使用率約 5.2%(0.83 GB)
(3)目標檢測 (YOLOv7t)
物體檢測(Object Detection)- YOLOv7 Tiny 是目前最熱門的 DNN 演算法,於 2022 年提出PDF被設計用於計算各種物體的位置與相關性。
●下載並解壓縮object_detection_multistream_python_on_mx3.zip
$ unzip object_detection_multistream_python_on_mx3.zip
●跑
$ cd object_detection_multistream_python_on_mx3
$ python3 app.py
每秒執行約 29.8 幀,CPU 使用率約 198.2%,記憶體使用率約 4.7%(0.83GB)
注意:若出現 ImportError: cannot import name 'Simulator' from 'memryx' 的問題,請至 yolov7.py 移除 from memryx import Benchmark,Simulator
(4)目標檢測(YOLOv8S)
物件偵測 (Object Detection) - YOLOv8 是目前最熱門的 DNN 演算法,於 2023 年提出Ultralytics被設計用於計算各種物體的位置與相關性。
●下載並解壓 yolov8_物件偵測_python.zip
$ unzip yolov8_object_detection_python.zip
●跑
$ cd yolov8_object_detection_python
$ python3 app.py
每秒運行約 30 幀,CPU 使用率約 192.4%,記憶體使用率約 5.2%(0.83GB)
(5)人臉偵測與情感分類
臉部與表情檢測(Face Detect & Emotion Classification)是透過Mobilenet演算法計算各種臉部表情之間的相關性,從而實現各種表情的分類。
●下載multimodel_python.tar.xz和models.dfp放入資料夾。
$ tar -xvf multimodel_python.tar.xz --xz
●將模型重新命名為 face_det_emotion_recog.dfp
$ mv models.dfp multimodel_python/face_det_emotion_recog.dfp
●跑
$ python3 app.py
每秒運行約 30 幀,CPU 使用率約 200%,記憶體使用率約 0.1%(0.25 GB)
四、結語
MemryX MX3+ AI 加速卡提供高效能、低功耗且靈活的 AI 邊緣運算解決方案特別適用於物體偵測、視覺分析以及即時監控等應用場景。透過浮點數運算(BF16)及內建10MB SRAM記憶體,能夠在不占用主系統記憶體資源的前提下,確保運算精度,並提升AI模型的效能與擴展性。
在 Python DEMO 測試中,單顆攝像頭的物體檢測僅需占用兩顆 CPU 處理影片,而系統記憶體使用量僅為 5%,顯示出 MemryX 晶片的高效運算與極低資源占用特性。如果研究深入一些,MemryX 提供強大的開發工具,開發者可以靈活切割 AI 模組的前後處理,甚至能將影像前處理交由 ISP(影像訊號處理器)或 DSP(數位訊號處理器)處理,從而進一步優化運算效率。Python 固然方便,但相比於 C++,效能略有些許差異!
MemryX MX3+ 的核心優勢
● 高幀率運算:單張低功耗 M.2 卡可同時處理 10 路攝影機畫面,支援多 AI 模型並行運行。
● 高精度與自動編譯:一鍵完成 BF16 浮點模型編譯,確保 AI 準確度,無需額外調整或重新訓練。
● 原始模型保持完整:無需修改 AI 模型即可直接部署,並可選擇模型剪枝與壓縮來優化設計。
● 自動化前/後處理:自動識別並整合前後處理程式碼,減少開發與除錯時間,提高部署效率。
● 優異的可擴展性:可單晶片運行,也可16晶片組合為邏輯單元,無需額外的PCIe交換器。
● 低功耗設計:單顆 MX3 晶片僅消耗 0.5W ~ 2.0W,4 晶片模組的功耗低於主流 GPU 的 1/10。
● 廣泛的硬體與軟體支援:相容於 x86、ARM、RISC-V 平台及多種作業系統,開發靈活性極高。
隨著人工智慧在零售、汽車、工業、農業和機器人等行業中的廣泛應用,MemryX 正站在邊緣運算技術的前沿,為客戶提供卓越的效能和更高的價值。在未來,MemryX 將繼續推動技術創新,成為AI 邊緣運算領域中不可或缺的合作夥伴透過上述原廠提供的工具與範例,AI 不再是遙不可及的夢想,只需一步步按照範例步驟操作,就可以快速實現任何智慧應用。若想試用或購買 MemryX 產品的新夥伴,請直接聯繫伊布小編!謝謝
五、參考文件
[1]MemryX 官方網站
[5]MemryX_範例
如有任何相關MemryX技術問題,歡迎在文章底下留言提問!!
接下來還會分享更多MemryX的技術文章 !!敬請期待【ATU Book-MemryX系列】!!
評論