關鍵字 :AI生成式 AI生成型人工智慧邊緣人工智慧

OpenVINO 發佈說明

2025年1月 - 2025年4月9日

系統需求 | 發佈政策 | 安裝指南

有什麼新鮮事？

更多生成式 AI 相關的覆蓋範圍與框架整合，減少程式碼改動。
- 支持新模型：Phi-4 Mini、Jina CLIP v1 和 Bce Embedding Base v1。
- OpenVINO™ 模型伺服器現在支援 VLM 模型，包括 Qwen2-VL、Phi-3.5-Vision 和 InternVL2。
- OpenVINO GenAI 現已包含圖像轉圖像及修補（inpainting）功能，支援基於 Transformer 的流程，如 Flux.1 和 Stable Diffusion 3 模型，提升生成更逼真內容的能力。
- 預覽：AI遊樂場現在利用 OpenVINO GenAI 後端，實現 AI PC 上高度優化的推理效能。

支持更廣泛的 LLM模型及更多模型壓縮技術
- 經過 CPU 插件優化並移除 GEMM kernel，減少二進位檔案大小。
- GPU 插件的新核心優化大幅提升了長短期記憶（LSTM）模型的效能，這類模型廣泛應用於語音辨識、語言建模和時間序列預測。
- 預覽：OpenVINO GenAI 實現 Token Eviction，透過移除不重要的 token，降低 KV Cache 記憶體消耗。這對於生成長序列（如聊天機器人、程式碼生成）特別有幫助。
- NPU現已支援文本生成加速，可在OpenVINO™ Runtime與OpenVINO™ Model Server上部署VLM模型，適用於低並發AI PC應用。

更高的便攜性與效能，可在邊緣、雲端或本地運行 AI
- 支援最新的 Intel® Core™ 處理器（第二代，原代號 Bartlett Lake）、Intel® Core™ 3 Processor N 系列及 Intel® Processor N 系列（原代號 Twin Lake）在 Windows 上運行。
- 針對 Intel® Core™ Ultra 200H 系列處理器，在 Windows 和 Linux 上進一步優化 LLM 性能，提升第二個 token 的延遲表現。
- GPU 插件預設實現了分頁注意力（Paged Attention）和連續批次處理（Continuous Batching），提升了效能和資源利用率。
- 預覽：新的 OpenVINO backend for Executorch 將加速 Intel 硬體（CPU、GPU、NPU）上的推理效能。

OpenVINO™執行時

通用

延遲權重壓縮現已提供——壓縮後的權重不會存於記憶體中，而是即時存儲至檔案，以控制記憶體消耗。
根據前端註冊擴展功能（extension API 更新）
已加入 mmaped tensors，可從磁碟檔案讀取 ov::Tensor，幫助減少特定場景下（如使用 LoRa adapters in GenAI）的記憶體消耗。

CPU設備外掛

現已在 Intel AVX2 平台上啟用動態量化 Fully Connected 層的非對稱權重，提升 8bit/4bit 非對稱權重壓縮 LLM 的即用性能。
長提示詞的權重壓縮已優化了LLM在Intel客戶端和Xeon平台上的性能，特別是第一個token的延遲。
QKV（Query、Key、Value）投影與 MLP（多層感知器）融合的優化已擴展至支援 Windows 作業系統上的 BF16，提升 AMX 平台效能。
GEMM內核已從OpenVINO CPU庫中移除，以減少檔案大小。
FP8（f8e4m3 和 f8e5m2 的別名）模型支援已通過優化的 FakeConvert operator 得到增強，FP8 LLM 的編譯時間也有所改善。

GPU設備外掛

所有 GPU 平台的大型語言模型第二個 token 延遲已因 TLB（Translation Lookaside Buffer）場景與 Group Query Attention（GQA）優化而改善。
Intel Core Ultra 處理器系列 2 的第一個 token 延遲已因 Paged Attention 優化而提升。
所有 GPU 平台預設啟用 Int8 壓縮 KV-cache 以支援 LLM。
GPU 平台上的 VLM（視覺語言模型）性能因 XMX（Xe Matrix Extensions）得到提升。

NPU 設備外掛

支援 LLM（大型語言模型）無權重快取及 LLM blob 加密。
模型從快取匯入時，現在可以使用 ov::internal::cached_model_buffer 來降低記憶體使用量。
現已支援 NF4（4-bit NormalFloat）輸入/輸出，端到端支援取決於驅動版本。
已修正以下問題：
- 對於有狀態模型：當張量被重新定位時，會更新零級指令清單。
- 修復應用程式使用靜態 ov::Cores 時發生 zeContextDestroy 錯誤的問題。

OpenVINO Python API

現在可以直接從 Pillow 圖像建立 Tensor，無需先轉換為 NumPy 陣列。
export_model、read_model 和 compile_model 方法的記憶體消耗已經過優化。

PyTorch框架支援

現已支援 PyTorch 2.6 版本。
已實現通用轉換器，統一多個框架（PyTorch、TensorFlow、ONNX、JAX）運算的分解方式，並支援複數張量。
現已支援 FP8 模型轉換。
已啟用包含 STFT/ISTFT 運算子的 TTS（語音合成）模型轉換。

Keras 3 多後端框架支援

現已支援 Keras 3.9.0 版本。
提供更細緻的測試排除機制，方便針對每個運算單獨啟用。

TensorFlow Lite 框架支援

現已支援在執行期間於層與層之間使用量化張量的模型。

神經網路壓縮框架（Neural Network Compression Framework）

預覽支援結合 LoRA 適配器的量化感知訓練（QAT），可在 PyTorch 中對 LLM 進行更精確的 4-bit 權重量化壓縮。nncf.compress_weight API 新增 compression_format 參數，支援 CompressionFormat.FQ_LORA，適用於此 QAT 方法。範例詳見官方說明。
為 PyTorch 後端新增「激活感知權重量化」和「縮放估算數據感知 4-bit 壓縮」方法。現在可直接對 PyTorch 模型進行 LLM 壓縮，加速流程。
減少 GPTQ（生成式預訓練轉換器量化）壓縮所需的時間與峰值記憶體用量。
降低無數據混合精度權重壓縮的壓縮時間與峰值記憶體用量。
為 PyTorch 模型引入了基於 TorchFunctionMode 的新追蹤方式，適用於 nncf.quantize 和 nncf.compress_weights，無需修改 torch 命名空間。預設為關閉，可透過環境變數 "NNCF_EXPERIMENTAL_TORCH_TRACING=1" 啟用。
TorchFX 後端多項改進，符合 Torch AO（自動優化）指引：
- OpenVINO 量化器與 quantize_pt2e 函數移除了常數折疊（constant folding）流程。
- 支援動態形狀的 TorchFX 模型。
NNCF 中的 quantize_pt2e 開始支援自訂量化器：
- 硬體配置參數已泛化，新增 narrow_range 參數。
- 量化器參數計算程式碼已重構，明確依賴narrow_range。
預覽支援在 ExecuTorch 中使用 OpenVINO 後端，模型量化可透過 nncf.experimental.torch.fx.quantize_pt2e 函數實現。
現已支援 PyTorch 2.6 版本。

OpenVINO.GenAI

本次新增的內容如下：
- 預覽支援 Token Eviction 機制，在文本生成過程中更高效地管理 LLM 的 KVCache 記憶體。預設為關閉，範例請參考官方說明。
- 新增 LLMPipeline 的 C 語言綁定與 JavaScript 綁定。
- StreamerBase 類新增了 write(int64_t token) 和 write(const std::vector<int64_t>& tokens) 方法。
- VLMPipeline 現已支援 Phi-3-vision-128k-instruct 和 Phi-3.5-vision-instruct。
- 新增支援 FLUX 和 Stable-Diffusion-3 的圖像轉圖像（Image2image）與修補（inpainting）流程。
LLMPipeline 預設改為使用 Paged Attention 後端。
串流（Streaming）現在將在獨立執行緒中進行，同時 LLM 推理下一個 token。
即使關閉聊天模式，仍然會套用聊天模板。可以透過 GenerationConfig 的 apply_chat_template 參數停用聊天模板。
執行時間較長的方法現在會釋放全域解釋器鎖（GIL）。

已知問題

元件：NPU

ID：無

描述：
當 LLM 執行時，如果提示詞長度超過 MAX_PROMPT_LEN 參數設定，會發生異常，並顯示原因說明。目前版本的 OpenVINO 所顯示的資訊不正確，未來版本將修正說明內容。

元件：NPU

ID：164469
描述：隨著 NPU Linux 驅動程式 v1.13.0 發佈，內核中的 NPU 恢復機制有了新的行為。對應的 Ubuntu 內核更改尚在進行中，預計將在新版內核發佈時完成。
解決方法：如果 NPU 推理時發生崩潰，建議手動重新載入驅動程式（執行 sudo rmmod intel_vpu 和 sudo modprobe intel_vpu）。或者可以回退到較舊版本的 Linux NPU 驅動程式。

元件：GPU

ID：164331
描述：在某些 Intel 平台上，Qwen2-VL 模型在處理大尺寸輸入時會崩潰。
解決方法：從原始碼自行編譯 OpenVINO GenAI。

元件：OpenVINO GenAI

ID：165686
描述：在 VLM ContinuousBatching 流程中，如果在多執行緒環境下使用 add_request() 和 step() API 處理多個請求，生成的文字結果可能會不正確。
解決方法：從原始碼自行編譯 OpenVINO GenAI。

其他更詳細資訊，請參考https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-1.html

★博文內容參考自網站，與平台無關，如有違法或侵權，請與網站管理員聯繫。

★博文作者未開放評論功能

參考來源

Intel OpenVINO : https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-1.html