OpenVINO™ 2025.1 發佈摘要

關鍵字 :AI生成式 AI生成型人工智慧邊緣人工智慧

OpenVINO 發佈說明

2025年1月 - 2025年4月9日

系統需求 | 發佈政策 | 安裝指南

 

有什麼新鮮事?

 

  • 更多生成式 AI 相關的覆蓋範圍與框架整合,減少程式碼改動。

    • 支持新模型:Phi-4 Mini、Jina CLIP v1 和 Bce Embedding Base v1。

    • OpenVINO™ 模型伺服器現在支援 VLM 模型,包括 Qwen2-VL、Phi-3.5-Vision 和 InternVL2。

    • OpenVINO GenAI 現已包含圖像轉圖像及修補(inpainting)功能,支援基於 Transformer 的流程,如 Flux.1 和 Stable Diffusion 3 模型,提升生成更逼真內容的能力。

    • 預覽:AI遊樂場現在利用 OpenVINO GenAI 後端,實現 AI PC 上高度優化的推理效能。

 

  • 支持更廣泛的 LLM模型及更多模型壓縮技術

    • 經過 CPU 插件優化並移除 GEMM kernel,減少二進位檔案大小。

    • GPU 插件的新核心優化大幅提升了長短期記憶(LSTM)模型的效能,這類模型廣泛應用於語音辨識、語言建模和時間序列預測。

    • 預覽:OpenVINO GenAI 實現 Token Eviction,透過移除不重要的 token,降低 KV Cache 記憶體消耗。這對於生成長序列(如聊天機器人、程式碼生成)特別有幫助。

    • NPU現已支援文本生成加速,可在OpenVINO™ Runtime與OpenVINO™ Model Server上部署VLM模型,適用於低並發AI PC應用。

 

  • 更高的便攜性與效能,可在邊緣、雲端或本地運行 AI

    • 支援最新的 Intel® Core™ 處理器(第二代,原代號 Bartlett Lake)、Intel® Core™ 3 Processor N 系列及 Intel® Processor N 系列(原代號 Twin Lake)在 Windows 上運行。

    • 針對 Intel® Core™ Ultra 200H 系列處理器,在 Windows 和 Linux 上進一步優化 LLM 性能,提升第二個 token 的延遲表現。

    • GPU 插件預設實現了分頁注意力(Paged Attention)和連續批次處理(Continuous Batching),提升了效能和資源利用率。

    • 預覽:新的 OpenVINO backend for Executorch 將加速 Intel 硬體(CPU、GPU、NPU)上的推理效能。

 

OpenVINO™執行時

 

通用

  • 延遲權重壓縮現已提供——壓縮後的權重不會存於記憶體中,而是即時存儲至檔案,以控制記憶體消耗。

  • 根據前端註冊擴展功能(extension API 更新)

  • 已加入 mmaped tensors,可從磁碟檔案讀取 ov::Tensor,幫助減少特定場景下(如使用 LoRa adapters in GenAI)的記憶體消耗。

 

CPU設備外掛

  • 現已在 Intel AVX2 平台上啟用動態量化 Fully Connected 層的非對稱權重,提升 8bit/4bit 非對稱權重壓縮 LLM 的即用性能。

  • 長提示詞的權重壓縮已優化了LLM在Intel客戶端和Xeon平台上的性能,特別是第一個token的延遲。

  • QKV(Query、Key、Value)投影與 MLP(多層感知器)融合的優化已擴展至支援 Windows 作業系統上的 BF16,提升 AMX 平台效能。

  • GEMM內核已從OpenVINO CPU庫中移除,以減少檔案大小。

  • FP8(f8e4m3 和 f8e5m2 的別名)模型支援已通過優化的 FakeConvert operator 得到增強,FP8 LLM 的編譯時間也有所改善。

 

GPU設備外掛

  • 所有 GPU 平台的大型語言模型第二個 token 延遲已因 TLB(Translation Lookaside Buffer)場景與 Group Query Attention(GQA)優化而改善。

  • Intel Core Ultra 處理器系列 2 的第一個 token 延遲已因 Paged Attention 優化而提升。

  • 所有 GPU 平台預設啟用 Int8 壓縮 KV-cache 以支援 LLM。

  • GPU 平台上的 VLM(視覺語言模型)性能因 XMX(Xe Matrix Extensions)得到提升。

 

NPU 設備外掛

  • 支援 LLM(大型語言模型)無權重快取及 LLM blob 加密。

  • 模型從快取匯入時,現在可以使用 ov::internal::cached_model_buffer 來降低記憶體使用量。

  • 現已支援 NF4(4-bit NormalFloat)輸入/輸出,端到端支援取決於驅動版本。

  • 已修正以下問題:

    • 對於有狀態模型:當張量被重新定位時,會更新零級指令清單。

    • 修復應用程式使用靜態 ov::Cores 時發生 zeContextDestroy 錯誤的問題。

 

OpenVINO Python API

  • 現在可以直接從 Pillow 圖像建立 Tensor,無需先轉換為 NumPy 陣列。
  • export_model、read_model 和 compile_model 方法的記憶體消耗已經過優化。

 

PyTorch框架支援

  • 現已支援 PyTorch 2.6 版本。
  • 已實現通用轉換器,統一多個框架(PyTorch、TensorFlow、ONNX、JAX)運算的分解方式,並支援複數張量。
  • 現已支援 FP8 模型轉換。
  • 已啟用包含 STFT/ISTFT 運算子的 TTS(語音合成)模型轉換。

 

Keras 3 多後端框架支援

  • 現已支援 Keras 3.9.0 版本。
  • 提供更細緻的測試排除機制,方便針對每個運算單獨啟用。

 

TensorFlow Lite 框架支援

  • 現已支援在執行期間於層與層之間使用量化張量的模型。

 

神經網路壓縮框架(Neural Network Compression Framework)

  • 預覽支援結合 LoRA 適配器的量化感知訓練(QAT),可在 PyTorch 中對 LLM 進行更精確的 4-bit 權重量化壓縮。nncf.compress_weight API 新增 compression_format 參數,支援 CompressionFormat.FQ_LORA,適用於此 QAT 方法。範例詳見官方說明。

  • 為 PyTorch 後端新增「激活感知權重量化」和「縮放估算數據感知 4-bit 壓縮」方法。現在可直接對 PyTorch 模型進行 LLM 壓縮,加速流程。

  • 減少 GPTQ(生成式預訓練轉換器量化)壓縮所需的時間與峰值記憶體用量。

  • 降低無數據混合精度權重壓縮的壓縮時間與峰值記憶體用量。

  • 為 PyTorch 模型引入了基於 TorchFunctionMode 的新追蹤方式,適用於 nncf.quantize 和 nncf.compress_weights,無需修改 torch 命名空間。預設為關閉,可透過環境變數 "NNCF_EXPERIMENTAL_TORCH_TRACING=1" 啟用。

  • TorchFX 後端多項改進,符合 Torch AO(自動優化)指引:

    • OpenVINO 量化器與 quantize_pt2e 函數移除了常數折疊(constant folding)流程。

    • 支援動態形狀的 TorchFX 模型。

  • NNCF 中的 quantize_pt2e 開始支援自訂量化器:

    • 硬體配置參數已泛化,新增 narrow_range 參數。

    • 量化器參數計算程式碼已重構,明確依賴narrow_range。

  • 預覽支援在 ExecuTorch 中使用 OpenVINO 後端,模型量化可透過 nncf.experimental.torch.fx.quantize_pt2e 函數實現。

  • 現已支援 PyTorch 2.6 版本。

 

OpenVINO.GenAI

  • 本次新增的內容如下:

    • 預覽支援 Token Eviction 機制,在文本生成過程中更高效地管理 LLM 的 KVCache 記憶體。預設為關閉,範例請參考官方說明。

    • 新增 LLMPipeline 的 C 語言綁定與 JavaScript 綁定。

    • StreamerBase 類新增了 write(int64_t token) 和 write(const std::vector<int64_t>& tokens) 方法。

    • VLMPipeline 現已支援 Phi-3-vision-128k-instruct 和 Phi-3.5-vision-instruct。

    • 新增支援 FLUX 和 Stable-Diffusion-3 的圖像轉圖像(Image2image)與修補(inpainting)流程。

  • LLMPipeline 預設改為使用 Paged Attention 後端。

  • 串流(Streaming)現在將在獨立執行緒中進行,同時 LLM 推理下一個 token。

  • 即使關閉聊天模式,仍然會套用聊天模板。可以透過 GenerationConfig 的 apply_chat_template 參數停用聊天模板。

  • 執行時間較長的方法現在會釋放全域解釋器鎖(GIL)。


已知問題

元件:NPU

ID:無

描述:
當 LLM 執行時,如果提示詞長度超過 MAX_PROMPT_LEN 參數設定,會發生異常,並顯示原因說明。目前版本的 OpenVINO 所顯示的資訊不正確,未來版本將修正說明內容。

 

元件:NPU

  • ID:164469
  • 描述:隨著 NPU Linux 驅動程式 v1.13.0 發佈,內核中的 NPU 恢復機制有了新的行為。對應的 Ubuntu 內核更改尚在進行中,預計將在新版內核發佈時完成。
  • 解決方法:如果 NPU 推理時發生崩潰,建議手動重新載入驅動程式(執行 sudo rmmod intel_vpu 和 sudo modprobe intel_vpu)。或者可以回退到較舊版本的 Linux NPU 驅動程式。

 

元件:GPU

  • ID:164331
  • 描述:在某些 Intel 平台上,Qwen2-VL 模型在處理大尺寸輸入時會崩潰。
  • 解決方法:從原始碼自行編譯 OpenVINO GenAI。

 

元件:OpenVINO GenAI

  • ID:165686
  • 描述:在 VLM ContinuousBatching 流程中,如果在多執行緒環境下使用 add_request() 和 step() API 處理多個請求,生成的文字結果可能會不正確。
  • 解決方法:從原始碼自行編譯 OpenVINO GenAI。

 

其他更詳細資訊,請參考https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-1.html

★博文內容參考自 網站,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★博文作者未開放評論功能

參考來源

Intel OpenVINO : https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-1.html