OpenVINO 發佈說明
2025年1月 - 2025年4月9日
系統需求 | 發佈政策 | 安裝指南
有什麼新鮮事?
更多生成式 AI 相關的覆蓋範圍與框架整合,減少程式碼改動。
支持新模型:Phi-4 Mini、Jina CLIP v1 和 Bce Embedding Base v1。
OpenVINO™ 模型伺服器現在支援 VLM 模型,包括 Qwen2-VL、Phi-3.5-Vision 和 InternVL2。
OpenVINO GenAI 現已包含圖像轉圖像及修補(inpainting)功能,支援基於 Transformer 的流程,如 Flux.1 和 Stable Diffusion 3 模型,提升生成更逼真內容的能力。
預覽:AI遊樂場現在利用 OpenVINO GenAI 後端,實現 AI PC 上高度優化的推理效能。
支持更廣泛的 LLM模型及更多模型壓縮技術
經過 CPU 插件優化並移除 GEMM kernel,減少二進位檔案大小。
GPU 插件的新核心優化大幅提升了長短期記憶(LSTM)模型的效能,這類模型廣泛應用於語音辨識、語言建模和時間序列預測。
預覽:OpenVINO GenAI 實現 Token Eviction,透過移除不重要的 token,降低 KV Cache 記憶體消耗。這對於生成長序列(如聊天機器人、程式碼生成)特別有幫助。
NPU現已支援文本生成加速,可在OpenVINO™ Runtime與OpenVINO™ Model Server上部署VLM模型,適用於低並發AI PC應用。
更高的便攜性與效能,可在邊緣、雲端或本地運行 AI
支援最新的 Intel® Core™ 處理器(第二代,原代號 Bartlett Lake)、Intel® Core™ 3 Processor N 系列及 Intel® Processor N 系列(原代號 Twin Lake)在 Windows 上運行。
針對 Intel® Core™ Ultra 200H 系列處理器,在 Windows 和 Linux 上進一步優化 LLM 性能,提升第二個 token 的延遲表現。
GPU 插件預設實現了分頁注意力(Paged Attention)和連續批次處理(Continuous Batching),提升了效能和資源利用率。
預覽:新的 OpenVINO backend for Executorch 將加速 Intel 硬體(CPU、GPU、NPU)上的推理效能。
OpenVINO™執行時
通用
延遲權重壓縮現已提供——壓縮後的權重不會存於記憶體中,而是即時存儲至檔案,以控制記憶體消耗。
根據前端註冊擴展功能(extension API 更新)
已加入 mmaped tensors,可從磁碟檔案讀取 ov::Tensor,幫助減少特定場景下(如使用 LoRa adapters in GenAI)的記憶體消耗。
CPU設備外掛
現已在 Intel AVX2 平台上啟用動態量化 Fully Connected 層的非對稱權重,提升 8bit/4bit 非對稱權重壓縮 LLM 的即用性能。
長提示詞的權重壓縮已優化了LLM在Intel客戶端和Xeon平台上的性能,特別是第一個token的延遲。
QKV(Query、Key、Value)投影與 MLP(多層感知器)融合的優化已擴展至支援 Windows 作業系統上的 BF16,提升 AMX 平台效能。
GEMM內核已從OpenVINO CPU庫中移除,以減少檔案大小。
FP8(f8e4m3 和 f8e5m2 的別名)模型支援已通過優化的 FakeConvert operator 得到增強,FP8 LLM 的編譯時間也有所改善。
GPU設備外掛
所有 GPU 平台的大型語言模型第二個 token 延遲已因 TLB(Translation Lookaside Buffer)場景與 Group Query Attention(GQA)優化而改善。
Intel Core Ultra 處理器系列 2 的第一個 token 延遲已因 Paged Attention 優化而提升。
所有 GPU 平台預設啟用 Int8 壓縮 KV-cache 以支援 LLM。
GPU 平台上的 VLM(視覺語言模型)性能因 XMX(Xe Matrix Extensions)得到提升。
NPU 設備外掛
支援 LLM(大型語言模型)無權重快取及 LLM blob 加密。
模型從快取匯入時,現在可以使用 ov::internal::cached_model_buffer 來降低記憶體使用量。
現已支援 NF4(4-bit NormalFloat)輸入/輸出,端到端支援取決於驅動版本。
已修正以下問題:
對於有狀態模型:當張量被重新定位時,會更新零級指令清單。
修復應用程式使用靜態 ov::Cores 時發生 zeContextDestroy 錯誤的問題。
OpenVINO Python API
- 現在可以直接從 Pillow 圖像建立 Tensor,無需先轉換為 NumPy 陣列。
- export_model、read_model 和 compile_model 方法的記憶體消耗已經過優化。
PyTorch框架支援
- 現已支援 PyTorch 2.6 版本。
- 已實現通用轉換器,統一多個框架(PyTorch、TensorFlow、ONNX、JAX)運算的分解方式,並支援複數張量。
- 現已支援 FP8 模型轉換。
- 已啟用包含 STFT/ISTFT 運算子的 TTS(語音合成)模型轉換。
Keras 3 多後端框架支援
- 現已支援 Keras 3.9.0 版本。
- 提供更細緻的測試排除機制,方便針對每個運算單獨啟用。
TensorFlow Lite 框架支援
- 現已支援在執行期間於層與層之間使用量化張量的模型。
神經網路壓縮框架(Neural Network Compression Framework)
預覽支援結合 LoRA 適配器的量化感知訓練(QAT),可在 PyTorch 中對 LLM 進行更精確的 4-bit 權重量化壓縮。nncf.compress_weight API 新增 compression_format 參數,支援 CompressionFormat.FQ_LORA,適用於此 QAT 方法。範例詳見官方說明。
為 PyTorch 後端新增「激活感知權重量化」和「縮放估算數據感知 4-bit 壓縮」方法。現在可直接對 PyTorch 模型進行 LLM 壓縮,加速流程。
減少 GPTQ(生成式預訓練轉換器量化)壓縮所需的時間與峰值記憶體用量。
降低無數據混合精度權重壓縮的壓縮時間與峰值記憶體用量。
為 PyTorch 模型引入了基於 TorchFunctionMode 的新追蹤方式,適用於 nncf.quantize 和 nncf.compress_weights,無需修改 torch 命名空間。預設為關閉,可透過環境變數 "NNCF_EXPERIMENTAL_TORCH_TRACING=1" 啟用。
TorchFX 後端多項改進,符合 Torch AO(自動優化)指引:
OpenVINO 量化器與 quantize_pt2e 函數移除了常數折疊(constant folding)流程。
支援動態形狀的 TorchFX 模型。
NNCF 中的 quantize_pt2e 開始支援自訂量化器:
硬體配置參數已泛化,新增 narrow_range 參數。
量化器參數計算程式碼已重構,明確依賴narrow_range。
預覽支援在 ExecuTorch 中使用 OpenVINO 後端,模型量化可透過 nncf.experimental.torch.fx.quantize_pt2e 函數實現。
現已支援 PyTorch 2.6 版本。
OpenVINO.GenAI
本次新增的內容如下:
預覽支援 Token Eviction 機制,在文本生成過程中更高效地管理 LLM 的 KVCache 記憶體。預設為關閉,範例請參考官方說明。
新增 LLMPipeline 的 C 語言綁定與 JavaScript 綁定。
StreamerBase 類新增了 write(int64_t token) 和 write(const std::vector<int64_t>& tokens) 方法。
VLMPipeline 現已支援 Phi-3-vision-128k-instruct 和 Phi-3.5-vision-instruct。
新增支援 FLUX 和 Stable-Diffusion-3 的圖像轉圖像(Image2image)與修補(inpainting)流程。
LLMPipeline 預設改為使用 Paged Attention 後端。
串流(Streaming)現在將在獨立執行緒中進行,同時 LLM 推理下一個 token。
即使關閉聊天模式,仍然會套用聊天模板。可以透過 GenerationConfig 的 apply_chat_template 參數停用聊天模板。
執行時間較長的方法現在會釋放全域解釋器鎖(GIL)。
已知問題
元件:NPU
ID:無
描述:
當 LLM 執行時,如果提示詞長度超過 MAX_PROMPT_LEN 參數設定,會發生異常,並顯示原因說明。目前版本的 OpenVINO 所顯示的資訊不正確,未來版本將修正說明內容。
元件:NPU
- ID:164469
- 描述:隨著 NPU Linux 驅動程式 v1.13.0 發佈,內核中的 NPU 恢復機制有了新的行為。對應的 Ubuntu 內核更改尚在進行中,預計將在新版內核發佈時完成。
- 解決方法:如果 NPU 推理時發生崩潰,建議手動重新載入驅動程式(執行 sudo rmmod intel_vpu 和 sudo modprobe intel_vpu)。或者可以回退到較舊版本的 Linux NPU 驅動程式。
元件:GPU
- ID:164331
- 描述:在某些 Intel 平台上,Qwen2-VL 模型在處理大尺寸輸入時會崩潰。
- 解決方法:從原始碼自行編譯 OpenVINO GenAI。
元件:OpenVINO GenAI
- ID:165686
- 描述:在 VLM ContinuousBatching 流程中,如果在多執行緒環境下使用 add_request() 和 step() API 處理多個請求,生成的文字結果可能會不正確。
- 解決方法:從原始碼自行編譯 OpenVINO GenAI。
參考來源