系統需求 | 發佈政策 | 安裝指南![]()
新增功能亮點
擴展生成式人工智慧(Gen AI)涵蓋範圍及框架整合,減少程式碼變更需求。
支援多款新模型,包括 Phi-4-mini-reasoning、AFM-4.5B、Gemma-3 系列多個尺寸模型。
新增對 Qwen3 系列(1.7B、4B、8B)NPU(神經處理單元)支援。
NPU優化的大型語言模型(LLMs)現已在OpenVINO Hugging Face模型庫提供。
預覽版支持 Intel® Core™ Ultra 處理器及Windows AI PC透過 OpenVINO™ Execution Provider進行高性能AI推理。
NPU插件支持更長上下文(最高8K tokens)、動態提示和動態LoRA技術,提升LLM效能。
動態批量大小支持,可以將模型重塑為批量大小1,並同時管理多個推理請求,優化性能與記憶體利用。
針對生成式AI模型,實現基於通道的緩存壓縮,提升顯示卡及內建GPU的準確性與效能。
引入 TextRerankPipeline,增強檢索相關度與RAG準確性,並支持結構化輸出,提高回應可靠性。
支援Intel® Arc™ Pro B系列顯卡(B50與B60)。
OpenVINO模型伺服器預覽支持GGUF格式模型,簡化生成式AI工作負載的集成和減少記憶體用量。
神經網路壓縮框架(NNCF)新增支援int4數據感知權重壓縮,提高記憶體利用率,同時保持模型準確度。
OpenVINO執行時與插件更新
新增公共API允許外部日誌管理,改善日誌訊息整合。
編譯時優化,提升開發體驗。
支援使用 ov::Tensor 匯入預編譯模型,增強快取效能。
修正量化模型精度轉換錯誤,增強兼容性。
CPU插件新增Sage Attention,可提升LLM首次Token生成性能。
GPU插件提升模型準確度與性能,支持動態形狀自訂操作。
NPU插件支援NF4-FP16量化模型,減少記憶體消耗,優化長上下文RoPE準確度。
支援動態批量大小與記憶體映射輸入輸出。
Python、Node.js API新增功能與效能優化。
OpenVINO模型伺服器改進
實現工具引導生成,提高模型生成準確率並減少無效回應。
新增對多種流行模型及模型解析器的支持。
支援結構化輸出(JSON Schema指導生成)以適合自動化需求。
支援模型下載時顯示進度條,優化Hugging Face模型的拉取及轉換流程。
神經網路壓縮框架(NNCF)
引入4位元數據感知尺度估計及AWQ壓縮方法。
支持FP8的NF4類型,更快推理。
支持動態調整4位元權重壓縮分組大小。
量化感知訓練(QAT)啟動更準確,性能更佳。
支持外部量化器(XNNPACK、CoreML)。
支持PyTorch 2.8。
OpenVINO GenAI與Tokenizer改進
提升Tokenizer的動態填充側設置支持與多輸入支持,增強生成式AI流程。
取代Jinja2Cpp模板引擎為Minja,改善聊天模板支持。
新增Cache剔除算法及結構化輸出約束方法,提升輸出格式靈活度與準確性。
支持dynamic LoRA於NPU實時調整權重。
新增JavaScript綁定和性能指標等多項功能。
其他變動與已知問題
部分模型在NPU或特定驅動版本存在準確率或性能問題,官方會持續修正。
部分舊模組和工具如Model Optimizer、openvino-nightly等已被移除或即將淘汰。
未來版本將停止支持Python 3.9、某些API命名空間等。
新APT與YUM源結構已逐步推行,OpenCV二進制檔將在2026年Docker影像中移除。
其他更詳細資訊,請參考 https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-3.html
參考來源