Intel® Distribution of OpenVINO™ Toolkit - 2025.3 發佈摘要 - 大大通(繁體站)

Loading..

關鍵字 :AIGen AIGenerative AIEdge AI

系統需求 | 發佈政策 | 安裝指南

新增功能亮點

擴展生成式人工智慧（Gen AI）涵蓋範圍及框架整合，減少程式碼變更需求。
支援多款新模型，包括 Phi-4-mini-reasoning、AFM-4.5B、Gemma-3 系列多個尺寸模型。
新增對 Qwen3 系列（1.7B、4B、8B）NPU（神經處理單元）支援。
NPU優化的大型語言模型（LLMs）現已在OpenVINO Hugging Face模型庫提供。
預覽版支持 Intel® Core™ Ultra 處理器及Windows AI PC透過 OpenVINO™ Execution Provider進行高性能AI推理。
NPU插件支持更長上下文（最高8K tokens）、動態提示和動態LoRA技術，提升LLM效能。
動態批量大小支持，可以將模型重塑為批量大小1，並同時管理多個推理請求，優化性能與記憶體利用。
針對生成式AI模型，實現基於通道的緩存壓縮，提升顯示卡及內建GPU的準確性與效能。
引入 TextRerankPipeline，增強檢索相關度與RAG準確性，並支持結構化輸出，提高回應可靠性。
支援Intel® Arc™ Pro B系列顯卡（B50與B60）。
OpenVINO模型伺服器預覽支持GGUF格式模型，簡化生成式AI工作負載的集成和減少記憶體用量。
神經網路壓縮框架(NNCF)新增支援int4數據感知權重壓縮，提高記憶體利用率，同時保持模型準確度。

OpenVINO執行時與插件更新

新增公共API允許外部日誌管理，改善日誌訊息整合。
編譯時優化，提升開發體驗。
支援使用 ov::Tensor 匯入預編譯模型，增強快取效能。
修正量化模型精度轉換錯誤，增強兼容性。
CPU插件新增Sage Attention，可提升LLM首次Token生成性能。
GPU插件提升模型準確度與性能，支持動態形狀自訂操作。
NPU插件支援NF4-FP16量化模型，減少記憶體消耗，優化長上下文RoPE準確度。
支援動態批量大小與記憶體映射輸入輸出。
Python、Node.js API新增功能與效能優化。

OpenVINO模型伺服器改進

實現工具引導生成，提高模型生成準確率並減少無效回應。
新增對多種流行模型及模型解析器的支持。
支援結構化輸出（JSON Schema指導生成）以適合自動化需求。
支援模型下載時顯示進度條，優化Hugging Face模型的拉取及轉換流程。

神經網路壓縮框架（NNCF）

引入4位元數據感知尺度估計及AWQ壓縮方法。
支持FP8的NF4類型，更快推理。
支持動態調整4位元權重壓縮分組大小。
量化感知訓練（QAT）啟動更準確，性能更佳。
支持外部量化器（XNNPACK、CoreML）。
支持PyTorch 2.8。

OpenVINO GenAI與Tokenizer改進

提升Tokenizer的動態填充側設置支持與多輸入支持，增強生成式AI流程。
取代Jinja2Cpp模板引擎為Minja，改善聊天模板支持。
新增Cache剔除算法及結構化輸出約束方法，提升輸出格式靈活度與準確性。
支持dynamic LoRA於NPU實時調整權重。
新增JavaScript綁定和性能指標等多項功能。

其他變動與已知問題

部分模型在NPU或特定驅動版本存在準確率或性能問題，官方會持續修正。
部分舊模組和工具如Model Optimizer、openvino-nightly等已被移除或即將淘汰。
未來版本將停止支持Python 3.9、某些API命名空間等。
新APT與YUM源結構已逐步推行，OpenCV二進制檔將在2026年Docker影像中移除。

其他更詳細資訊，請參考 https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-3.html

★博文內容參考自網站，與平台無關，如有違法或侵權，請與網站管理員聯繫。

★博文作者未開放評論功能

參考來源

Intel OpenVINO : https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2025-3.html