ROCm 6.3標誌著AMD開源平臺的一個重要里程碑,它引入了先進的工具和優化,以提升AMD Instinct GPU加速器上的AI、ML和HPC工作負載。 ROCm 6.3旨在通過提高開發人員的生產力,為廣泛的客戶提供支持,從創新的人工智慧初創公司到高性能計算驅動的行業
本部落格深入探討了此版本的突出功能,包括無縫集成SGLang以加速AI推理,重新設計的FlashAttention-2用於優化AI訓練和推理,引入多節點快速傅裡葉變換(FFT)以徹底改變HPC工作流程等等。 隨著ROCm 6.3繼續推動各行業的創新,探索這些令人興奮的更新以及更多內容。
1.ROCm 6.3中的SGLang:生成AI(GenAI)模型的超快速推理
GenAI正在改變行業,但部署大型模型通常意味著要應對延遲、輸送量和資源利用率方面的挑戰。 SGLang是ROCm 6.3支持的新運行時,專門用於優化AMD Instinct GPU上LLM和VLM等尖端生成模型的推理。
為什麼它對你很重要:
6倍更高的輸送量:與研究人員發現的現有系統相比,LLM推理的效能提高了6倍1,使您的企業能够大規模地為AI應用程序提供服務。
易用性:Python™-集成並預配寘在ROCm Docker容器中,使開發人員能够加速互動式AI助手、多模式工作流和可擴展雲後端的部署,同時縮短設定時間。
無論您是構建面向客戶的人工智慧解決方案,還是在雲中擴展人工智慧工作負載,SGLang都能提供滿足企業需求所需的效能和易用性。 在此處探索SGLang的强大功能,並學習如何在AMD Instinct GPU加速器上無縫設定和運行模型>立即開始!
2.下一級變壓器優化:在AMD Instinct™上重新設計FlashAttention-2
Transformer模型是現代人工智慧的覈心,但它們的高記憶體和計算需求傳統上限制了可擴展性。 通過針對ROCm 6.3優化的FlashAttention-2,AMD解决了這些痛點,實現了更快、更高效的訓練和推理2。
為什麼開發者會喜歡它:
3倍加速:與FlashAttention-12相比,在向後傳球和高效向前傳球上實現高達3倍的加速,加速模型訓練和推理,縮短企業人工智慧解決方案的上市時間。
擴展序列長度:高效的記憶體利用率和减少的I/O開銷使AMD Instinct GPU上處理更長的序列變得無縫。
今天,在AMD Instinct GPU加速器上使用FlashAttention-2優化您的AI筦道,通過ROCm的PyTorch容器將可組合內核(CK)作為後端無縫集成到現有的工作流程中。
3.AMD Fortran編譯器:將傳統程式碼與GPU加速連接起來
由於ROCm 6.3中引入了新的AMD Fortran編譯器,運行基於Fortran的傳統HPC應用程序的企業現在可以通過AMD Instinct™加速器釋放現代GPU加速的力量。
主要優勢:
直接GPU卸載:利用AMD Instinct GPU和OpenMP卸載,加速關鍵科學應用。
向後相容性:在現有Fortran程式碼的基礎上構建,同時利用AMD的下一代GPU功能。
簡化的集成:與HIP內核和ROCm庫無縫介面,消除了複雜程式碼重寫的需要。
航空航太、製藥和天氣建模等行業的企業現在可以證明其傳統HPC應用程序的未來發展,實現GPU加速的强大功能,而無需以前進行大量的程式碼檢修。 通過本詳細演練,開始在AMD Instinct GPU上使用AMD Fortran編譯器。
4.rocFFT中的新多節點FFT:HPC工作流的遊戲規則改變者
依賴HPC工作負載的行業——從石油和瓦斯到氣候建模——需要高效擴展的分散式運算解決方案。 ROCm 6.3在rocFFT中引入了多節點FFT支持,實現了高性能的分佈式FFT計算。
為什麼它對HPC很重要:
內寘消息傳遞介面(MPI)集成:簡化多節點擴展,幫助降低開發人員的複雜性,加速分佈式應用程序的啟用。
領導力可擴展性:在海量數據集中無縫擴展,優化地震成像和氣候建模等關鍵工作負載的效能。
石油和瓦斯以及科學研究等行業的組織現在可以更高效地處理更大的數据集,從而推動更快、更準確的決策。
5.增强的電腦視覺庫:AV1、rocJPEG等
使用現代媒體和數据集的AI開發人員需要高效的工具進行預處理和增强。 ROCm 6.3對其電腦視覺庫、rocDecode、rocJPEG和rocAL進行了增强,使企業能够處理從視頻分析到數据集增强的各種工作負載。
為什麼它對你很重要:
AV1轉碼器支持:通過rocDecode和rocPyDecode進行經濟高效、免版稅的現代媒體處理解碼。
GPU加速JPEG解碼:通過rocJPEG庫內寘的回退機制,無縫處理大規模影像預處理。
更好的音訊增强:使用rocAL庫改進了雜訊環境中魯棒模型訓練的預處理。
從媒體和娛樂到自主系統,這些功能使開發人員能够為現實世界的應用程序創建更好的人工智慧高級解決方案。
除了這些突出的功能外,值得強調的是,ROCm 6. 2中引入的Omnitrace和Omniperf已被重新命名為ROCm系統分析器和ROCm計算分析器。 此次品牌重塑將有助於提高可用性、穩定性,並無縫集成到當前的ROCm分析生態系統中。
為什麼選擇ROCm 6.3?
AMD ROCm在每個版本中都取得了長足的進步,6.3版本也不例外。 它提供了尖端的工具來簡化開發,同時為AI和HPC工作負載帶來更好的效能和可擴展性。 通過擁抱開源精神並不斷發展以滿足開發人員的需求,ROCm使企業能够更快地創新,更智慧地擴展,並在競爭激烈的行業中保持領先地位。
準備好跳躍了嗎? 探索ROCm的全部潜力,瞭解AMD Instinct加速器如何為企業的下一個重大突破提供動力。 ROCm文檔中心和其他途徑正在更新,因為我們正在用最新的ROCm 6.3內容寫這篇部落格——詳細資訊很快就會公佈,敬請關注!
訪問AMD ROCm部落格,瞭解最新進展、提示和見解。 別忘了注册RSS提要,以便直接在收件箱中接收定期更新。
主要貢獻者:
Jayachran Kolla——產品經理
Aditya Bhattacharji-軟體發展工程師
Ronnie Chatterjee——產品管理總監
Saad Rahim–SMTS軟體發展工程師
1. https://arxiv.org/pdf/2312.07104 –第8頁
2根據為特定客戶進行的非正式內部測試,FlashAttention-2的效能比FlashAttention 1的先前版本提高了2-3倍。 請注意,效能可能因單個系統配寘、工作負載和環境因素而异。 此資訊僅用於說明目的,不應被解釋為對所有用例中未來效能的保證。
本文所含資訊僅供參考,如有更改,恕不另行通知。 雖然在編寫本檔案時採取了一切預防措施,但其中可能包含科技不準確、遺漏和排版錯誤,AMD沒有義務更新或以其他管道更正此資訊。 Advanced Micro Devices,股份有限公司對本檔案內容的準確性或完整性不作任何陳述或保證,也不承擔任何類型的責任,包括對AMD硬體、軟件或本文所述其他產品的操作或使用的不侵權、適銷性或適用性的暗示保證。 本檔案未授予任何知識產權許可,包括暗示或因禁止反言而產生的許可。 適用於購買或使用AMD產品的條款和限制如雙方簽署的協定或AMD的標準銷售條款和條件所述。 GD-18
除非另有說明,AMD尚未測試或驗證本檔案中的協力廠商聲明。 GD-182。
©2024 Advanced Micro Devices,股份有限公司保留所有權利。 AMD、AMD Arrow徽標、AMD Instinct、AMD ROCm及其組合是Advanced Micro Devices,股份有限公司的商標。本出版品中使用的其他產品名稱僅用於識別目的,可能是其各自所有者的商標。 Python是Python軟件基金會的商標。 PyTorch、PyTorch徽標和任何相關標記都是Linux基金會的商標。
評論