數據中心的熱管理對設計工程師來說一直都非常具有挑戰性要求。而今天,人工智慧(AI) 和機器學習等高級應用正在將高數據處理需求提升到一個新的水準,而傳統的 I/O 模組冷卻解決方案可能已經不夠用了。需要重新檢討現有的熱管理系統能否滿足系統升級的要求,並開新的熱管理方案已經迫在眉睫。
數據中心生態系統中新興的熱技術進步要求
數據中心的雲計算已成為數位產品和服務的主要推動因素,從基本電子郵件到複雜的生成式人工智慧 (AI)。這種計算能力不是免費的,數據中心的每台伺服器都需要電力才能運行。功耗可以達到很高的值,尤其是在支援AI、機器學習等高級領域高數據處理需求的數據中心。熱管理是運營數據中心的主要成本之一,有效的熱管理通過延長元件的使用壽命來降低長期維護成本。當前液體冷卻系統的運營費用可能達到每冷卻 kW 功率 2,000 美元,而企業數據中心冷卻系統的投資很容易超過 100,000 美元。
今天在 112 Gbps-PAM4 數據速率下,功率水準約為 15W 至 25W,僅具有 32 個埠的大型企業交換機中的光 I/O 模組就消耗高達 0.8kW 的功率。如果使用相幹 (800G) 光學器件進行長距離112G通信,則每個模組的功率水準可高達30W。
下一代推高至 224 Gbps-PAM4 互連的轉變意味著每通道數據速率翻了一番。功耗也會增加,僅光模組在長距離相幹鏈路上就高達 40W。這很有挑戰性,因為光 I/O 模組的功率要求在短短幾年內從 12W 增加到 40W,但模組外形尺寸並沒有改變。這基本上意味著功率密度增加了近4倍,需要尋找新的冷卻方法。
當前的主動冷卻方法
強制風冷:空氣冷卻是一種低風險的主動冷卻方法,當每個機架的功率需求約為 10kW 時,強制通風系統通常可以處理熱負荷。
直接到晶元的液體冷卻:用於數據中心的一種液體冷卻選項是直接到晶元的液體冷卻,當機架的功率需求達到25kW 至 50kW,就需要直接到晶片冷卻來提供散熱。
增強主動冷卻的無源元件 : 一些被動元件有助於主動冷卻策略,幫助熱傳遞並提供一些額外的熱品質。常見無源元件是散熱器和熱管。
帶散熱器的 QSFP-DD 殼體
浸入式冷卻
數據中心中最有效的液體冷卻選項是浸入式冷卻,但存在很大的風險和成本:
-
投資:浸入式冷卻系統的設備和安裝成本可能比強制風冷或液體冷卻更昂貴。
-
空間要求:浸入式冷卻罐機架比標準機架單元更寬、更深。
-
相容的 I/O 模組和連接器:流體的介電常數會影響連接器的電阻抗,需要使用特殊的連接器和收發器模組。
-
相容伺服器:浸入式冷卻配合使用的伺服器是專門構建的。
-
流體:浸入式冷卻液需要特殊的循環系統來冷卻流體。
-
維護:浸入式冷卻系統會產生高昂的維護成本。
-
洩漏風險:浸入式冷卻系統發生災難性洩漏會損壞設施。
-
元件故障:流量不足會導致高溫,會加速老化並導致早期故障。
-
環境影響:浸入式冷卻中使用的液體需要定期更換。
光學 IO 模組的熱挑戰
伺服器和機架式網路基礎設施系統內部的光學 I/O 模組始終從主動冷卻系統接收直接冷卻,優化冷卻策略以考慮處理器冷卻需求和整體光學 I/O 模組功率有助提高系統的電源效率。
鏈路長度與數據速率:56G和112G的光I/O模組目前通過風冷來滿足。當以 112G 或更高的數據速率時,可插拔光學 I/O 模組的功率水準 (33W+) 便需要將液體冷卻措施擴展到模組。
外形尺寸:自20 年前實施光纖收發器模塊以來,外形尺寸沒有改變。新一代光學 I/O 模組需要向後相容現有的機架式設備。意味著熱密度將增加,導致冷卻光學 I/O 模組強制空氣流量不足夠。
散熱:連接到光學 I/O 模組的散熱器,都是金屬與金屬的接觸,最大限度地提高熱傳遞。裸機觸點對於任何散熱器觸點都不可取,為了提高接觸表面的熱接觸電阻,將熱介面材料 (TIM) 安裝到騎乘式散熱器上,來提高傳熱效率。
監控模組溫度:提高功率密度需要重新評估光模組的傳統熱表徵方法。傳統上,使用 70°C 的外殼溫度要求作為熱規格(即作為數位光學監控 (DOM) 溫度的代表)。

模組溫度示意圖
模擬和測試:模擬/預測工程用於在構建和部署之前優化系統設計、元件放置和冷卻策略。優化散熱器和光學模組上的強制空氣進近通常需要在最終確定機械設計之前類比整個機箱中的氣流。
熱模擬系統
浸沒式冷卻:112G 和 224G 光模組可以在浸入式冷卻系統冷卻。
資料中心架構的創新熱管理解決方案
鑒於不斷增加的熱負載,以及伺服器和光學 I/O 模組的向後相容性而導致的外形尺寸限制,伺服器和交換機中已經存在的液體冷卻解決方案可能需要擴展到模組,以支持數據中心的更高數據速率和更高的計算要求。特別是對於 I/O,可以將新的解決方案整合到伺服器和交換機中,從而在不影響可靠性的情況下提供更大的散熱。這是通過直接在模組上進行機械更改和創新的液體冷卻實現的,從而保持了機架式網路系統和可插拔模組中使用的標準外形尺寸。
Molex 先進熱IO解決方案
Molex 通過下拉式散熱器 (DDHS)
與傳統散熱器相比,DDHS解決方案提供了 +9°C 的卓越熱性能改進。這項創新允許超過 30W 的有效風冷解決方案,減少了對更昂貴的液冷替代方案的需求,同時保持了系統的耐用性和性能。
Molex 的下拉式散熱器系統
系統設計人員可以利用Molex 的 DDHS 方案選擇通過以下兩種方式之一來達到 9°C 的改進:
-
使用相同功率(例如 30W)的模組,只需降低系統風扇速度即可用完 DDHS 的熱裕度,從而獲得更高的能效。
-
冷卻 5 至 7W 高功率模組(35-37W 而不是 30W),同時以相同的速度運行風扇。
先進的液體冷卻解決方案
Molex 開發了一種稱為集成浮動基座的液體冷卻解決方案。每個與模塊接觸的基座都是彈簧調教的,並且可以獨立移動,可以將單個冷板實現到不同的 1xN 和 2xN 單排和堆疊籠配置。獨立移動的基座可以補償每個埠的不同公差疊加,同時仍提供所需的下壓力以實現良好的熱接觸。
下圖所示的 1x6 QSFP-DD 液體冷卻解決方案。該解決方案具有六個獨立移動的基座,可以補償每個埠的不同堆疊,同時確保良好的熱接觸(具有所需的下壓力)。
Molex 的集成浮動基座示例
這個集成的浮動基座,可以在沒有熱或機械填縫劑的情況下實現 I/O 液體冷卻。熱量直接從模組流出到基座,基座直接與流經冷板的液體連接。大限度地減少熱阻並提高傳熱效率。
Molex 已經證明,使用這種液體冷卻解決方案,高達 40W 的模組可以冷卻到規格範圍內。
Molex 液體冷卻解決方案演示
下一代冷卻策略的標準化和測試
影響光模組冷卻設計的一般都是使用外殼溫度作為模組溫度的規格或限制。但外殼溫度規格無法準確反映模塊中關鍵元件的內部溫度。內部元件的溫度限制才會是真正的模組溫度的限制規格。
監控模組溫度的傳統方法是在模組外殼上選擇一個監控點,該監控點可能位於散熱器下方。但在運行期間,通常無法在不干擾散熱器的情況下檢測此監控點, 因此,建議使用軟體管理介面(即CMIS)讀取內部感測器數位光學監控 (DOM) 所檢測到的 Tcase 值作依據。
下表為使用外殼溫度跟關鍵內部元件的實際溫度計算出來的裕量落差:
Module |
Limits |
Actual |
Margin (ΔT) |
Tcase (above DSP) |
75°C |
72.6°C |
2.4°C |
Laser |
85°C |
76.4°C |
8.6°C |
TIA/driver |
105°C |
81.4°C |
23.6°C |
DSP |
105°C |
93.5°C |
11.5°C |





評論