Bui~ 大模型開始滿天飛,動不動就是千億參數的大模型,對於大部分廠家來說做大模型還是有點遙不可及(太消耗資源了o(╥﹏╥)o)。但也不要氣餒,大模型的發展同樣面臨瓶頸,訓練所需的硬體資源日益增加,比如英偉達的晶片、電力等(這也可能是ChatGPT5遲遲沒有出來的原因)。業界有觀點認為,在大多數情況下,並不需要全能的大模型,而是更適合專注於特定領域的中小型模型。這類模型針對垂直領域,性價比更高,在特定場景下能以較低資源實現高準確率的專項任務。例如在邊緣計算領域,模型推理所需資源遠少於訓練時。隨著晶片技術的進步,越來越多的晶片集成了NPU,甚至有些研發了自己的可重構NPU架構,把算力推升到10TOPS以上,最新的高端晶片甚至可到幾十TOPS(例如高通、HAILO的晶片),大幅降低了推理時間和功耗,也為邊緣端運行更多強大功能的模型提供了基礎。無論如何,中小型模型的開發需求正隨著市場的需求不斷擴大。下面盤點下小編訓練小模型時常用的好工具,如果有其他更好的工具也可評論區推薦一下,不勝感激(#^.^#)。
訓練模型需要有台有一定高算力的電腦,但如果沒有真沒有辦法擁有一台這樣的實體機,科技的發展也不會辜負任何一個想學習的人的。
- Colab:Google提供的免費雲GPU平台。它用Jupyter notebook的方式,讓大家可以在線上調用他的GPU去訓練。但是嘞,大陸用不了Google的服務。網上也有不少的教程,需要的自行解決。
- Kaggle:一個有名的機器學習算法比賽平台,不僅提供了大量的訓練數據集,還提供各種流行模型的介紹、模型文件、參考例子、社區分享代碼,甚至Jupyter notebook運行平台包含GPU和TPU加速。這麼完整的一條龍服務,哪個新手不喜歡。不過硬體加速有每周有時限,但50個小時,都比我上班時間還長,實在是香。
- Roboflow:一個集大成的模型開發工具、方案提供平台。提供模型訓練過程中,幾乎所有想要的功能,甚至可以實現在不寫代碼的情況下,在網頁端配置生成自定義任務的模型。當然,高附加值的產品是需要索取額外的費用的。
當然有自己訓練的機器是最好的,畢竟線上的運行環境、網絡速度,數據安全等問題有時是不能忽略的。至少裝一台超級PC,一個team一起用也是可以的嘛(小編也是這種模式)。畢竟一個工程師不可能一直都在訓練,訓練完的模型拿去分析分析,寫寫部署代碼,在這段時間給另外一位工程師去訓練,以達到訓練機器最大化使用率(資本家思維(#^.^#),老闆也喜歡),這時候就需要一些工具去隔離工作區。
- SSH:這個就不用多解釋了,允許多個其他pc同時遠程登錄超級pc去使用
- VScode:這個小而精的軟體越來越多人使用了,眾多功能通過插件方式去添加,可以滿足不同人群的需求。而它提供的ssh插件,可以讓本機電腦通過ssh訪問超級PC時,能像本地操作一樣,絲滑方便,可參考鏈接【宇宙最強編輯器VS Code】(十)使用VS Code + SSH進行遠程開發_visual studio code ssh 打開工作區-CSDN博客
- Anaconda:現在有很多訓練框架,大部分框架都是用python來寫的,而每個框架對python環境都有不一樣的要求,anaconda就是一個非常不錯的python虛擬環境的管理軟體。
- Docker:docker不單單是方便開發者分享運行環境的工具,也是個不錯的沙盒工具。在一些交叉編譯的需求中,隔離原系統,在docker的容器中自由修改各種變量,安裝各種軟體,弄好了還可以分享給別人用。一些框架或晶片廠商的開發環境也會用這個軟體。
以上是本期博文的全部內容,如有疑問或者別的建議歡迎在博文下方評論留言。謝謝大家瀏覽,我們下期再見。
簡單是長期努力的結果,而不是起點
—— 不是我說的
Q1: Colab平台如何解決大陸無法訪問Google服務的問題?
A1: 可以通過VPN或者使用一些第三方提供的代理服務來訪問Colab平台。
Q2: Kaggle平台的硬體加速是否對所有用戶都開放?
A2: Kaggle平台的硬體加速功能對所有註冊用戶開放,但每周有使用時間限制。
Q3: 如何選擇適合自己的模型訓練工具?
A3: 應根據個人的訓練需求、硬體條件以及對工具的熟悉程度來選擇,同時也可以參考社區中其他用戶的推薦和評價。
Q4: 使用SSH遠程登錄時,如何保證數據的安全性?
A4: 應確保使用安全的密碼和密鑰認證方式,定期更新密碼,以及限制可登錄的用戶和IP位址,以提高安全性。
Q5: Docker容器與虛擬機有什麼區別?
A5: Docker容器是輕量級的,共享宿主機的操作系統內核,啟動快速,資源占用少;而虛擬機是重量級的,每個虛擬機都有自己的操作系統,啟動較慢,資源占用相對較多。
評論