► 前言:
在機器學習專案中,高品質的標註資料是訓練高效能模型的基石。然而,資料標註往往是一項耗時且昂貴的工作。例如在醫療影像診斷中,一張X光片的標註需要專業醫師花費數分鐘,當資料集累積到成千上萬張時,成本和時間會迅速攀升。
這時候,像標籤工作室這樣的開源標註平台便能發揮價值:它不僅提供直觀的UI,支援各種資料類型,還能與機器學習模型結合,實現「先由模型預標註 → 再由人類修正」的高效率流程。
►什麼是 Label Studio?
Label Studio 是由 HumanSignal, Inc. 開發的開源資料標註工具。它支援圖片、文字、音訊、影片及時間序列等多種資料類型,並提供靈活的介面設計與機器學習整合功能。
►核心功能
Label Studio 之所以強大,歸功於其三大核心功能:
- 多格式支援:能夠處理圖片、音訊、文字及時間序列等多種資料格式。
- 高度客製化:透過簡單的設定,打造符合專案需求的標註介面與標籤。
- 機器學習整合:支援預標註(pre-labeling)與主動學習(active learning),能夠與機器學習模型對接,加速標註流程。
►支援的資料類型與應用
Label Studio 的應用範圍非常廣泛,涵蓋各種主流的 AI 應用場景:
- 圖片 (Images):影像分類、目標檢測、語意分割。
- 音訊 (Audio):音訊檔案分類、說話者識別、語音轉錄、情緒識別。
- 文字(Text):文件分類、命名實體識別(NER)、問答系統、情感分析。
- 時間序列 (Time Series):時間序列分類、分割、事件識別。
- 影片 (Video):影片分類、物件追蹤、輔助標記。
- 多領域 (Multi-Domain):可用於對話處理、光學字元辨識 (OCR) 等多格式融合的任務。
►系統架構
Label Studio 系統由四大元件組成:
- 前端 (Frontend)使用者操作的標註 UI,可高度客製化。
- 後端 (Backend)以 Django 為核心,負責專案管理、資料儲存、API/Webhook。
- 任務每一筆待標註的資料,以 JSON 格式儲存。
- ML 後端(機器學習後端)獨立服務,透過 REST API 與模型對接,提供預測。

►實作教學:從安裝到啟動
1.系統需求
在安裝前,請確保您的環境符合以下建議需求:
- 作業系統:Linux / Windows / macOS
- Python 3.6以上版本
- 資料庫:PostgreSQL 11.5+ 或 SQLite 3.35+
- 硬體:16 GB 記憶體,50 GB 儲存空間
- 網路:端口8080已開啟
2. 安裝方式
可以選擇 pip 或 Docker 進行安裝。
pip 安裝:
pip3 install -U label-studio預設使用 SQLite 資料庫。若要改用 PostgreSQL,需要在啟動時進行設定。
Docker 安裝:
docker run -it -p 8080:8080 -v $(pwd)/mydata:/label-studio/data heartexlabs/label-studio:latest
3. 專案建立與資料上傳
安裝並啟動後,瀏覽器會開啟 Label Studio 介面。
- 建立專案 → 填寫名稱和描述。
- 匯入資料 → 拖曳或批次上傳檔案。
- 設定標註介面 → 選擇模板或自行設計。
提示:預設一次最多上傳 50 筆,若需更多可設定環境變數:
DATA_UPLOAD_MAX_NUMBER_FILES=1000 label-studio 啟動


►進階實作:整合 YOLO ML-Backend
以 YOLO 模型為例,示範如何建立一個 ML-Backend。
1. 建立 ML-Backend 服務
首先,複製官方的 ML-Backend 專案:
git clone https://github.com/HumanSignal/label-studio-ml-backend
cd label-studio-ml-backend/label_studio_ml/examples/yolo
使用 docker-compose 啟動服務:
sudo apt install docker-compose
docker-compose up
服務會運行在 http://localhost:9090。
2. 取得存取權杖
在 Label Studio 介面右上角進入個人設定頁面。
拉到最下方找到「Legacy Token」,並複製你的 Access Token。
3. 連接模型
回到 Label Studio 的專案設定頁面,選擇「模型」標籤頁。
點擊「Connect Model」,填寫模型名稱,並在「Backend URL」欄位輸入
http://localhost:9090
儲存後,Label Studio 專案就成功與 YOLO 模型連接了。
連線成功後,可以在資料管理頁面選擇任務,並點擊「Retrieve predictions」來獲取模型的預標註結果,接著只需要在此基礎上進行微調即可。


►執行
使用ML-Backend YOLO自動標註

►結論
Label Studio 以其開源、高度客製化和易於整合的特性,成為 AI 開發者和資料科學家的得力助手。無論是處理圖片、文字還是音訊資料,它都能提供一套完整且高效的解決方案,顯著加速從資料準備到模型訓練的整個流程。本篇部落格文章到這裡,期待下一篇文章吧。
► 問與答
Q1:Label Studio 是什麼?
A1: 它是一個開源的資料標註工具,支援圖片、文字、音訊等多種資料類型。
Q2:Label Studio 有哪幾種安裝方式?
A2:主要有兩種安裝方式:使用 pip 指令安裝,或是透過 Docker 安裝。
Q3:Label Studio 可以用來標註影片嗎?
A3:可以,它支援影片的分類、追蹤與輔助標記等功能。
Q4: 什麼是 ML Backend?
A4: ML Backend 是用來對接機器學習模型的元件,可以提供預測結果來輔助標註(預標註)。
Q5: Label Studio 預設使用的網路端口是幾號?
A5: 預設要求 8080 埠處於開啟狀態。
評論