這一次要來介紹如何透過 NXP eIQ (版本:1.14.0) 的機器學習工具 Time Series Studio 來完成數據集收集以及分析
數據收集
使用 Time Series Studio 來收集數據時,需要搭配一個目標裝置經由 Serial Port 連結到電腦,將數據傳送至電腦中。
數據傳輸格式如下:
字元格式 ASCII
數據樣本以空格、逗號和分號中的任一個分隔符號分隔
數據集的每一行都以‘\r\n’結尾
ㄧ、設定連接目標裝置及數據集
- 選擇目標裝置的 Serial Port,例如 COM14。
- 選擇清單中目標裝置對應的 Baud Rate,例如 115200。
- 點選“Connect”按鈕,完成目標裝置連接。
- 指定數據集的通道數量,例如:溫度、濕度、壓力..等。
- 指定數據集的類別數量,例如:正常、異常..等。
設定完成。
二、設定與開始數據收集
- 選擇數據類別
- 編輯檔案名稱
- 設定樣本數,或是使用預設值 100 行。
- 點擊“START”按鈕,即可看到 Serial Port 傳來的數據,並以最大行數自動儲存。
若有多個類別需要收集,重複操作以上四個步驟,將所有數據類別收集完成。
Data Intelligence
Data Intelligence 可以幫助我們將數據集進行自動分析以及給予建議,我們就能夠藉由這些建議來優化我們的數據集。
過去我們根據自己的知識來導入數據集,進行模型的訓練,但有時候訓練出來模型效果並不好。
因此藉由 Data Intelligence 能夠協助分析我們所收集到的數據,並提出建議,目的是為了優化數據集:
省略不需要的數據通道
評估數據集的平衡性
最佳採樣頻率
數據視窗大小
一、參數設定
第一步是設定導入數據的參數,輸入以下項目:
數據集類型:
Segmented Data
Continuous Data
通道數量
類別數量
設定數據的採樣頻率
可設定的最低頻率
一旦設定了通道數量,我們就可以為每個通道進行命名,方便我們後續理解分析報告。
點擊每個類別旁邊的 + 按鈕來導入數據集。它會自動分辨文件中的分隔符號、行數和列數,確保每個檔案符合指定的格式。
當數據為 Segmented Data ,列數必須等於視窗大小乘以通道數
當數據為 Continuous Data ,列數必須等於通道數
我們可以修改每個類別的別名,方便我們後續分析。
完成步驟後,按一下「START DATA ANALYSIS」按鈕,進行資料分析並產生報告。
二、分析結果
接著 Data Intelligence 工具就會開始幫我們自動分析,等待一段時間後,我們就會收到分析結果。
Data Balance
利用 5 顆星評價來說明我們的數據在分類任務中,是否為完美平衡的。
Channel Correlation
適合用於通道數量 >= 2。
利用混淆矩陣來說明不同通道之間的關聯性。
數值越大,通道之間的關聯性越高;數值接近 0 則反之。我們可以透過此訊息來辨別不重要的通道有哪些並刪除,這有助於我們在訓練模型的數據集。
Channel 重要性
適合用於 Segmented Data。
適合用於通道數量 >= 2
顯示每個頻道的重要性分數,分數越高越好。
在此範例中,可以看到通道 X 比其他通道更重要。
最佳採樣參數
Sampling Frequency(取樣頻率):推薦將原始取樣頻率做「下採樣」的建議值。去除高頻雜訊、減少資料量與功耗,提升系統效能。可以幫助我們節省資源和電力,同時仍保留必要的資訊。
Window Size(視窗大小):建議在進行特徵擷取與分類前,資料的分段長度(Time Window)。目的是讓每一個資料段都能代表一個穩定狀態,僅對 Continuous Data 有效。
Sampling Duration(採樣持續時間):單一分段樣本數據的取樣時間。
Distinction Score(區別分數):在「推薦的 Sampling Frequency 與 Window Size」條件下,該數據對不同分類標籤(如情緒、疲勞、警覺等)的區分能力。數值越高分辨力越好,代表該組參數設定能更有效地分辨不同狀態。
參考來源