NXP TSS 學習筆記 - 數據收集與 Data Intelligence 工具

關鍵字 :NXPTime Series StudioTime SeriesData Intelligence

這一次要來介紹如何透過 NXP eIQ (版本:1.14.0) 的機器學習工具 Time Series Studio 來完成數據集收集以及分析

 

數據收集

 

使用 Time Series Studio 來收集數據時,需要搭配一個目標裝置經由 Serial Port 連結到電腦,將數據傳送至電腦中。

 

數據傳輸格式如下:

 

  • 字元格式 ASCII

  • 數據樣本以空格、逗號和分號中的任一個分隔符號分隔

  • 數據集的每一行都以‘\r\n’結尾

 

ㄧ、設定連接目標裝置及數據集

 

 

  1. 選擇目標裝置的 Serial Port,例如 COM14。
  2. 選擇清單中目標裝置對應的 Baud Rate,例如 115200。
  3. 點選“Connect”按鈕,完成目標裝置連接。
  4. 指定數據集的通道數量,例如:溫度、濕度、壓力..等。
  5. 指定數據集的類別數量,例如:正常、異常..等。
  6. 設定完成。

     

二、設定與開始數據收集

  1. 選擇數據類別
  2. 編輯檔案名稱
  3. 設定樣本數,或是使用預設值 100 行。
  4. 點擊“START”按鈕,即可看到 Serial Port 傳來的數據,並以最大行數自動儲存。
  5. 若有多個類別需要收集,重複操作以上四個步驟,將所有數據類別收集完成。

     

Data Intelligence

 

Data Intelligence 可以幫助我們將數據集進行自動分析以及給予建議,我們就能夠藉由這些建議來優化我們的數據集。

 

過去我們根據自己的知識來導入數據集,進行模型的訓練,但有時候訓練出來模型效果並不好。

 

因此藉由 Data Intelligence 能夠協助分析我們所收集到的數據,並提出建議,目的是為了優化數據集:

 

  • 省略不需要的數據通道

  • 評估數據集的平衡性

  • 最佳採樣頻率

  • 數據視窗大小

 

一、參數設定

第一步是設定導入數據的參數,輸入以下項目:

 

  1. 數據集類型:

    • Segmented Data

    • Continuous Data

  2. 通道數量

  3. 類別數量

  4. 設定數據的採樣頻率

  5. 可設定的最低頻率

     

 

  1. 一旦設定了通道數量,我們就可以為每個通道進行命名,方便我們後續理解分析報告。

     

  2. 點擊每個類別旁邊的 + 按鈕來導入數據集。它會自動分辨文件中的分隔符號、行數和列數,確保每個檔案符合指定的格式。

    • 當數據為 Segmented Data ,列數必須等於視窗大小乘以通道數

    • 當數據為 Continuous Data ,列數必須等於通道數

       

  3. 我們可以修改每個類別的別名,方便我們後續分析。

     

  4. 完成步驟後,按一下「START DATA ANALYSIS」按鈕,進行資料分析並產生報告。

     

二、分析結果

 

接著 Data Intelligence 工具就會開始幫我們自動分析,等待一段時間後,我們就會收到分析結果。

 

  • Data Balance

    • 利用 5 顆星評價來說明我們的數據在分類任務中,是否為完美平衡的。

       

  • Channel Correlation

    • 適合用於通道數量 >= 2。

    • 利用混淆矩陣來說明不同通道之間的關聯性。

    • 數值越大,通道之間的關聯性越高;數值接近 0 則反之。我們可以透過此訊息來辨別不重要的通道有哪些並刪除,這有助於我們在訓練模型的數據集。

       

  • Channel 重要性

    • 適合用於 Segmented Data。

    • 適合用於通道數量 >= 2

    • 顯示每個頻道的重要性分數,分數越高越好。

    • 在此範例中,可以看到通道 X 比其他通道更重要。


 

  • 最佳採樣參數

    • Sampling Frequency(取樣頻率):推薦將原始取樣頻率做「下採樣」的建議值。去除高頻雜訊、減少資料量與功耗,提升系統效能。可以幫助我們節省資源和電力,同時仍保留必要的資訊。

    • Window Size(視窗大小):建議在進行特徵擷取與分類前,資料的分段長度(Time Window)。目的是讓每一個資料段都能代表一個穩定狀態,僅對 Continuous Data 有效。

    • Sampling Duration(採樣持續時間):單一分段樣本數據的取樣時間。

    • Distinction Score(區別分數):在「推薦的 Sampling Frequency 與 Window Size」條件下,該數據對不同分類標籤(如情緒、疲勞、警覺等)的區分能力數值越高分辨力越好,代表該組參數設定能更有效地分辨不同狀態。

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★博文作者未開放評論功能

參考來源

: