智慧語音助理於智能音箱產品之測試環境簡介

隨著智能音箱的推陳出新,市面上出現各式各樣五花八門的產品,但對於消費者而言,決定是否購買產品的關鍵還是在於「智慧語音助理」,不管是稱霸市佔的Alexa,各據山頭的Siri、Google Assistant,還是有所消長的Microsoft Cortana等等,琳琅滿目要如何選擇評估?我們可簡單分兩個領域來看:

  • Cloud side (雲端),由語音助理開發公司提供優秀的語音辨識、AI智能、深度學習以及服務整合
  • Edge side (邊緣端),由ODM廠商進行硬體韌體設計、量產高品質產品,並提供優良的遠場收音(麥克風陣列、波束成形收音等)、聲音訊號處理、網路連線雲端功能

由於Edge side是使用者接觸到產品的第一線,不管是收音品質、與雲端連線的網路品質,對於使用體驗有巨大的潛在影響力,當使用者呼叫語音助理卻沒有得到回應,問題成因的可能性很多(甚至與Cloud side有關),但一般人由於感情投射,很容易歸咎到「語音助理」身上,因此各家語音助理開發公司紛紛要求ODM廠商生產的產品,需要先通過一定的測試流程驗證後才能販售。然而,將產品送測將花費大量時間(幾周到數個月),ODM廠商送測前通常得先自行安排合適的測試空間,進行Pre-Test調整與debug。

 

測試空間、尺寸

由於智能音箱的常見使用場景為家庭客廳,因此測試環境與一般聲音元件不同,不需要用到無響室或半響室,各家語音助理公司開始訂出各自的規格,甚至有的公司便以工程師自己的家當作標準。儘管如此,大部份仍會參照現有由ETSI (歐洲電信標準協會)制定的語音測試室標準(ETSI ES 202 396-1)

若要改裝現有空間(如辦公室、會議室),牆面仍需做一定程度的隔音及吸音工程,防止房外噪音干擾、控制房內迴響。以下簡要整理常見各家標準:

註: 根據Alexa官方網站的測試定位(如下圖),淨橫幅為1.27+2.58=3.85m,淨直幅為2.75m,若上下左右預留牆面距離各0.25m得到最低需求長寬

 

測試器材

  • 分貝計:用來確保測試音檔的播放音量合乎標準,至少支援SPL dB(C weighting)量測,常見如EXTECH 407750
  • 喇叭Speaker與喇叭置架:至少需要兩顆speaker,一顆播放測試語音檔、一顆播放噪音檔。Speaker要有平整的頻率響應,常見如FOSTEX 6301
  • 為了能同時播放語音檔及噪音檔,可能會需要多台筆電,或是能讓一台筆電支援多顆喇叭的Audio interface,常見如RME Fireface UCX
  • 其他雜項:桌椅、定位用的膠帶等等

  

 

測試指標

各家語音助理開發公司大多會提供測試用的播放檔案及pre-test guide,包含測試語音檔、環境噪音檔,有些甚至要求作連續24小時的長時間測試。測試句結構、測試指標簡列如下:


Wake Word Detection Delay (WWDD喚醒字偵測延遲):通常測試句會由「wake word喚醒字(如Alexa)」與「request請求詞(如cat food to my shopping list)」兩個語句組成,藉由調整這兩個語句的間隔detection delay,測試能夠被正確辨識的最短時間,越短越好

Response Accuracy Rate (RAR回應準確率):播出測試句時,裝置能夠給予正確的回應比率,越高越好

False Rejection Rate (FRR誤拒絕率):播出喚醒字時,智能音箱/語音助理沒有回應,越少越好

False Alarm Rate (FAR誤觸發率):在沒有提到喚醒字的情況下,智能音箱誤辨識、誤觸發的次數,越少越好,此項可能需要連續24小時長時間測試。


測試時,一個喇叭播放測試語音檔,同時至少一個喇叭播放環境噪音,以此觀察待測裝置分別於「安靜房間」、「輕微噪音房間」、「嘈雜噪音房間」等不同環境噪音下的RAR、FRR、FAR指標。

 

Amazon目前有在官網上公開關於Alexa測試環境的資訊,內容相當豐富,想知道更多細節可以參考:
https://developer.amazon.com/en-US/docs/alexa/alexa-voice-service/acoustic-testing-guide.html

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★文明上網,請理性發言。內容一周內被舉報5次,發文人進小黑屋喔~

評論