語音辨識

語音辨識技術提供語音轉文字(音轉字)功能,在生活中常見的SIRI、手機/電腦上的語音輸入法及智慧音箱等應用都可看見音轉字的身影,而在實際使用音轉字時,可能會受環境噪音干擾,此時需要靠端點偵測及語音增強等技術來維持辨識準確度,並且介紹跟語音辨識相關的技術,如:智慧音箱上的喚醒語偵測、掌握語音中每段聲音是誰在說話的語者分段,最後提供國、台、客語音轉字線上體驗。

端點偵測(Endpoint Detection)

端點偵測(Endpoint Detection)的目標是要決定語音開始和結束的位置,又可以稱為 Speech Detection 或是 VAD (Voice Activity Detection)。VAD在音訊處理與辨識中,可過濾掉非語音的訊號,改善語音辨識率。

喚醒語偵測(Wake Word Detection)

在使用智慧音箱的情境下,在進行語音互動前,音箱需要先被喚醒,從休眠狀態進入工作狀態,才能正常的處理使用者的指令。把音箱從休眠狀態叫醒到工作狀態所使用到的技術即為喚醒語偵測。

語音增強(Speech Enhancement)

語音增強(Speech Enhancement)是指當語音訊號被各式各樣的噪音干擾,從噪音背景中提取有用的語音訊號,是一種抑制及降低噪音干擾的技術,簡言之,從有噪音的語音中提取盡可能乾淨的語音。

語者分段(Speaker Diarization)

語者分段(Speaker Diarization)可以從一段語音中,識別出是誰在説話,其又説了些什麽。
由於每個人的聲學特徵不一樣,根據聲學信息,我們就能將分散的語音訊號進行聚類(Clustering),一名説話者對應至一類,從而標註出每一個片段的説話者。

音轉字(Speech to Text)

音轉字(Speech to Text, STT)其目的是自動將人類的語音內容轉換為相應的文字,俗稱逐字稿,而且還會在逐字稿中自動加上標點符號。

台語STT展示:

客語STT展示: