基於聽覺語言學與模糊類神經網路之英文母音辨識技術

Speaker-Independent English Vowel Recognition Technique Based on Acoustic-Phonetics and Fuzzy Neural Networks

研究生:洪英士            指導教授:林進燈博士

主  題

本論文中,我們提出新的語者不相關的英文母音辨識技術。首先,我們提出一組名為「聽學增強型-離散餘弦序列係數(AE-DCSC)」的新特徵。此特徵的想法是將許多聽學語言學上有關英文母音的研究成果實現在頻譜的強化上,讓其更具有代表性與差異化。並用本實驗室所研發的模糊類神經推論網路(SONFIN)為主要的辨識器。最後,針對信心度較低的辨識節果,我們以一基於語言學知識的資料庫加以確認其結果。本系統的架構如下圖所示:

 

 

其中,頻譜正規化(Spectrum-Level-Normalization)用以平衡不同共振峰(Formants)的高度差異。根據語言學的研究,共振峰的位置比其高度來的重要。高度的差異並不會影響母音的聲音品質。諧音的強化(enhancement of spectral peaks)則能有效的壓抑介於諧音(Harmonics)間頻譜微小的變化,通常期間很容易隱藏著雜訊的干擾。因此,經由ESP的處理,頻譜將更具強健性與抗雜訊的能力。由下圖的例子裡,我們可以發現,經過我們所提方法處理過後的頻譜,在共振峰的大小上,我們盡量使其接近。並有效地強調諧音的分佈。

 

 

為了能在有限的特徵維度裡有效地保留母音頻譜隨時間的變化情形,我們採用了離散餘弦序列係數(DCSCs)這項技術。此技術具有可改變的頻率與時間的彎曲比例,這讓我們能根據訊號的特性,找出最具有代表性的特徵。為了求取DCSCs,我們需先對每一個音框求DCTCs係數。

 

 

 

而在本系統中,我們採用前向式自我建構類神經模糊推理網路(SONFIN)做為核心辨識器。利用其可自我建構並調整的架構與參數學習功能,與優異的模糊類神經推論過程,來達到較佳之辨識效果。

 

 

最後,我們提出基於語言學特徵的確認程序。針對較為混淆的辨識結果,擷取其在聽學語言學上的特徵,並與我們事先建立的知識庫理的模型比對。以找出最可信的辨識結果。

 

 

 

實驗結果

Feature set

Method

Accuracy

DCSCs

Partitioned Neural Networks

71.50%

DCSCs

SONFIN

72.72%

Acoustic-Enhanced-DCSCs

SONFIN

74.47%

Acoustic-Enhanced-DCSCs

SONFIN +   Acoustic Checking

74.75%

實驗證明,在TIMIT的資料庫下,此系統的辨識率可達74.75%,優於其他在文獻上所見的結果。這說明了我們在此所提出的辨識系統所具有的潛力與優越性。