3D Surround Audio Applied on Headphone

馮米塞斯函數類神經網路及 其於頭部相關位置脈衝響應之模型建立

Von Mises Basis Function Network for Head-Related-Impulse-Response Modeling

 

研究生:方柏凱            指導教授:林進燈博士

主  題

 

在本論文中,我們建立了一個3D環繞音效的系統模型。

系統架構如下:

 

首先我們採用麻省理工學院所建立的頭部相關位置脈衝響應(Head-Related-Impulse-Response)為資料庫,然後把此資料庫加以分析及壓縮,建立起一套可以產生任何方向聲音源的系統,所使用的方法為主成份分析(PCA)以及類神經網路。由於鄰近方向的HRIR之間的變化差異度不大,所以整個HRIR資料庫可以當成是相關的隨機變數所建立而成。而主成份分析主要的作用就是將HRIR資料庫,經某種線性組合轉換成新的一組無相關的隨機變數。這樣的線性轉換就會使得原HRIR資料庫的變異集中在少數的新隨機變數上。因此欲簡化過多而複雜HRIR,則可選取少數變異大的新變數,而捨棄變異小的新變數。其中代表每組HRIR線性組合的權重,稱為SCFs(Spatial Feature Extractions)。

我們針對要使用幾個基底做了一個實驗,實驗結果如下,橫軸為我們使用基底的個數,縱軸為使用基底合成HRIRs和資料庫中HRIRs之間的誤差:

 

最後我們採取了14個基底來表示我們的HRIRs

為了得到未取樣位置的SCFs,我們使用了類神經網路來訓練已有取樣位置的SCFs來內插出未取樣位置的SCFs。由於SCFs在空間中的分布形狀和馮米塞斯函數(Von Mises Function)相近,所以我們利用徑向基底函數網路(Radial Basis Function Network)的架構,把高斯基底函數換成馮米塞斯函數來訓練模擬各個來自不同經度緯度的SCFs。

左圖  馮米塞斯函數在空間中分布的形狀右圖  六個馮米塞斯函數分別分布在不同經度緯度的狀況(經度, 緯度): (0∘,90∘), (90∘,90∘), (180∘,90∘), (270∘,90∘), (0∘,0∘), (0∘,180∘)

馮米塞斯基底函數類神經網路的架構圖:

於是在經過不同學習法則的比較後,發現利用正交化最小平方學習法則(Orthogonal Least Square Learning Algorithm)可以用最少個數的馮米塞斯函數當作隱藏層節點(hidden layer node),會得到比其他學習法則小的偏差均方根(Root Mean Square Error)。如此一來我們即可達到降低資料儲存量的目的。同時也可以利用此類神經網路來平滑(smoothing)及內插整個HRIR音場。最後根據聲響心理學的各種不同的遮罩理論,把聲音源分別和模擬出來左右耳的HRIR做摺積,就能產生出3D的環繞音效。

 

實驗結果

            左圖為RBFN網路在back propagation和orthogonal least square這兩種學習法則下的結果右圖為VMBFN網路在back propagation和orthogonal least square這兩種學習法則下的結果其中橫軸為隱藏層中節點的個數,縱軸為訓練的誤差。

不同個數訓練資料的訓練結果:

Numbers of training set

RMS error of the SCF using VMBF

RMS error of

the SCF using RBFN

RMS error of the HRIR using VMBF

RMS error of the HRIR using RBFN

700

0.0588

0.0617

0.0213

0.0222

690

0.0824

0.0882

0.0285

0.0303

610

0.0962

0.1017

0.0329

0.0347

510

0.1013

0.1036

0.0346

0.0353

410

0.1052

0.1058

0.0351

0.0355

310

0.1067

0.1069

0.0363

0.0364

 

3D音效合成結果

動態:

          雜訊:

                 1. 

                  原音     : tick1.wav

                  3D音效: tick1_sim.wav

                 2.

                  原音                : noise.wav

                  3D音效水平面:horizontal.wav

                  3D音效垂直面:vertical.wav

          蚊子: 

                  原音     : mosquito.wav

                  3D音效: mosquito_sim.wav

          人聲:

                  原音     : man.wav, lady.wav

                  3D音效: man&lady_sim.wav

          音效:

                  3D音效:movie.wav

靜態;

           圖中的1,2,3,4,5分別為不同的樂器,樂器出現的次序分別為:1->2->3->4->5->5,2->5,1   instrument.wav