正文

理解MPEG聲學模型中短窗和長窗的判決和使用

(2010-06-13 23:26:20) 下一個
在MPEG多層聲頻編碼中,聲學模型中用了2種長度的FFT,1024長度的長FFT和3個256長度的短FFT;
得到的結果一起使用,轉變成另一組513維的數據數組;再轉變到一個63維的數組;
以此同時,還得到幀內總能量,根據能量大小,決定本次MDCT的加權係數選擇,我們有四種加權係數窗口,可以分為,一般窗,開始窗,結束窗和短時窗四種;一般窗的能量小,短時窗的能量大,而開始窗和結束窗則是前麵兩種窗的過渡窗;
從信號的能量大小,引致MDCT的加權係數的改變,當然還有其他的編碼影響,這是什麽原因呢?
我覺得這裏根本上,是要區分能量的大小問題,這是頻域聲頻編碼的核心。能量小的信號,由於掩蔽效應基本上不用或用很少的編碼帶寬,盡量把編碼帶寬用在能量大的聲頻幀中。用短窗可以得到MDCT的中頻和高頻段被boost的效果。
有人說長窗的可以提供最細的頻譜解析度,短窗可以提供最細的時間解析度,我需要時間來理解這句話。
[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.