专利摘要:
本揭露之一種語音增強方法,包含下列步驟:利用麥克風陣列接收複數個音框之聲音訊號;計算各音框之聲音訊號於各頻段對應之至少一雙麥克風組合之兩耳時間差;根據該計算結果統計各音框之聲音訊號之兩耳時間差之累積直方圖;根據該等累積直方圖計算一第一兩耳時間差門檻值;以及根據該第一兩耳時間差過濾該等音框之聲音訊號。
公开号:TW201312551A
申请号:TW100132942
申请日:2011-09-14
公开日:2013-03-16
发明作者:Hsien-Cheng Liao
申请人:Ind Tech Res Inst;
IPC主号:H04R3-00
专利说明:
語音增強方法
本揭露係關於語音增強(speech enhancement)技術。
語音增強技術係一種將接收到之語音訊號予以濾除不必要之噪音干擾以增強該語音內容的方法。其可使用於語音通訊、語音人機介面(user voice interface)、語音輸入(voice input)及其他各種應用。近年來,隨著各種行動裝置、車用電子和機器人的快速發展,在具有噪音干擾的環境中進行語音通訊、語音輸入或語音人機互動的機率日漸提高,如何濾除雜訊以增強語音內容,提高語音通訊或語音人機互動之品質,成為此領域之重要課題。
一般而言,透過麥克風所擷取到之語音訊號,皆包含了目標音源和干擾音源。該干擾音源會造成語音通訊或語音人機互動的困難度升高。為提昇語音通訊或語音人機互動之品質,勢必需要降低干擾音源對整體聲音訊號所造成的干擾。先前許多語音增強技術使用了濾波器、適應性濾波器、統計模型等方法,結合單一麥克風來進行語音增強,然其效能皆有其限制。近年來,使用多麥克風進行語音增強的技術因其效能普遍來說,較使用單一麥克風較佳,因此開始受到重視。然而,該類技術所需運算量較大,通常無法使用在運算資源受到限制的行動裝置上。因此,一搭配麥克風陣列且運算相對簡單的語音增強方法,而仍能達成有效降低干擾音源的目的,將會成為極具價值的發明。本揭露即提供該語音增強方法。
本揭露之一實施範例揭示一種語音增強方法,包含下列步驟:利用一麥克風陣列接收複數個音框之聲音訊號;計算各音框之聲音訊號於各頻段對應該複數個麥克風中之至少一雙麥克風組合之兩耳時間差(inter-aural time difference);根據該計算結果統計各音框之聲音訊號之兩耳時間差之累積直方圖(cumulative histogram);根據該等累積直方圖計算一第一兩耳時間差門檻值;以及根據該第一兩耳時間差門檻值過濾該等音框之聲音訊號。
本揭露之一實施範例揭示語音增強系統,包含一麥克風陣列、一累積直方圖模組、一第一兩耳時間差門檻值計算模組以及一聲音訊號過濾模組。該兩耳時間差計算模組用以計算各音框之聲音訊號於各頻段對應該複數個麥克風中之至少一雙麥克風組合之兩耳時間差。該累積直方圖模組用以計算各音框兩耳時間差之累積直方圖。該第一兩耳時間差門檻值計算模組用以計算基於累積直方圖之第一兩耳時間差門檻值。該聲音訊號過濾模組用以過濾基於第一兩耳時間差門檻值之聲音訊號。
本揭露之另一實施範例揭示一種語音增強方法,包含下列步驟:利用一麥克風陣列接收複數個音框之聲音訊號;計算各音框之聲音訊號於各頻段對應該複數個麥克風中之至少一雙麥克風組合之兩耳時間差;根據該計算結果統計各音框之聲音訊號之兩耳時間差之直方圖和累積直方圖;根據該等累積直方圖計算一第一兩耳時間差門檻值;根據該等直方圖和該第一兩耳時間差門檻值計算一第二兩耳時間差門檻值;以及根據該第一兩耳時間差門檻值和該第二兩耳時間差門檻值過濾該等音框之聲音訊號。其中,該第二兩耳時間差門檻值大於該第一兩耳時間差門檻值。
本揭露之另一實施範例揭示語音增強系統,包含一麥克風陣列、一累積直方圖模組、一第一兩耳時間差門檻值計算模組、一第二兩耳時間差門檻值計算模組以及一聲音訊號過濾模組。該兩耳時間差計算模組用以計算各音框之聲音訊號於各頻段對應該複數個麥克風中之至少一雙麥克風組合之兩耳時間差。該累積直方圖模組用以計算各音框兩耳時間差之累積直方圖。該第一兩耳時間差門檻值計算模組用以計算基於累積直方圖之第一兩耳時間差門檻值。該第二兩耳時間差門檻值計算模組用以計算基於直方圖和該第一兩耳時間差門檻值之第二兩耳時間差門檻值。該聲音訊號過濾模組用以過濾基於第一兩耳時間差門檻值和該第二兩耳時間差門檻值之聲音訊號。
上文已經概略地敍述本揭露之技術特徵,俾使下文之詳細描述得以獲得較佳瞭解。構成本揭露之申請專利範圍標的之其它技術特徵將描述於下文。本揭露所屬技術領域中具有通常知識者應可瞭解,下文揭示之概念與特定實施例可作為基礎而相當輕易地予以修改或設計其它結構或製程而實現與本揭露相同之目的。本揭露所屬技術領域中具有通常知識者亦應可瞭解,這類等效的建構並無法脫離後附之申請專利範圍所提出之本揭露的精神和範圍。
本揭露在此所探討的方向為一種語音增強方法。為了能徹底地瞭解本揭露,將在下列的描述中提出詳盡的步驟。顯然地,本揭露的施行並未限定於本揭露技術領域之技藝者所熟習的特殊細節。另一方面,眾所周知的步驟並未描述於細節中,以避免造成本揭露不必要之限制。本揭露的較佳實施例會詳細描述如下,然而除了這些詳細描述之外,本揭露還可以廣泛地施行在其他的實施例中,且本揭露的範圍不受限定,其以之後的專利範圍為準。
圖1顯示本揭露之一實施例之語音增強系統之示意圖。如圖1所示,該語音增強系統100係用以接收一正向面對之目標音源150之聲音訊號,並包含一雙麥克風式(doule-microphone)之麥克風陣列102。然而,該麥克風陣列102也會同時接收另一干擾音源160所發出之聲音訊號。由於該語音辨識系統100係正向面對該目標音源150,其聲音訊號傳遞至該雙麥克風式之麥克風陣列102之左右兩麥克風之時間相同。反之,由於該語音辨識系統100和該干擾音源160具有一角度,該干擾音源160所發出之聲音訊號到達該雙麥克風式之麥克風陣列102之左右兩麥克風之時間不同,而此時間差即定義為兩耳時間差。本揭露之語音辨識方法即藉由兩耳時間差之計算以排除該干擾音源160所發出之聲音訊號。
圖2顯示本揭露之一實施例之語音辨識方法之流程圖。在步驟201,利用一雙麥克風式之麥克風陣列接收複數個音框之聲音訊號,並進入步驟202。在步驟202,計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差,並進入步驟203。在步驟203,根據該計算結果統計各音框之聲音訊號之兩耳時間差之累積直方圖,並進入步驟204。在步驟204,根據該等累積直方圖計算一第一兩耳時間差門檻值,並進入步驟205。在步驟205,根據該第一兩耳時間差門檻值過濾該等音框之聲音訊號。
復參圖1,本揭露之另一實施例之語音增強系統,對應至圖2之方法,除該雙麥克風式之麥克風陣列102及其收音模組外,另包含一兩耳時間差計算模組、一累積直方圖模組、一第一兩耳時間差門檻值計算模組以及一聲音訊號過濾模組。該兩耳時間差計算模組,如步驟202,用以計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差。該累積直方圖模組,如步驟203,用以計算各音框兩耳時間差之累積直方圖。該第一兩耳時間差門檻值計算模組,如步驟204,用以計算基於累積直方圖之第一兩耳時間差門檻值。該聲音訊號過濾模組,如步驟205,用以過濾基於第一兩耳時間差門檻值之聲音訊號。
以下例示應用圖1之語音增強系統和圖2之語音增強方法。在步驟201,該雙麥克風式之麥克風陣列102接收複數個音框之聲音訊號,其包含該目標音源150和該干擾音源160所發出之聲音訊號。在步驟202,計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差。圖3顯示該雙麥克風式之麥克風陣列102之其中一麥克風於某一音框所接收之聲音訊號及其經由離散傅立業轉換後所得到之頻域之聲音訊號。若該雙麥克風式之麥克風陣列102於第m 0個音框之第k 0個頻段(第k 0個點)所接收之頻域之聲音訊號分別為X L (k 0;m 0)和X R (k 0;m 0),則該雙麥克風式之麥克風陣列102於第m 0個音框之第k 0個頻段之兩耳時間差|d(k 0,m 0)|可表示為,其中∠X R (k 0,m 0)和∠X R (k 0,m 0)分別代表X R (k 0;m 0)和X L (k 0;m 0)之相位值;2πr則為一補償項,可使得∠X R (k 0,m 0)和∠X R (k 0,m 0)的相位差落於0-2π之間;ω k0 則為角速度。
在步驟203,根據該計算結果統計各音框之聲音訊號之兩耳時間差之累積直方圖。圖4顯示兩不同音框所計算之兩耳時間差之累積直方圖。其中,虛線之累積直方圖所對應之音框僅有該干擾音源160所發出之聲音訊號,而實線之累積直方圖所對應之音框同時包含該目標音源150和該干擾音源160所發出之聲音訊號。如圖4所示,由於該虛線之累積直方圖所對應之音框未包含該目標音源150所發出之聲音訊號,其於兩耳時間差為零之成分較低。反之,由於該實線之累積直方圖所對應之音框包含該目標音源150所發出之聲音訊號,其於兩耳時間差為零之成分較高。
在步驟204,根據該等累積直方圖計算一第一兩耳時間差門檻值。圖5顯示根據複數個音框所計算之兩耳時間差之累積直方圖。本揭露之部分實施例即各別針對該等音框之累積直方圖於不同兩耳時間差計算其變異數,並根據該等變異數之最大值決定一第一兩耳時間差門檻值。如圖5所示,該等累積直方圖係於箭頭所示處具有最大之變異數,故其對應之兩耳時間差即為該第一兩耳時間差門檻值。
在步驟205,根據該第一兩耳時間差門檻值過濾該等音框之聲音訊號。本揭露之部分實施例係先尋找該雙麥克風式之麥克風陣列102所接收之該等音框之聲音訊號於各頻段之兩耳時間差高於該第一兩耳時間差門檻值之過濾頻段,並濾除該等音框之聲音訊號於該等過濾頻段之成分。
在本揭露之部分實施例中,步驟205可由下列式子表示:,其中γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差門檻值,η為一最小單元變數。在本揭露之部分實施例中,η等於0.01。在本揭露之部分實施例中,步驟205可由下列式子表示:,其中γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差,β為一控制過濾程度之變數,即β越大則過濾程度越高。
如上列兩式所示,步驟205主要係保留兩耳時間差低於該第一兩耳時間差門檻值之頻段,並濾除兩耳時間差高於該第一兩耳時間差門檻值之頻段。另一方面,本揭露之部分實施例係利用不同音框之兩耳時間差之累積直方圖之變異數決定該第一兩耳時間差門檻值,而變異數之決定方法可藉由遞迴方式根據一先前計算之變異數計算出一更新之變異數。因此,本揭露之語音辨識方法可節省存放先前音框之聲音訊號之硬體空間及達到節省運算量之目的。換言之,僅需存放先前計算之變異數並接收新的聲音訊號,即可更新該第一兩耳時間差門檻值。
圖2所示之語音辨識方法係將該語音辨識系統100所接收之聲音訊號之兩耳時間差,亦即相對該語音辨識系統100之不同角度之音源做不同程度之過濾。換言之,圖2所示之語音辨識方法係將兩耳時間差低於該第一兩耳時間差門檻值定義為主要分布區間,並將兩耳時間差高於該第一兩耳時間差門檻值定義為過濾區間。本揭露之部分實施例係再進一步定義一介於該主要分布區間和該過濾區間之間之一次要分布區間,其過濾程度係介於該主要分布區間和該過濾區間之間。
圖6顯示本揭露之另一實施例之語音增強方法之流程圖。在步驟601,利用一雙麥克風式之麥克風陣列接收複數個音框之聲音訊號,並進入步驟602。在步驟602,計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差,並進入步驟603。在步驟603,根據該計算結果統計各音框之聲音訊號之兩耳時間差之直方圖和累積直方圖,並進入步驟604。在步驟604,根據該等累積直方圖計算一第一兩耳時間差門檻值,並進入步驟605。在步驟605,根據該等直方圖和該第一兩耳時間差計算一第二兩耳時間差門檻值,並進入步驟606,其中該第二兩耳時間差大於該第一兩耳時間差。在步驟606,根據該第一兩耳時間差門檻值和該第二兩耳時間差門檻值過濾該等音框之聲音訊號。
復參圖1,本揭露之另一實施例之語音增強系統,對應至圖6之方法,除該雙麥克風式之麥克風陣列102及其收音模組外,另包含一兩耳時間差計算模組、一累積直方圖模組、一第一兩耳時間差門檻值計算模組、一第二兩耳時間差門檻值計算模組以及一聲音訊號過濾模組。該兩耳時間差計算模組,如步驟602,用以計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差。該累積直方圖模組,如步驟603,用以計算各音框兩耳時間差之累積直方圖。該第一兩耳時間差門檻值計算模組,如步驟604,用以計算基於累積直方圖之第一兩耳時間差門檻值。該第二兩耳時間差門檻值計算模組,如步驟605,用以計算基於直方圖和該第一兩耳時間差門檻值之第二兩耳時間差門檻值。該聲音訊號過濾模組,如步驟606,用以過濾基於第一兩耳時間差門檻值和該第二兩耳時間差門檻值之聲音訊號。
比較圖2和圖6之語音辨識方法,圖6係進一步計算一第二兩耳時間差門檻值,並根據第一兩耳時間差門檻值和第二兩耳時間差門檻值過濾聲音訊號。以下例示應用圖1之語音增強系統和圖6之語音增強方法。步驟601和602相似於步驟201和202,為簡明起見,在此不詳加敘述。在步驟603,根據該計算結果統計各音框之聲音訊號之兩耳時間差之直方圖和累積直方圖。圖7顯示兩不同音框所計算之兩耳時間差之直方圖。其中,虛線之直方圖所對應之音框僅有該干擾音源160所發出之聲音訊號,而實線之直方圖所對應之音框同時包含該目標音源150和該干擾音源160所發出之聲音訊號。如圖7所示,由於該虛線之直方圖所對應之音框未包含該目標音源150所發出之聲音訊號,其於兩耳時間差為零之成分較低。反之,由於該實線之直方圖所對應之音框包含該目標音源150所發出之聲音訊號,其於兩耳時間差為零之成分較高。步驟604相似於步驟204,為簡明起見,在此不詳加敘述。
在步驟605,根據該等直方圖和該第一兩耳時間差門檻值計算一第二兩耳時間差門檻值。圖8顯示根據複數個音框所計算之兩耳時間差之直方圖。在本揭露之部分實施例中,係先根據該等直方圖計算目標音源150和干擾音源160之訊雜比,再根據該目標音源150和干擾音源160之訊雜比、該干擾音源160所對應之兩耳時間差和該第一兩耳時間差門檻值決定該第二兩耳時間差門檻值。如圖8所示,在本揭露之部分實施例中,係將兩耳時間差小於第一兩耳時間差門檻值之範圍所對應之最大直方圖值決定為目標音源150之訊號強度Smax,並將兩耳時間差大於第一兩耳時間差門檻值之範圍所對應之最大直方圖值決定為干擾音源160之訊號強度Nmax。據此,即可根據圖8所示之直方圖決定該目標音源150和干擾音源160之訊雜比為Smax/Nmax
在本揭露之部分實施例中,該第二兩耳時間差可藉由下列式子決定:τ21+δ+R×SNR,其中τ1代表該第一兩耳時間差,τ2代表該第二兩耳時間差,R為該干擾音源160所對應之兩耳時間差和該第一兩耳時間差門檻值之差值,SNR代表該目標音源150和該干擾音源160之訊雜比,δ為一最小角度單元變數。在本揭露之部分實施例中,δ等於0.1。復參圖8,若該目標音源150和該干擾音源160之訊雜比SNR約等於0.5,則該第二兩耳時間差約介於該第一兩耳時間差門檻值和該干擾音源160所對應之兩耳時間差之間。
在本揭露之部分實施例中,該第二兩耳時間差可藉由下列式子決定:,其中τ1代表該第一兩耳時間差門檻值,τ2代表該第二兩耳時間差門檻值,R為該干擾音源所對應之兩耳時間差和該第一兩耳時間差門檻值之差值,SNR代表該目標音源150和該干擾音源160之訊雜比,β為一控制過濾程度之變數,δ為一最小角度單元變數。在本揭露之部分實施例中,δ等於0.1。在這些實施例中,若該目標音源150和該干擾音源160之訊雜比大於0.5,則該次要分布區間之範圍較大。反之,若該目標音源150和該干擾音源160之訊雜比小於0.5,則該次要分布區間之範圍較小。
在步驟606,根據該第一兩耳時間差門檻值和該第二兩耳時間差門檻值過濾該等音框之聲音訊號。在本揭露之部分實施例中,係尋找該等音框之聲音訊號於各頻段之兩耳時間差高於該第二兩耳時間差門檻值之過濾頻段,並濾除該等音框之聲音訊號於該等過濾頻段之成分,以及尋找該等音框之聲音訊號於各頻段之兩耳時間差介於該第二兩耳時間差門檻值和該第一兩耳時間差門檻值之減弱頻段,並減弱該等音框之聲音訊號於該等減弱頻段之成分,以供得到一增強語音訊號。換言之,該增強語音訊號為複數個音框之聲音訊號除去過濾頻段之成分並減弱該等減弱頻段之成分。在本揭露之部分實施例中,步驟606可由下列式子表示:,其中γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差門檻值,τ2代表該第二兩耳時間差門檻值,α為一介於0和1之間之控制過濾程度之變數,η為一最小單元變數。在本揭露之部分實施例中,η等於0.01。
如上所述,在主要分布區間之範圍內,係保留該等頻段之成分,在次要分布區間之範圍內,係減弱該等頻段之成分,而在過濾區間之範圍內,係濾除該等頻段之成分,而得到增強語音訊號。在本揭露之部分實施例中,α正比於目標音源和干擾音源之訊雜比,並可由下列式子表示:,其中SNR代表目標音源和干擾音源之訊雜比,並可由前述Smax/Nmax之方式決定,β為一控制過濾程度之變數,即β越大則過濾程度越高。
復參圖1之語音增強系統,若該目標音源150位於非正對麥克風方向時,只需在兩耳時間差計算上加上一補償項,使其方向轉變為正對麥克風。熟悉本項技術者便可依據上述實施例實施本發明,在此不再贅述。
又如圖1所示,該語音增強系統100,其中一雙麥克風式之麥克風陣列102,係由兩個麥克風所組成之陣列,然該系統並不限於使用單一雙麥克風式之麥克風陣列,兩個麥克風以上之麥克風陣列亦可任意挑選兩個麥克風之至少一種組合來實施本發明,複數個麥克風式之麥克風陣列收音模組之該至少一組雙麥克風所得到之增強語音訊號,可再經由權重模組以加諸預設權重(如W1及W2)的方式進行處理以達到進一步的增強。如圖9為一包含4個麥克風之麥克風陣列,例如選擇麥克風a與麥克風d進行如圖6所示語音增強步驟而得到增強語音訊號1(Enhanced Signal 1),而麥克風b與麥克風c進行如圖6所示語音增強步驟而得到增強語音訊號2(Enhanced Signal 2),增強語音訊號1與增強語音訊號2可經由下式計算而得加權後之增強語音訊號:
其中W1與W2分別為增強語音訊號1與增強語音訊號2的權重。圖9顯示包含4隻麥克風之麥克風陣列的語音增強系統,此系統係由麥克風陣列任意挑選兩個麥克風之至少一組麥克風來實施本發明並得到加權後之增強語音訊號,在此不再贅述。同理,3個麥克風陣列(無圖式),分別計算麥克風之x、y與麥克風y、z或麥克風x、z之增強語音訊號1與增強語音訊號2及依據其權重而得加權後之增強語音訊號。
綜上所述,本揭露之語音辨識方法利用兩耳時間差之累積直方圖決定一主要分布區間和一過濾區間,並分配以不同之過濾程度以過濾所接收之聲音訊號。另一方面,本揭露之語音辨識方法利用麥克風陣列和簡單之計算即可達成。
本揭露之技術內容及技術特點已揭示如上,然而熟悉本項技術之人士仍可能基於本揭露之教示及揭示而作種種不背離本揭露精神之替換及修飾。因此,本揭露之保護範圍應不限於實施例所揭示者,而應包括各種不背離本揭露之替換及修飾,並為以下之申請專利範圍所涵蓋。
100...語音增強系統
102...麥克風陣列
150...目標音源
160...干擾音源
201~205...步驟
601~606...步驟
圖1顯示本揭露之一實施例之語音增強系統之示意圖;
圖2顯示本揭露之一實施例之語音增強方法之流程圖;
圖3顯示本揭露之一實施例之聲音訊號之時域和頻域圖;
圖4顯示本揭露之一實施例所計算之兩耳時間差之累積直方圖;
圖5顯示本揭露之另一實施例所計算之兩耳時間差之累積直方圖;
圖6顯示本揭露之另一實施例之語音增強方法之流程圖;
圖7顯示本揭露之一實施例所計算之兩耳時間差之直方圖;以及
圖8顯示本揭露之另一實施例所計算之兩耳時間差之直方圖;以及
圖9顯示本揭露之一實施例之語音增強系統之示意圖。
201~205...步驟
权利要求:
Claims (26)
[1] 一種語音增強方法,包含下列步驟:利用一雙麥克風式之麥克風陣列接收複數個音框之聲音訊號;計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差;根據該計算結果統計各音框之聲音訊號之兩耳時間差之累積直方圖;根據該等累積直方圖計算一第一兩耳時間差門檻值;以及根據該第一兩耳時間差門檻值過濾該等音框之聲音訊號。
[2] 根據請求項1所述之方法,其中該計算第一兩耳時間差門檻值之步驟包含下列次步驟:計算該等累積直方圖於各兩耳時間差之變異數;以及決定該等變異數之最大值所對應之兩耳時間差為該第一兩耳時間差門檻值。
[3] 根據請求項1所述之方法,其中該變異數之計算係根據一先前計算之變異數以遞迴方式計算出一更新之變異數。
[4] 根據請求項1所述之方法,其中該過濾聲音訊號之步驟包含下列次步驟:尋找該等音框之聲音訊號於各頻段之兩耳時間差高於該第一兩耳時間差門檻值之過濾頻段,並濾除該等音框之聲音訊號於該等過濾頻段之成分。
[5] 根據請求項4所述之方法,其中該濾除聲音訊號之步驟可由下列式子表示:,γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差門檻值,η為一最小單元變數。
[6] 根據請求項5所述之方法,其中η等於0.01。
[7] 根據請求項4所述之方法,其中該濾除聲音訊號之步驟可由下列式子表示:,γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差門檻值,β為一控制過濾程度之變數。
[8] 一種語音增強方法,包含下列步驟:利用一雙麥克風式之麥克風陣列接收複數個音框之聲音訊號;計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差;根據該計算結果統計各音框之聲音訊號之兩耳時間差之直方圖和累積直方圖;根據該等累積直方圖計算一第一兩耳時間差門檻值;根據該等直方圖和該第一兩耳時間差門檻值計算一第二兩耳時間差門檻值;以及根據該第一兩耳時間差門檻值和該第二兩耳時間差門檻值過濾該等音框之聲音訊號;其中該第二兩耳時間差門檻值大於該第一兩耳時間差門檻值。
[9] 根據請求項8所述之方法,其中該計算第一兩耳時間差門檻值之步驟包含下列次步驟:計算該等累積直方圖於各兩耳時間差之變異數;以及決定該等變異數之最大值所對應之兩耳時間差為該第一兩耳時間差門檻值。
[10] 根據請求項9所述之方法,其中該變異數之計算係根據一先前計算之變異數以遞迴方式計算出一更新之變異數。
[11] 根據請求項8所述之方法,其中該計算第二兩耳時間差門檻值之步驟包含下列次步驟:根據該等直方圖計算目標音源和干擾音源之訊雜比;以及根據該目標音源和干擾音源之訊雜比、該干擾音源所對應之兩耳時間差和該第一兩耳時間差門檻值決定該第二兩耳時間差門檻值。
[12] 根據請求項11所述之方法,其中該訊雜比為該等直方圖所決定之目標音源和干擾音源對應之數值之比例。
[13] 根據請求項11所述之方法,其中該第二兩耳時間差門檻值可由下列式子表示:τ21+δ+R×SNR,τ1代表該第一兩耳時間差門檻值,τ2代表該第二兩耳時間差門檻值,R為該干擾音源所對應之兩耳時間差和該第一兩耳時間差門檻值之差值,SNR代表該目標音源和干擾音源之訊雜比,δ為一最小角度單元變數。
[14] 根據請求項13所述之方法,其中δ等於0.1。
[15] 根據請求項11所述之方法,其中該第二兩耳時間差門檻值可由下列式子表示:,τ1代表該第一兩耳時間差門檻值,τ2代表該第二兩耳時間差門檻值,R為該干擾音源所對應之兩耳時間差和該第一兩耳時間差門檻值之差值,SNR代表該目標音源和干擾音源之訊雜比,β為一控制過濾程度之變數,δ為一最小角度單元變數。
[16] 根據請求項15所述之方法,其中δ等於0.1。
[17] 根據請求項8所述之方法,其中該過濾聲音訊號之步驟包含下列次步驟:尋找該等音框之聲音訊號於各頻段之兩耳時間差高於該第二兩耳時間差門檻值之過濾頻段,並濾除該等音框之聲音訊號於該等過濾頻段之成分;以及尋找該等音框之聲音訊號於各頻段之兩耳時間差介於該第二兩耳時間差門檻值和該第一兩耳時間差門檻值之減弱頻段,並減弱該等音框之聲音訊號於該等減弱頻段之成分。
[18] 根據請求項17所述之方法,其中該濾除和減弱聲音訊號之步驟可由下列式子表示:,γ(k 0,m 0)代表第m 0個音框於第k 0個頻段的過濾值,d(k 0,m 0)代表第m 0個音框於第k 0個頻段的兩耳時間差,τ1代表該第一兩耳時間差門檻值,τ2代表該第二兩耳時間差門檻值,α為一介於0和1之間之控制過濾程度之變數,η為一最小單元變數。
[19] 根據請求項18所述之方法,其中η等於0.01。
[20] 根據請求項18所述之方法,其中α正比於目標音源和干擾音源之訊雜比。
[21] 根據請求項20所述之方法,其中該訊雜比為該等直方圖所決定之目標音源和干擾音源對應之數值之比例。
[22] 根據請求項20所述之方法,其中α可由下列式子決定:,SNR代表目標音源和干擾音源之訊雜比,β為一控制過濾程度之變數。
[23] 一種語音增強系統,包含:一麥克風陣列收音模組,該麥克風陣列收音模組為雙麥克風式之麥克風陣列;一兩耳時間差計算模組,用以計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差;一累積直方圖模組,用以計算各音框兩耳時間差之累積直方圖;一第一兩耳時間差門檻值計算模組,用以計算基於累積直方圖之第一兩耳時間差門檻值;以及一聲音訊號過濾模組,用以過濾基於第一兩耳時間差門檻值之聲音訊號。
[24] 一種語音增強系統,包含:一麥克風陣列收音模組,該麥克風陣列收音模組為雙麥克風式之麥克風陣列;一兩耳時間差計算模組,用以計算各音框之聲音訊號於各頻段對應該雙麥克風式之麥克風陣列之兩耳時間差;一累積直方圖模組,用以計算各音框兩耳時間差之直方圖和累積直方圖;一第一兩耳時間差門檻值計算模組,用以計算基於累積直方圖之第一兩耳時間差門檻值;一第二兩耳時間差門檻值計算模組,用以計算基於直方圖和該第一兩耳時間差門檻值之第二兩耳時間差門檻值計算模組;以及一聲音訊號過濾模組,用以過濾基於第一兩耳時間差門檻值和該第二兩耳時間差門檻值之聲音訊號。
[25] 一種語音增強方法,包含下列步驟:利用一麥克風陣列接收複數個音框之聲音訊號,該麥克風陣列包含複數個麥克風;計算各音框之聲音訊號於各頻段對應該複數個麥克風之至少一雙麥克風組合之兩耳時間差;根據該計算結果統計各音框之聲音訊號之兩耳時間差之直方圖和累積直方圖;根據該等累積直方圖計算一第一兩耳時間差門檻值;根據該等直方圖和該第一兩耳時間差門檻值計算一第二兩耳時間差門檻值;根據該第一兩耳時間差門檻值和該第二兩耳時間差門檻值過濾該等音框之聲音訊號,而得到至少一增強語音訊號,其中該第二兩耳時間差門檻值大於該第一兩耳時間差門檻值;以及加權該至少一增強語音訊號而得到一加權後之增強語音訊號。
[26] 一種語音增強系統,包含:一麥克風陣列收音模組,該麥克風陣列收音模組包含複數個麥克風;一兩耳時間差計算模組,用以計算各音框之聲音訊號於各頻段對應該複數個麥克風之至少一雙麥克風組合之兩耳時間差;一累積直方圖模組,用以計算各音框兩耳時間差之直方圖和累積直方圖;一第一兩耳時間差門檻值計算模組,用以計算基於累積直方圖之第一兩耳時間差門檻值;一第二兩耳時間差門檻值計算模組,用以計算基於直方圖和該第一兩耳時間差門檻值之第二兩耳時間差門檻值計算模組;一聲音訊號過濾模組,用以過濾基於第一兩耳時間差門檻值和該第二兩耳時間差門檻值之聲音訊號而產生至少一增強語音訊號;以及一權重模組,預設至少一權重並加權該至少一增強語音訊號而得到一加權後之增強語音訊號。
类似技术:
公开号 | 公开日 | 专利标题
TWI543149B|2016-07-21|雜訊消除方法
TWI437555B|2014-05-11|空間前處理目標干擾比權衡之濾波裝置及其方法
WO2016078369A1|2016-05-26|移动终端通话语音降噪方法及装置、存储介质
US8615092B2|2013-12-24|Sound processing device, correcting device, correcting method and recording medium
CN108540895B|2019-11-08|智能均衡器设计方法及具有智能均衡器的降噪耳机
EP2715725A2|2014-04-09|Processing audio signals
TWI459381B|2014-11-01|語音增強方法
CN107071636B|2019-12-31|对带麦克风的设备的去混响控制方法和装置
CN106572419A|2017-04-19|一种立体声音效增强系统
WO2017152601A1|2017-09-14|一种麦克风确定方法和终端
JP5785674B2|2015-09-30|デュアルマイクに基づく音声残響低減方法及びその装置
TWI465121B|2014-12-11|利用全方向麥克風改善通話的系統及方法
JP2000330597A|2000-11-30|雑音抑圧装置
JP2016054421A|2016-04-14|残響抑制装置
JP6128547B2|2017-05-17|音源分離方法、装置及びプログラム
JP6226885B2|2017-11-08|音源分離方法、装置、及びプログラム
CN110708651B|2021-05-07|一种基于分段陷波的助听器啸叫检测与抑制方法及装置
JP4518817B2|2010-08-04|収音方法、収音装置、収音プログラム
JP5140785B1|2013-02-13|指向性制御方法及び装置
JP6631127B2|2020-01-15|音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6638248B2|2020-01-29|音声判定装置、方法及びプログラム、並びに、音声信号処理装置
TWI700004B|2020-07-21|減少干擾音影響之方法及聲音播放裝置
CN109429167B|2020-10-13|音频强化装置及方法
WO2021131346A1|2021-07-01|収音装置、収音方法及び収音プログラム
CN110447239B|2021-12-03|拾音装置及拾音方法
同族专利:
公开号 | 公开日
TWI459381B|2014-11-01|
US20130066626A1|2013-03-14|
CN103000183A|2013-03-27|
US9026436B2|2015-05-05|
CN103000183B|2014-12-31|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
US6002776A|1995-09-18|1999-12-14|Interval Research Corporation|Directional acoustic signal processor and method therefor|
US6266633B1|1998-12-22|2001-07-24|Itt Manufacturing Enterprises|Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus|
US6937980B2|2001-10-02|2005-08-30|Telefonaktiebolaget Lm Ericsson |Speech recognition using microphone antenna array|
US7167568B2|2002-05-02|2007-01-23|Microsoft Corporation|Microphone array signal enhancement|
US7103541B2|2002-06-27|2006-09-05|Microsoft Corporation|Microphone array signal enhancement using mixture models|
KR100480789B1|2003-01-17|2005-04-06|삼성전자주식회사|피드백 구조를 이용한 적응적 빔 형성방법 및 장치|
CA2454296A1|2003-12-29|2005-06-29|Nokia Corporation|Method and device for speech enhancement in the presence of background noise|
JP2005249816A|2004-03-01|2005-09-15|Internatl Business Mach Corp <Ibm>|信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム|
EP1581026B1|2004-03-17|2015-11-11|Nuance Communications, Inc.|Method for detecting and reducing noise from a microphone array|
US7426464B2|2004-07-15|2008-09-16|Bitwave Pte Ltd.|Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition|
JP3906230B2|2005-03-11|2007-04-18|株式会社東芝|音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体|
US7783060B2|2005-05-10|2010-08-24|The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration|Deconvolution methods and systems for the mapping of acoustic sources from phased microphone arrays|
US7619563B2|2005-08-26|2009-11-17|Step Communications Corporation|Beam former using phase difference enhancement|
WO2007028250A2|2005-09-09|2007-03-15|Mcmaster University|Method and device for binaural signal enhancement|
CN100535992C|2005-11-14|2009-09-02|北京大学科技开发部|小尺度麦克风阵列语音增强系统和方法|
US8503691B2|2007-06-13|2013-08-06|Aliphcom|Virtual microphone arrays using dual omnidirectional microphone array |
TWI346323B|2007-11-09|2011-08-01|Univ Nat Chiao Tung|Voice enhancer for hands-free devices|
TW200926150A|2007-12-07|2009-06-16|Univ Nat Chiao Tung|Intelligent voice purification system and its method thereof|
US8175291B2|2007-12-19|2012-05-08|Qualcomm Incorporated|Systems, methods, and apparatus for multi-microphone based speech enhancement|
CN101192411B|2007-12-27|2010-06-02|北京中星微电子有限公司|大距离麦克风阵列噪声消除的方法和噪声消除系统|
AU2009239648B2|2008-04-22|2013-08-15|Med-El Elektromedizinische Geraete Gmbh|Tonotopic implant stimulation|
US9202455B2|2008-11-24|2015-12-01|Qualcomm Incorporated|Systems, methods, apparatus, and computer program products for enhanced active noise cancellation|
WO2010091077A1|2009-02-03|2010-08-12|University Of Ottawa|Method and system for a multi-microphone noise reduction|
KR101670313B1|2010-01-28|2016-10-28|삼성전자주식회사|음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법|
TWI412023B|2010-12-14|2013-10-11|Univ Nat Chiao Tung|可消除噪音且增進語音品質之麥克風陣列架構及其方法|US9685171B1|2012-11-20|2017-06-20|Amazon Technologies, Inc.|Multiple-stage adaptive filtering of audio signals|
CN103268766B|2013-05-17|2015-07-01|泰凌微电子(上海)有限公司|双麦克风语音增强方法及装置|
US9706299B2|2014-03-13|2017-07-11|GM Global Technology Operations LLC|Processing of audio received at a plurality of microphones within a vehicle|
WO2016089936A1|2014-12-03|2016-06-09|Med-El Elektromedizinische Geraete Gmbh|Hearing implant bilateral matching of ild based on measured itd|
法律状态:
优先权:
申请号 | 申请日 | 专利标题
TW100132942A|TWI459381B|2011-09-14|2011-09-14|語音增強方法|TW100132942A| TWI459381B|2011-09-14|2011-09-14|語音增強方法|
CN201210008319.XA| CN103000183B|2011-09-14|2012-01-09|语音增强方法|
US13/436,391| US9026436B2|2011-09-14|2012-03-30|Speech enhancement method using a cumulative histogram of sound signal intensities of a plurality of frames of a microphone array|
[返回顶部]