日本专利JP2011508533A マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置

专利PDF首页>>日本专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:
複数の空間分離フィルタの中の選択された１つによって生成される信号を出力することを含む、Ｍチャネル入力信号を処理するためのシステム、方法、および装置について説明する。ノイズの多い環境から音響信号を分離することへの適用例について説明し、マルチマイクロホンハンドヘルドデバイスに実装できる構成についても説明する。
公开号:JP2011508533A
申请号:JP2010539833
申请日:2008-12-18
公开日:2011-03-10
发明作者:チャン、クワク−ルン；トマン、ジェレミー；パーク、ヒュン・ジン；ビッサー、エリック
申请人:クゥアルコム・インコーポレイテッドＱｕａｌｃｏｍｍＩｎｃｏｒｐｏｒａｔｅｄ；
IPC主号:H04M1-00

专利说明:

[0001] 米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明白に組み込まれる、２００７年１２月１９日に出願された「SYSTEMAND METHODFOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENTIN HANDSETS」と題する仮出願第６１／０１５，０８４号、２００７年１２月２６日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第６１／０１６，７９２号、２００８年６月３０日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第６１／０７７，１４７号、２００８年７月９日に出願された「SYSTEMS, METHODS, ANDAPPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する仮出願第６１／０７９，３５９号の優先権を主張する。]
技術分野

[0002] 本開示は、スピーチ処理に関する。]
背景技術

[0003] 情報信号は、ノイズの避けられない環境で捕捉され得る。したがって、所望の情報ソースからの信号と１つまたは複数の干渉ソースからの信号とを含むいくつかのソース信号の重ね合わせおよび線形結合の中から情報信号を区別することが望ましい。そのような問題は、ボイス通信（たとえば、電話）のための様々な音響アプリケーションにおいて発生する可能性がある。]
[0004] そのような混合から信号を分離する１つの手法は、混合環境の逆を近似する逆混合行列を作成することである。しかしながら、現実的な捕捉環境は、しばしば、時間遅延、マルチパス、反射、位相差、エコー、および／または残響などの影響を含む。そのような影響は、旧来の線形モデリング方法で問題を引き起こす可能性があり、周波数依存の可能性もあるソース信号の畳み込み混合を生成する。そのような混合から１つまたは複数の所望の信号を分離するための信号処理方法を開発することが望ましい。]
[0005] 人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキットまたは他の通信デバイスによって提供される。人が話すと、通信デバイスのマクロホンがその人のボイスの音声を受信し、それを電子信号に変換する。マイクロホンはまた、様々なノイズソースからも音声信号を受信する可能性があり、したがって、電子信号はノイズ成分をも含む可能性がある。マイクロホンは人の口からある距離に位置し、環境は多数の制御不能なノイズソースを有する可能性があるので、ノイズ成分は信号の大きな成分となることがある。そのような大きなノイズは、不満足な通信経験および／または通信デバイスの非効率的な動作を引き起こす可能性がある。]
[0006] 音響環境はしばしばノイズが多いので、所望の情報信号を確実に検出し、これに反応することが困難になる。１つの特定の例では、ノイズの多い環境でスピーチ信号を生成し、スピーチ処理方法を使用して環境ノイズからスピーチ信号を分離する。ノイズは現実の状態ではほとんど常に存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。ノイズは、当該のスピーチ信号を妨害するかまたは劣化させるすべての信号の組合せと定義できる。現実の世界は、単一点ノイズソースを含む複数のノイズソースにあふれており、これらは、しばしば複数の音声に入って残響を生じる。所望のスピーチ信号がバックグラウンドノイズから分離され、隔離されない限り、それを確実に効率的に利用することが困難になる可能性がある。バックグラウンドノイズは、一般的な環境によって生成される多数のノイズ信号、他の人々のバックグラウンドの会話によって生成される信号、ならびにそれらの信号の各々から生成される反射および残響を含む。通信がノイズの多い環境で行われる適用例では、所望のスピーチ信号をバックグラウンドノイズから分離することが望ましい。]
[0007] バックグラウンドノイズ信号から所望の音声信号を分離するための既存の方法は、単純なフィルタ処理プロセスを含む。そのような方法は、音声信号のリアルタイム処理のためには十分に単純で高速である場合があるが、様々な音声環境に容易には適応できず、所望のスピーチ信号の大幅な劣化をもたらす可能性がある。たとえば、このプロセスは、所望のスピーチ信号の部分がノイズと分類され、除去されるように、過度に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。代替的に、このプロセスは、音楽または会話などのバックグラウンドノイズの部分が所望の信号と分類され、フィルタ処理済み出力スピーチ信号中に残されるように、不十分に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。]
[0008] ＰＤＡおよび携帯電話のようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、車、道路、またはカフェのような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、一般に人が集まる傾向のある場所で遭遇する種類のノイズ成分を伴って、かなりの量のボイス通信が行われていることを意味する。（たとえば、競合する話し手、音楽、バブル、空港のノイズを含む）この種のノイズの特性は、一般に非定常であり、ユーザ自身の周波数特性に近く、したがって、旧来の単一マイクロホンまたは固定ビームフォーミングタイプの方法を使用してそのようなノイズをモデル化することが難しい場合がある。そのようなノイズはまた、電話で会話しているユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引（たとえば、口座残高または株価の確認）はボイス音声認識ベースのデータ照会を使用しており、これらのシステムの精度は干渉ノイズによって著しく妨げられる可能性がある。したがって、たとえば、ノイズの多い環境でのハンドセットの使用をサポートするために、複数マイクロホンベースの高度な信号処理が望ましい。]
[0009] 一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法は、入力信号に第１の空間処理フィルタを適用することと、入力信号に第２の空間処理フィルタを適用することとを含む。ただし、Ｍは１よりも大きい整数である。本方法は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記１回目に判断することに応答して、出力信号として第１の空間処理済み信号に基づく信号を生成することとを含む。本方法は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記２回目に判断することに応答して、出力信号として第２の空間処理済み信号に基づく信号を生成することとを含む。本方法では、第１および第２の空間処理済み信号は、入力信号に基づく。]
[0010] そのような方法の例についても説明する。１つのそのような例では、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法は、第１の空間フィルタ処理済み出力信号を生成するために入力信号に第１の空間処理フィルタを適用することと、第２の空間フィルタ処理済み出力信号を生成するために入力信号に第２の空間処理フィルタを適用することとを含む。ただし、Ｍは１よりも大きい整数である。本方法は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記１回目に判断することに応答して、出力信号として第１の空間処理済み信号を生成することとを含む。本方法は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記２回目に判断することに応答して、出力信号として第２の空間処理済み信号を生成することとを含む。]
[0011] 別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置は、入力信号に対して第１の空間処理演算を実行するための手段と、入力信号に対して第２の空間処理演算を実行するための手段とを含む。ただし、Ｍは１よりも大きい整数である。本装置は、１回目に、第１の空間処理演算を実行するための手段が第２の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、１回目に判断するための前記手段からの指示に応答して、出力信号として第１の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置は、１回目に続いて２回目に、第２の空間処理演算を実行するための手段が第１の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、２回目に判断するための前記手段からの指示に応答して、出力信号として第２の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置では、第１および第２の空間処理済み信号は、入力信号に基づく。]
[0012] 別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置は、入力信号をフィルタ処理するように構成された第１の空間処理フィルタと、入力信号をフィルタ処理するように構成された第２の空間処理フィルタとを含む。ただし、Ｍは１よりも大きい整数である。本装置は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器を含む。本装置は、１回目の指示に応答して、出力信号として第１の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールを含む。本装置では、状態推定器は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成され、遷移制御モジュールは、２回目の指示に応答して、出力信号として第２の空間処理済み信号に基づく信号を生成するように構成される。本装置では、第１および第２の空間処理済み信号は、入力信号に基づく。]
[0013] 別の一般的な構成によれば、プロセッサによって実行されると、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法をプロセッサに実行させる命令を備えるコンピュータ可読媒体は、プロセッサによって実行されると、入力信号に対して第１の空間処理演算をプロセッサに実行させる命令と、プロセッサによって実行されると、入力信号に対して第２の空間処理演算をプロセッサに実行させる命令とを含む。ただし、Ｍは１よりも大きい整数である。本媒体は、プロセッサによって実行されると、１回目に、第１の空間処理演算が第２の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、１回目の前記指示に応答して、出力信号として第１の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。本媒体は、プロセッサによって実行されると、１回目に続いて２回目に、第２の空間処理演算が第１の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、２回目の前記指示に応答して、出力信号として第１の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。この例では、第１および第２の空間処理済み信号は、入力信号に基づく。]
図面の簡単な説明

[0014] 装置Ａ１００の実装形態を含むハンドセットＨ１００の動作構成を示す図。
ハンドセットＨ１００の別の動作構成を示す図。
ハンドセットＨ１００の可能な配向の範囲を示す図。
図１Ａに示すハンドセットＨ１００の動作構成のための動作配向を示す図。
図１Ａに示すハンドセットＨ１００の動作構成のための動作配向を示す図。
図１Ｂに示すハンドセットＨ１００の動作構成のための動作配向を示す図。
図１Ｂに示すハンドセットＨ１００の動作構成のための動作配向を示す図。
ハンドセットＨ１００の３つの異なる配向状態に対応するエリアを示す図。
ハンドセットＨ１００の発生源エリアの追加の例を示す図。
ハンドセットＨ１００の発生源エリアの追加の例を示す図。
ハンドセットＨ１００の発生源エリアの追加の例を示す図。
ハンドセットＨ１００の実装形態Ｈ１１０を示す図。
ハンドセットＨ１１０の２つの追加の図。
一般的構成による装置Ａ２００のブロック図。
ヘッドセット６３の２つの異なる配向状態を示す図。
装置Ａ２００の２チャネルの実装形態Ａ２１０のブロック図。
フィルタバンク１２０の２チャネルの実装形態１３０を含む装置Ａ２１０の実装形態Ａ２２０を示すブロック図。
スイッチング機構３５０の実装形態３５２のブロック図。
スイッチング機構３５２および３６０の実装形態３６２のブロック図。
状態推定器４００の実装形態４０２を示す図。
状態推定器４００の実装形態４０４を示す図。
状態推定器４００の実装形態４０６を示す図。
状態推定器４００の実装形態４０８を示す図。
装置Ａ２２０の実装形態２２２のブロック図。
状態推定器４１２の実装形態４１４の一例を示す図。
装置Ａ２１０の実装形態Ａ２１４のブロック図。
装置Ａ２２２の実装形態Ａ２２４のブロック図。
装置Ａ２１０の実装形態Ａ２１６のブロック図。
遷移制御モジュール５００の実装５２０のブロック図。
遷移制御モジュール５００の実装５５０のブロック図。
ミキサ７０ａ〜７０ｍのｊ番目の１つの実装７２ｊのブロック図。
ミキサバンク７００の２チャネルの実装７１０のブロック図。
装置Ａ２１０の実装形態Ａ２１８のブロック図。
装置Ａ２２０の実装形態Ａ２２８のブロック図。
装置Ａ２２８の実装形態Ａ２２９のブロック図。
装置Ａ２１０の実装形態Ａ２１０Ａのブロック図。
装置Ａ２２０の実装形態Ａ２２４Ａのブロック図。
装置Ａ２２０の実装形態Ａ２３２のブロック図。
装置Ａ２２０の実装形態Ａ２３４のブロック図。
装置Ａ２２０の実装形態Ａ２３６のブロック図。
推定状態Ｓ５０へのインジケータ関数値のマッピングを示す図。
推定状態Ｓ５０へのインジケータ関数値の異なるマッピングを示す図。
装置Ａ２００の実装形態Ａ３１０のブロック図。
装置Ａ２００の実装形態Ａ３２０のブロック図。
装置Ａ２００の実装形態Ａ３３０のブロック図。
減衰方式の一例を示す図。
装置Ａ２１０の実装形態Ａ２１０Ｂのブロック図。
エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図。
エコーキャンセラＥＣ２０の実装形態ＥＣ２２のブロック図。
設計および使用手順のフローチャート。
方法Ｍ１０のフローチャート。
トレーニングデータを記録するように構成された音響無響室の例を示す図。
ハンズフリーカーキット８３の一例を示す図。
図３７に示すカーキットの適用の一例を示す図。
マイクロホンの線形アレイを有する書込み機器（たとえば、ペン）またはスタイラス７９の一例を示す図。
設計段階で２点ソースノイズフィールドに置かれたハンドセットを示す図。
１対のフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０のブロック図。
直接フィルタＤ１１０およびＤ１２０を含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図。
一般的構成による装置Ａ１００のブロック図。
装置Ａ１００の実装形態Ａ１１０のブロック図。
装置Ａ１００の実装形態Ａ１２０のブロック図。
方法Ｍ１００のフローチャート。
装置Ｆ１００のブロック図。
装置Ａ１００またはＡ２００の実装形態を含む通信デバイスＣ１００のブロック図。] 図１Ａ図１Ｂ図３７
実施例

[0015] 本開示は、ノイズの多い環境から音響信号を分離するためのシステム、方法、および装置に関する。そのような構成は、音響信号の混合から音響信号を分離することを含むことができる。分離動作は、固定のフィルタ処理ステージ（すなわち、固定の係数値で構成されたフィルタを有する処理ステージ）を使用して、音響信号の入力混合から所望の成分を隔離することによって実行できる。マルチマイクロホンハンドヘルド通信デバイスに実装できる構成についても説明する。そのような構成は、通信デバイスが遭遇する、干渉ソース、音響エコー、および／または空間分布バックグラウンドノイズを備える可能性があるノイズ環境に対処するのに好適である場合がある。]
[0016] 本開示は、１つまたは複数のブラインドソース分離（ＢＳＳ）、ビームフォーミング、および／またはＢＳＳ／ビームフォーミングの方法の組合せを使用して、通信デバイスのマイクロホンアレイを使用して記録されるトレーニングデータを処理することによって、フィルタ係数値の１つのセット（またはフィルタ係数値の複数のセット）を生成するためのシステム、方法、および装置についても説明する。トレーニングデータは、アレイに対する様々なユーザおよびノイズソースの位置、ならびに（たとえば、通信デバイスの１つまたは複数のスピーカからの）音響エコーに基づくことができる。次いで、上述のように分離すべき音響信号の入力混合を得るために、このマイクロホンアレイまたは同じ構成を有する別のマイクロホンアレイを使用することができる。]
[0017] 本開示は、生成されたフィルタ係数値の１つまたは複数のセットが固定のフィルタ処理ステージ（または「フィルタバンク」）に提供されるシステム、方法、および装置についても説明する。そのような構成は、固定のフィルタ処理ステージで生成されたフィルタ係数値のセットの中（および場合によっては後続の処理ステージのための他のパラメータセットの中）から、ユーザに対する通信デバイスの現在特定されている配向に基づいて選択するスイッチング動作を含むことができる。]
[0018] 本開示は、別の分離された信号を生成するために、上述のように固定のフィルタ処理ステージの出力に基づいて空間処理された（または「分離された」）信号が、適応（または部分適応）ＢＳＳ、ビームフォーミング、またはＢＳＳ／ビームフォーミングを組み合わせたフィルタ処理ステージを使用してフィルタ処理されるシステム、方法、および装置についても説明する。これらの分離された信号の各々は、出力チャネルの少なくとも１つが分布バックグラウンドノイズと所望の信号とを含み、他の出力チャネルの少なくとも１つが干渉ソース信号と分布バックグラウンドノイズとを含むように、２つ以上の出力チャネルを含むことができる。本開示は、所望の信号を搬送している出力チャネル中のノイズを、別の出力チャネルによって提供されるノイズ基準に基づいて低減する、後処理ステージ（たとえば、ノイズ低減フィルタ）を含むシステム、方法および装置についても説明する。]
[0019] 本開示は、スイッチング動作による１つまたは複数の分離またはノイズ低減段のための、パラメータのチューニング、初期条件およびフィルタセットの選択、エコー除去、および／または固定のフィルタ係数値のセット間の遷移処理を含むために実装できる構成についても説明する。システムパラメータのチューニングは、全体的なノイズ低減およびエコー消去パフォーマンスを最適化するために、ベースバンドチップまたはチップセットの性質および設定、および／またはネットワーク効果に依存することができる。]
[0020] 文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも表すのに使用される。文脈によって特に制限されない限り、「計算」という用語は、本明細書で、値のセットから計算すること、評価すること、および／または選択することなど、その通常の意味のすべてを示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも表すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）というケースを含む、その通常の意味のすべてを意味するのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のすべてを意味するのに使用される。]
[0021] 別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定のコンテキストによって示されるように、方法、装置、またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、また特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。]
[0022] ２つ以上のマイクロホンを有する携帯ボイス通信用のデバイスを製造することが望ましい。複数のマイクロホンによって捕捉された信号を使用して、空間処理演算をサポートすることができ、その空間処理演算を使用して、より大きいノイズ除去などの知覚品質の向上を可能にすることができる。そのようなデバイスの例は、電話機ハンドセット（たとえば、携帯電話機ハンドセット）および有線またはワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）を含む。]
[0023] 図１Ａに、第１の動作構成における２マイクロホンハンドセットＨ１００（たとえば、クラムシェルタイプセルラー電話ハンドセット）を示す。ハンドセットＨ１００は第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０とを含む。この例では、ハンドセットＨ１００はまた第１のスピーカＳＰ１０と第２のスピーカＳＰ２０とを含む。] 図１Ａ
[0024] ハンドセットＨ１００が第１の動作構成にあるとき、第１のスピーカＳＰ１０はアクティブであり、第２のスピーカＳＰ２０は使用不能にされるか、さもなければ無音にされる。この構成では、スピーチ強調および／またはノイズ低減のための空間処理技法をサポートするために、第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０の両方がアクティブのままであることが望ましい。図２に、この動作構成の可能な配向の範囲内にある２つを示す。配向のこの範囲内で、第１のスピーカＳＰ１０がユーザの耳に近く、第１のマイクロホンＭＣ１０がユーザの口に近くなるように、ハンドセットＨ１００はユーザの頭部に保持される。図２に示すように、第１のマイクロホンＭＣ１０とユーザ口との間の距離は変化する。図２はまた、指向性および／または拡散性の遠端信号およびノイズに応答して第１のスピーカＳＰ１０によって生成される、エコーなどの生じうる干渉音声信号を示す。図３Ａおよび図３Ｂに、（たとえば、スピーカホンまたはプッシュツートークモードにおける）ユーザがハンドセットＨ１００のこの動作構成を使用することができる２つの他の可能な配向を示す。ハンドセットＨ１００のそのような動作構成においてスピーカホンまたはプッシュツートークモードがアクティブであるとき、第２のスピーカＳＰ２０はアクティブであり、場合によっては第１のスピーカＳＰ１０は使用不能にされるか、さもなければ無音にされることが望ましい。] 図２図３Ａ図３Ｂ
[0025] 図１Ｂに、ハンドセットＨ１００の第２の動作構成を示す。この構成では、第１のマイクロホンＭＣ１０はふさがれ、第２のスピーカＳＰ２０はアクティブであり、第１のスピーカＳＰ１０は使用不能にされるか、さもなければ無音にされる。この場合も、この構成では、（空間処理技法をサポートするために）第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０の両方がアクティブであることが望ましい。図４Ａおよび図４Ｂに、ユーザがハンドセットＨ１００のこの動作構成を使用することができる２つの異なる可能な動作配向を示す。ハンドセットＨ１００は、その（１つまたは複数の）状態がデバイスの現在の動作構成を示す１つまたは複数のスイッチを含むことができる。] 図１Ｂ図４Ａ図４Ｂ
[0026] 上記の図に示すように、セルラー電話ハンドセットは、デバイスのマイクロホンとユーザの口との間の異なる空間関係にそれぞれ関連する様々な異なる可能な位置での使用をサポートすることができる。たとえば、ハンドセットＨ１００は、図２に示す従来の電話動作モードよりも広い範囲の位置変化を必要とすることが予想される、全二重スピーカホンモードおよび／または半二重プッシュツートーク（ＰＴＴ）モードなどの機能をサポートすることが望ましい。これらの位置変化に応答して空間処理フィルタを適合させるという問題は、複雑すぎて、フィルタ収束をリアルタイムで得ることができないことがある。さらに、時間がたつにつれていくつかの異なる方向から到着するスピーチ信号とノイズ信号とを適切に分離するという問題は、複雑すぎて、単一の空間処理フィルタが解決することができないことがある。そのようなハンドセットは、２つ以上の空間処理フィルタを有するフィルタバンクを含むことが望ましい。そのような場合、ハンドセットは、所望の音源（たとえば、ユーザの口）に対するデバイスの現在の配向に従ってこのバンクから空間処理フィルタを選択することが望ましい。] 図２
[0027] 図５に、所望の音源（たとえば、ユーザの口）に対するハンドセットＨ１００の３つの異なる配向状態に対応するエリアを示す。所望のサウンド（たとえば、ユーザの声）がエリアＡ１の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアＡ１に対して指向性であり、他の方向から来るサウンドを減衰させる傾向があるフィルタを使用することが望ましい。同様に、所望のサウンド（たとえば、ユーザの声）がエリアＡ２の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアＡ２に対して指向性であり、他の方向から来るサウンドを減衰させる傾向がある異なるフィルタを使用することが望ましい。同様に、所望のサウンド（たとえば、ユーザの声）がエリアＡ３の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、最初の２つのフィルタのいずれをも使用しないことが望ましい。たとえば、そのような場合、ハンドセットは第３のフィルタを使用することが望ましい。代替的に、そのような場合、ただ１つのマイクロホン（たとえば、第１のマイクロホンＭＣ１０）がアクティブになるように、または現在アクティブなマイクロホンがシングルチャネルにミックスダウンされるように、ハンドセットは、シングルチャネルモードに入るか、場合によっては空間処理演算を中断することが望ましい。] 図５
[0028] 図５に示すエリア境界は、視覚的な説明のためのものにすぎず、様々な配向状態に関連するエリア間の実際の境界を示すものではないことに留意されたい。図６Ａ〜図６Ｃに、１つの空間分離フィルタが別の空間分離フィルタよりも良好に動作することが予想される発生源エリアの３つのさらなる例を示す。これらの３つの図は、フィルタのうちの２つ以上が、ハンドセットからある距離だけ離れているソースに対して等しく良好に動作することを示す（そのような配向は「遠距離シナリオ」とも呼ばれる）。この距離は、主に、デバイスのマイクロホン間の距離（一般にハンドセットに対して１．５〜４．５センチメートルであり、ヘッドセットに対してさらに短くなることもある）に依存する。図６Ｃに、２つのエリアが重複しており、したがって２つの対応するフィルタが、重複エリア中に配置された所望のソースに対して等しく良好に動作することが予想される一例を示す。] 図５図６Ａ図６Ｂ図６Ｃ
[0029] 通信デバイス（たとえば、ハンドセットＨ１００）のマイクロホンの各々は、全方向性、双方向性、または単方向性である（たとえば、カージオイドの）応答を有することができる。使用できる様々なタイプのマイクロホンは、圧電型マイクロホン、ダイナミックマイクロホン、およびエレクトレットマイクロホンを含む。そのようなデバイスは、３つ以上のマイクロホンを有するように実装することもできる。たとえば、図７Ａに、第３のマイクロホンＭＣ３０を含むハンドセットＨ１００の実装形態Ｈ１１０を示す。図７Ｂに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットＨ１１０の２つの他の図を示す。] 図７Ａ図７Ｂ
[0030] 図８に、本明細書で開示するハンドセットＨ１００またはＨ１１０などの通信デバイス内に実装できる一般的構成による装置Ａ２００のブロック図を示す。装置Ａ２００は、Ｍチャネル入力信号Ｓ１０を受信するように構成されたフィルタバンク１００を含み、ただし、Ｍは１よりも大きい整数であり、Ｍチャネルの各々は、Ｍ個のマイクロホン（たとえば、ハンドセットＨ１００またはＨ１１０のマイクロホン）のうちの対応する１つのマイクロホンの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、８ｋＨｚから１６ｋＨｚの範囲にわたる。] 図８
[0031] フィルタバンク１００はｎ個の空間分離フィルタＦ１０−１〜Ｆ１０−ｎを含み（ただし、ｎは１よりも大きい整数）、それらの空間分離フィルタの各々は、Ｍチャネル入力信号Ｓ４０をフィルタ処理して、対応する空間処理済みのＭチャネル信号を生成するように構成される。空間分離フィルタＦ１０−１〜Ｆ１０−ｎの各々は、１つまたは複数の指向性干渉ソースおよび／または拡散ノイズ成分など、信号の１つまたは複数の他の成分からＭチャネル入力信号の１つまたは複数の指向性所望音声成分を分離するように構成される。図８の例では、フィルタＦ１０−１は、フィルタ処理済みチャネルＳ２０１１〜Ｓ２０ｍ１を含むＭチャネル信号を生成し、フィルタＦ１０−２は、フィルタ処理済みチャネルＳ２０１２〜Ｓ２０ｍ２を含むＭチャネル信号を生成し、以下同様である。フィルタＦ１０−１〜Ｆ１０−ｎの各々は係数値の１つまたは複数の行列によって特徴づけられ、係数値の行列は、ＢＳＳ、ビームフォーミング、またはＢＳ／ビームフォーミングの方法（たとえば、ＩＣＡまたはＩＶＡ方法、または本明細書で説明するその変形体）の組合せを使用して計算することができ、また本明細書で説明するようにトレーニングすることもできる。場合によっては、係数値の行列は係数値のベクトルのみ（すなわち、１次元の行列）とすることができる。装置Ａ２００はまた、各々フィルタＦ１０−１〜Ｆ１０−ｎからＭチャネルフィルタ処理済み信号を受信し、これらのフィルタのうちのどれが１つまたは複数の他の成分から入力信号Ｓ１０の少なくとも１つの所望の成分を現在最も良く分離するかを判断し、Ｍチャネル出力信号Ｓ４０を生成するように構成されたスイッチング機構３５０を含む。] 図８
[0032] Ｍ個のマイクロホンを有するように実装されたイヤホンまたは他のヘッドセットは、異なる動作構成を有し、装置Ａ２００の実装形態を含むことができる別種のポータブル通信デバイスである。そのようなヘッドセットは有線またはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、（たとえば、ワシントン州Ｂｅｌｌｅｖｕｅ、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ社によって公表されたＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話通信をサポートするように構成できる。図９に、ユーザの耳６５に使用するために取り付けられるそのようなヘッドセット６３の異なる動作構成の範囲６６の図を示す。ヘッドセット６３は、使用中にユーザの口６４に対して異なって配向できる第１の（たとえば、縦形）マイクロホンと第２の（たとえば、直角）マイクロホンとのアレイ６７を含む。] 図９
[0033] 説明が過度に複雑になることを避けるために、開示する構成の一部の機能は、本明細書では装置Ａ２００の２チャネルおよび／または２フィルタの実装形態に関して説明しているが、そのような実装形態に関して説明するどんな機能もＭチャネルおよび／またはｎフィルタの実装形態に一般化でき、そのような一般化は明確に企図され、開示されることを理解されたい。]
[0034] 図１０に、装置Ａ２００の２チャネル（たとえば、ステレオ）の実装形態Ａ２１０のブロック図を示す。装置Ａ２１０は、ｎ個の空間分離フィルタＦ１４−１〜Ｆ１４−ｎを含むフィルタバンク１００の実装形態１２０を含む。これらの空間分離フィルタの各々は、２つの入力チャネルＳ１０−１およびＳ１０−２をフィルタ処理して、２つのフィルタ処理済みチャネル（たとえば、スピーチチャネルおよびノイズチャネル）上で対応する空間処理済み信号を生成するように構成されたフィルタＦ１０−１〜Ｆ１０−ｎのうちの１つに対応する２チャネルの実装形態である。フィルタＦ１４−１〜Ｆ１４−ｎの各々は、信号の１つまたは複数のノイズ成分から入力信号Ｓ１０の指向性所望音声成分を分離するように構成される。図１０の例では、フィルタＦ１４−１はスピーチチャネルＳ２０１１とノイズチャネルＳ２０２１とを含む２チャネル信号を生成し、フィルタＦ１４−２はスピーチチャネルＳ２０１２とノイズチャネルＳ２０２２とを含む２チャネル信号を生成し、以下同様である。装置Ａ２１０はまた、フィルタＦ１４−１〜Ｆ１４−ｎの各々から２つのフィルタ処理済みチャネルを受信し、これらのフィルタのうちどれが入力信号Ｓ１０の所望の成分とノイズ成分を現在最も良く分離するかを判断し、２つの出力チャネルＳ４０−１およびＳ４０−２の選択されたセットを生成するように構成されたスイッチング機構３５０の実装形態３６０を含む。] 図１０
[0035] 図１１に、フィルタバンク１２０の２フィルタの実装形態１３０を含む装置Ａ２１０の特定の実装形態Ａ２２０を示すブロック図を示す。フィルタＦ１４−１およびＦ１４−２は、本明細書で説明するように調整するおよび／または設計することができる。フィルタバンク１３０はまた、フィルタＦ１４−１およびＦ１４−２が、互いに実質的に同じであるが、順序が異なる係数値を有するように実装できる。（この文脈では、「実質的に」という用語は、１パーセント、５パーセント、または１０パーセント内までの誤差を表す。）１つのそのような例では、フィルタＦ１４−１およびＦ１４−２は、互いに実質的に同じであるが、順序が異なる係数値を有する。（特定の例では、フィルタＦ１４−１はｖ係数値ａ１〜ａｖのベクトルを有し、フィルタＦ１４−２は逆順ａｖ〜ａ１で実質的に同じ値のｖ成分ベクトルを有する。）別のそのような例では、フィルタＦ１４−１は係数値Ａ１〜Ａｖのｖ列の行列を有し（各列は、入力チャネルの各々に対するフィルタ処理操作を表す）、フィルタＦ１４−２は、異なる順序の実質的に同じ列を有するｖ列の行列を有する。（特定の例では、フィルタＦ１４−１の係数値の行列は、フィルタＦ１４−２の係数値の行列を得るために中央垂直軸に関して反転される）。そのような場合、フィルタＦ１４−１およびＦ１４−２は異なる（たとえば、ほぼ相補的な）空間分離性能を有することが予想される。たとえば、１つのフィルタは、所望の音源が図５のＡ１エリアなどのエリア中にあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができ、他のフィルタは、所望の音源が図５のエリアＡ２などの反対側エリア中のあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができる。代替的に、フィルタバンク１３０は、フィルタＦ１４−１とＦ１４−２が構造的に類似し、フィルタＦ１４−２の係数値の各々が、フィルタＦ１４−１の対応する係数値の加法逆元に実質的に等しくなる（すなわち、１パーセント、５パーセント、または１０パーセント内までの誤差で、大きさが同じで方向が反対になる）ように実装できる。] 図１１図５
[0036] ハンドセットまたはヘッドセットの典型的な使用は、ただ１つの所望の音源、すなわちユーザの口を必要とする。そのような場合、２チャネル空間分離フィルタのみを含むフィルタバンク１２０の実装形態の使用が適切である。オーディオおよび／またはテレビ会議のために通信デバイス中に装置Ａ２００の実装形態を含めることも明確に企図され、開示される。オーディオおよび／またはテレビ会議用のデバイスでは、デバイスの典型的な使用は、複数の所望の音源（たとえば、様々な参加者の口）を必要とする。そのような場合、Ｒチャネル空間分離フィルタ（ただし、Ｒは２よりも大きい）を含むフィルタバンク１００の実装形態の使用がより適切であることがある。一般に、フィルタバンク１００の空間分離フィルタは、各指向性音源用の少なくとも１つのチャネルと拡散ノイズ用の１つのチャネルとを有することが望ましい。場合によっては、任意の指向性干渉ソースの各々に追加のチャネルを与えることが望ましい。]
[0037] 図１２に、状態推定器４００と遷移制御モジュール５００とを含むスイッチング機構３５０の実装形態３５２のブロック図を示す。状態推定器４００からの推定配向状態指示（または「推定状態」）Ｓ５０に応答して、遷移制御モジュール５００は、フィルタ処理済みチャネルＳ２０１１−Ｓ２０ｍ１〜Ｓ２０１ｎ−Ｓ２０ｍｎのｎ個のセットの中から選択して、Ｍ個の出力チャネルＳ４０−１〜Ｓ４０−ｍのセットを生成するように構成される。図１３に、状態推定器４００の実装形態４０１と遷移制御モジュール５００の実装形態５０１とを含み、Ｍの値が２に等しい、スイッチング機構３５２の特定の実装形態３６２のブロック図を示す。] 図１２図１３
[0038] 状態推定器４００は、１つまたは複数の入力チャネルＳ１０−１〜Ｓ１０−ｍ、１つまたは複数のフィルタ処理済みチャネルＳ２０１１−Ｓ２０ｍｎ、あるいは入力およびフィルタ処理済みチャネルの組合せに基づいて推定状態指示Ｓ５０を計算するように実装できる。図１４Ａに、ｎ個のスピーチチャネルＳ２０１１−Ｓ２０１ｎとｎ個のノイズチャネルＳ２０２ａ−Ｓ２０２ｎとを受信するように構成された状態推定器４０１の実装形態４０２を示す。一例では、状態推定器４０２は、１≦ｉ≦ｎに対して式ｍａｘ［Ｅ（Ｓｉ）−Ｅ（Ｎｉ）］に従って推定状態指示Ｓ５０を計算するように構成される。ここで、Ｅ（Ｓｉ）はスピーチチャネルＳ２０１ｉのエネルギーを示し、Ｅ（Ｎｉ）はノイズチャネルＳ２０２ｉのエネルギーを示す。別の例では、状態推定器４０２は、式ｍａｘ［Ｅ（Ｓｉ）−Ｅ（Ｎｉ）＋Ｃｉ］に従って推定状態指示Ｓ５０を計算するように構成される。ここで、ＣｉはフィルタＦ１０−ｉに関連する選好定数を示す。通信デバイスの動作構成および／または動作モードの変化に応答して、選好定数Ｃｉのうちの１つまたは複数の各々に異なる値を割り当てるように状態推定器４００を構成することが望ましい。] 図１４Ａ
[0039] 状態推定器４０２は、対応するチャネルによって搬送される信号の連続するサンプルのブロック（「フレーム」とも呼ばれる）の２乗サンプル値の合計としてエネルギー値Ｅ（Ｓｉ）およびＥ（Ｎｉ）の各実例を計算するように構成できる。典型的なフレーム長は、約５または１０ミリ秒から約４０または５０ミリ秒にわたり、フレームは重複していても重複していなくてもよい。１つの操作によって処理されるフレームは、異なる操作によって処理されるより大きいフレームのセグメント（すなわち、「サブフレーム」）とすることもできる。１つの特定の例では、フィルタ処理済みチャネルＳ２０１１〜Ｓ２０２ｎによって搬送される信号は、１０ミリ秒の重複しないフレームのシーケンスに分割され、状態推定器４０２は、フィルタ処理済みチャネルＳ２０１１およびＳ２０１２の各々の各フレームのエネルギー値Ｅ（Ｓｉ）の実例を計算し、フィルタ処理済みチャネルＳ２０２１およびＳ２０２２の各々の各フレームのエネルギー値Ｅ（Ｎｉ）の実例を計算するように構成される。状態推定器４０２の別の例は、１≦ｉ≦ｎに対して式ｍｉｎ（ｃｏｒｒ（Ｓｉ，Ｎｉ））（またはｍｉｎ（ｃｏｒｒ（Ｓｉ，Ｎｉ））＋Ｃｉ）に従って推定状態指示Ｓ５０を計算するように構成される。ここで、ｃｏｒｒ（Ａ，Ｂ）はＡとＢの相関を示す。この場合、相関の各実例は、上述のように対応するフレームにわたって計算できる。]
[0040] 図１４Ｂに、ｎ個の入力チャネルＳ１０−１−Ｓ１０−ｍとｎ個のノイズチャネルＳ２０２１−Ｓ２０２ｎとを受信するように構成された状態推定器４０１の実装形態４０４を示す。一例では、状態推定器４０４は、１≦ｉ≦ｎおよび１≦ｊ≦ｎに対して式ｍａｘ［Ｅ（Ｉｊ）−Ｅ（Ｎｉ）］（またはｍａｘ［Ｅ（Ｉｊ）−Ｅ（Ｎｉ）＋Ｃｉ］）に従って推定状態指示Ｓ５０を計算するように構成され、ただし、Ｅ（Ｉｊ）は入力チャネルＳ１０−ｊのエネルギーを示す。別の例では、状態推定器４０４は、１≦ｉ≦ｎに対して式ｍａｘ［Ｅ（Ｉ）−Ｅ（Ｎｉ）］（またはｍａｘ［Ｅ（Ｉ）−Ｅ（Ｎｉ）＋Ｃｉ］）に従って推定状態指示Ｓ５０を計算するように構成される。ここで、Ｅ（Ｉ）は、入力チャネルＳ１０−１〜Ｓ１０−ｍのうちから選択された１つのＩのエネルギーを示す。この場合、チャネルＩは、所望のスピーチ信号を搬送する可能性がある入力チャネルである。チャネルＩは、デバイス内の対応するマイクロホンの物理的位置に基づいて選択できる。代替的に、チャネルＩは、入力チャネルの２つ以上（場合によってはすべて）の信号対雑音比の比較に基づいて選択できる。] 図１４Ｂ
[0041] 図１４Ｃに、ｎ個のスピーチチャネルＳ２０１１−Ｓ２０１ｎを受信するように構成された状態推定器４０１の実装形態４０６を示す。状態推定器４０６は、スピーチ測定（たとえば、スピーチ特性の測定）の最高値を有するスピーチチャネルに対応する状態を選択するように構成される。一例では、状態推定器４０６は、スピーチチャネルＳ２０１１−Ｓ２０１ｎの相対自己相関特性に基づいて推定状態指示Ｓ５０を計算するように構成される。この場合、予想される人間のピッチ遅延値の範囲内で自己相関ピークを有する信号を現在搬送しているチャネルが、ゼロ遅延のみにおいて自己相関ピークを有する信号を現在搬送しているチャネルよりも好ましいことがある。別の例では、状態推定器４０６は、スピーチチャネルＳ２０１１−Ｓ２０１ｎの相対尖度（kurtosis）（すなわち、４次モーメント）特性に基づいて推定状態指示Ｓ５０を計算するように構成される。この場合、より高い尖度を有する（すなわち、より非ガウシアンである）信号を現在搬送しているチャネルは、より低い尖度を有する（すなわち、よりガウシアンである）信号を現在搬送しているチャネルよりも好ましいことがある。] 図１４Ｃ
[0042] 図１４Ｄに、ｎ個の入力チャネルＳ１０−１−Ｓ１０−ｍを受信するように構成された状態推定器４０１の実装形態４０８を示す。この場合、フィルタセットＦ１０−１からＦ１０−ｎの各々は、到達時間差（ＴＤＯＡ）値の異なる範囲に関連する。状態推定器４０８は、（たとえば、入力チャネル、入力／出力相関、および／または相対遅延入力の和と差の相関に基づく方法を使用して）入力チャネル間のＴＤＯＡを推定し、関連するフィルタセットに対応する状態を選択するように構成される。入力信号の和と差の測定に基づいて遅延推定値を計算する前に入力チャネルの低域フィルタリングを実施することは、そのようなフィルタリングが遅延推定値を調整し、および／または安定化させるのに役立つので、望ましい。状態推定器４０８は、マイクロホン利得の正確な較正にあまり依存せず、および／または状態推定器４００の他の実装形態よりも較正誤差に対してロバストにすることができる。] 図１４Ｄ
[0043] 状態推定器４００の入力パラメータ値を平滑化し、その後（たとえば、上述のように）それらの入力パラメータ値を使用して推定状態計算を実施するように状態推定器４００を構成することが望ましい。１つの特定の例では、状態推定器４０２は、スピーチチャネルＳ２０１１−Ｓ２０１ｎおよびノイズチャネルＳ２０２１−Ｓ２０２ｎの各々のエネルギーを計算し、次いで［Ｅｃ＝αＥｐ＋（１−α）Ｅｎ］などの第１の式に従ってこれらのエネルギーを平滑化するように構成され、ただし、Ｅｃは現在の平滑化されたエネルギー値を示し、Ｅｐは前の平滑化されたエネルギー値を示し、Ｅｎは現在の計算されたエネルギー値を示し、αは平滑化係数を示し、この値は、０（平滑化なし）と、０．９（最大平滑化）などの１未満の値との間で固定または適応型とすることができる。この例では、そのような平滑化を、計算されたエネルギー値に適用して、値Ｅ（Ｓｉ）およびＥ（Ｎｉ）を得る。他の例では、そのような線形平滑化（および／または非線形平滑化操作）を、図１４Ａ〜図１４Ｄを参照しながら説明したように計算されたエネルギー値に適用して、値Ｅ（Ｓｉ）、Ｅ（Ｎｉ）、Ｅ（Ｉ）、およびＥ（Ｉｊ）のうちの１つまたは複数を得る。代替および／または追加として、状態推定器４００に供給される（たとえば、スピーチ、ノイズ、および／または入力チャネル上で搬送される）信号のうちの任意の１つまたは複数を選択および／または事前調整することは、そのような前処理が大きい干渉ソースの存在下で誤った状態推定を避けるのに役立つので、望ましい。] 図１４Ａ図１４Ｂ図１４Ｃ図１４Ｄ
[0044] 図１５に、（Ａ）２つのフィルタからのチャネルを処理するように構成された状態推定器４０２の実装形態４１２と、（Ｂ）遷移制御モジュール５０１の対応する実装形態５１０とを有するスイッチング機構３７０の実装形態３７２を含む装置Ａ２２０の実装形態Ａ２２２の一例を示す。図１６に、状態推定器４１２の実装形態４１４の一例を示す。この例では、分離測定計算器５５０ａは信号Ｓ２０１１とＳ２０２１との間のエネルギー差を計算し、分離測定計算器５５０ｂは信号Ｓ２０１２とＳ２０２２との間のエネルギー差を計算し、コンパレータ５６０は、それらの結果を比較して、チャネル間の最大分離（たとえば、最大エネルギー差）を作り出すフィルタに対応する配向状態を指示する。それぞれのエネルギー差を計算する際、分離測定計算器５５０ａと５５０ｂのいずれの一方（または両方）は、上述したＥｃ＝αＥｐ＋（１−α）Ｅｎなどの式に従って時間とともに計算された差を平滑化するように構成できる。コンパレータ５６０はまた、比較する前に上述の対応するフィルタ選好定数をエネルギー差の一方または両方に加算するように構成できる。これらの原理は、（たとえば、２よりも大きいＭの値に対して）状態推定器４０２の他の実装形態に拡張し、状態推定器４０４および４０６を類似の方法で実装することができる。また、状態推定器４００は、実装形態４０２、４０４、４０６、および４０８を参照しながら説明した技術のうちの２つ以上の組合せに基づいて推定状態Ｓ５０を生成するように構成できることに留意されたい。] 図１５図１６
[0045] 入力チャネルが所望のスピーチ成分を含まない間隔中に（たとえば、ノイズのみ間隔中に）フィルタ出力の間のスイッチングを抑止または不能にすることが望ましい。たとえば、所望の音声成分がアクティブであるときのみ、状態推定器４００が推定配向状態を更新することが望ましい。状態推定器４００のそのような実装形態は、通信デバイスのユーザが話していない間隔中ではなく、スピーチ間隔中にのみ推定配向状態を更新するように構成できる。]
[0046] 図１７に、ボイスアクティビティ検出器（または「ＶＡＤ」）２０とスイッチング機構３６０の実装形態３６４とを含む装置Ａ２１０の実装形態Ａ２１４を示す。ボイスアクティビティ検出器２０は、スピーチアクティビティが入力チャネルＳ１０−１（たとえば、第１のマイクロホンＭＣ１０に対応するチャネル）上で検出されたかどうかをその状態によって指示する更新制御信号Ｓ７０を生成するように構成され、スイッチング機構３６４は、更新制御信号Ｓ７０の状態に従って制御される。スイッチング機構３６４は、スピーチが検出されない間隔（たとえば、フレーム）中に推定状態Ｓ５０の更新を抑止するように構成できる。] 図１７
[0047] ボイスアクティビティ検出器２０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、ゼロ交差レート、スピーチおよび／または残差の自己相関、ならびに第１の反射係数など、１つまたは複数のファクタに基づいてその入力信号のフレームをスピーチまたはノイズとして分類する（たとえば、２値ボイス検出指示信号の状態を制御する）ように構成できる。そのような分類は、そのようなファクタの値または大きさとしきい値の比較、および／またはそのようなレートの変化の大きさとしきい値の比較を含むことができる。代替または追加として、そのような分類は、１つの周波数帯域におけるエネルギーなどのそのようなファクタの値もしくは大きさまたはそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。ボイスアクティビティ検出器２０は、一般に、更新制御信号Ｓ７０をバイナリ値ボイス検出指示信号として生成するように構成されるが、連続および／または多値信号を生成する構成も可能である。]
[0048] 図１８に、ＶＡＤ２０とスイッチング機構３７２の実装形態３７４とを含む装置２２０の実装形態Ａ２２４のブロック図を示す。この例では、更新制御信号Ｓ７０は、入力チャネルＳ１０−１上にスピーチアクティビティが検出されたかどうかに従って状態推定器４１２の実装形態４１６を制御する（たとえば、推定状態Ｓ５０の値が変化することを可能または不能にする）ように構成される。図１９に、ＶＡＤ２０の実例２０−１および２０−２を含む装置Ａ２１０の実装形態Ａ２１６を示し、これらの実例は同じとすることができるが、同じでなくてもよい。装置Ａ２１６の場合、スイッチング機構３６０の実装形態３６６の状態推定器は、スピーチアクティビティがいずれかの入力チャネル上で検出された場合は使用可能にされ、他の場合は使用不能にされる。] 図１８図１９
[0049] 通信デバイスとユーザの口との間の距離が増大するにつれて、スピーチフレームを非スピーチフレームと区別するＶＡＤ２０の能力が（たとえば、ＳＮＲの減少により）低下することがある。しかしながら、上記のように、スピーチ間隔中にのみ推定配向状態を更新するように状態推定器４００を制御することが望ましい。したがって、（たとえば、遠距離シナリオにおいて所望のスピーカ検出アクティビティを改善するために）高度な信頼性を有するシングルチャネルＶＡＤを使用してＶＡＤ２０（またはＶＡＤ２０−１と２０−２の一方または両方）を実装することが望ましい。たとえば、そのような検出器は、複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ判定のメモリに基づいてボイスアクティビティ検出を実施するように実装することが望ましい。装置Ａ２１２の別の実装では、ＶＡＤ２０の実例２０−１および２０−２の代わりに、上記のようにバイナリ値とすることができる）更新制御信号を生成するデュアルチャネルＶＡＤを使用する。]
[0050] 状態推定器４００は、通信デバイスの現在の配向状態を推定するための２つ以上の機能を使用するように構成できる。たとえば、状態推定器４００は、図１４Ａ〜図１４Ｄを参照しながら上述した基準のうち２つまたはそれ以上の組合せを使用するように構成できる。状態推定器４００はまた、（たとえば、通信デバイスの加速度計からの情報に基づく）位置情報、（たとえば、通信デバイスの１つまたは複数の状態、あるいは１つまたは複数のスイッチによって示される）動作構成、および／または（たとえば、プッシュツートーク、スピーカホン、またはビデオ再生もしくは記録などのモードが現在選択されているかどうかの）動作モードなど、通信デバイスの現在の状態に関係する他の情報を使用するように構成できる。たとえば、状態推定器４００は、どのマイクロホンが現在アクティブであるかを示す（たとえば、現在の動作構成に基づく）情報を使用するように構成できる。] 図１４Ａ図１４Ｂ図１４Ｃ図１４Ｄ
[0051] 装置Ａ２００はまた、通信デバイスのいくつかの動作構成またはモードでは、デバイスがその構成またはモードにある間は十分な分離を行うので状態推定の継続が不必要になるように、空間分離フィルタのうちの対応する１つを仮定するように構成できる。たとえば、ビデオディスプレイモードが選択されているとき、推定状態指示Ｓ５０を（たとえば、ユーザがビデオスクリーンに面する配向状態に関係する）特定の対応する値に限定することが望ましい。入力信号Ｓ１０からの情報に基づく状態推定のプロセスは必ず多少の遅延を含むので、通信デバイスの現在の状態に関係するそのような情報の使用により、状態推定プロセスを早め、および／または１つまたは複数の後続の処理ステージのアクティブ化および／またはそれらの処理ステージに対するパラメータ変化などの推定状態Ｓ５０の変化に応答する動作の遅延を低減するのを助けることができる。]
[0052] 通信デバイスのいくつかの動作構成または動作モードは、特に広範囲のユーザデバイス配向をサポートすることができる。たとえば、プッシュツートークまたはスピーカホンモードなどの動作モードで使用されるとき、通信デバイスをユーザの口から比較的遠い距離に保持することができる。これらの配向のいくつかでは、ユーザの口は各マイクロホンからほぼ等距離になり、現在の配向状態の確実な推定がより困難になることがある。（そのような配向は、たとえば、図６Ｃに示す様々な配向状態に関連するエリア間の重複領域に対応する。）そのような場合、配向の小さい変化が推定状態Ｓ５０の不必要な変化をもたらすことがある。] 図６Ｃ
[0053] （たとえば、ヒステリシスまたは慣性を取り入れることによって）不必要な変化を抑止するように状態推定器４００を構成することが望ましい。たとえば、コンパレータ５６０は、（Ａ）最大分離測定と、（Ｂ）現在の状態に対応する分離測定との間の差がしきい値を超過する（代替的に、そのしきい値以上である）場合にのみ推定状態指示Ｓ５０を更新するように構成できる。]
[0054] 図２０に、遷移制御モジュール５００の実装５２０のブロック図を示す。遷移制御モジュール５２０はＭ個の選択器（たとえば、デマルチプレクサ）のセットを含む。１≦ｊ≦Ｍに対して、各選択器ｊは、推定状態Ｓ５０の値に従ってフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎのうちの１つを出力チャネルＳ４０−ｊとして出力する。] 図２０
[0055] 遷移制御モジュール５２０の使用により、ある空間分離フィルタの出力から別の空間分離フィルタの出力への出力信号Ｓ４０の突然の遷移を生じることがある。通信デバイスが現在２つ以上の配向状態間の空間境界の近くにある状況では、遷移制御モジュール５２０の使用により、あるフィルタ出力から別のフィルタ出力への頻繁な遷移（「ジッタ（jitter）」とも呼ばれる）を生じることもある。様々なフィルタの出力は大幅に異なることがあるので、これらの遷移は、所望のスピーチ信号の一時的減衰または他の不連続性など、出力信号Ｓ４０中に好ましくない乱れを生じることがある。あるフィルタ出力から別のフィルタ出力への変更の間に遅延期間（「ハングオーバ（hangover）」とも呼ばれる）を付与することによってそのような乱れを低減することが望ましい。たとえば、遅延間隔（たとえば、５または１０個の連続するフレーム）にわたって同じ宛先状態が一貫して示されたときのみに推定状態指示Ｓ５０を更新するように状態推定器４００を構成することが望ましい。状態推定器４００のそのような実装形態は、すべての状態遷移に対して同じ遅延間隔を使用するように、あるいは特定のソースおよび／または潜在的な宛先状態に従って異なる遅延間隔を使用するように構成できる。]
[0056] 出力信号Ｓ４０におけるフィルタ出力間の突然の遷移は知覚的に好ましくなく、遷移制御モジュール５２０によって与えられる遷移よりもフィルタ出力間でより漸進的な遷移を得ることが望ましい。そのような場合、スイッチング機構３５０が、時間がたつにつれてある空間分離フィルタの出力から別の空間分離フィルタの出力に漸進的にフェードさせることが望ましい。たとえば、上述のように遅延間隔を付与することの代替または追加として、スイッチング機構３５０は、いくつかのフレームのマージ間隔（たとえば、１０個の２０ミリ秒フレーム）にわたってあるフィルタの出力から別のフィルタの出力への線形平滑化を実施するように構成できる。]
[0057] 図２１に、遷移制御モジュール５００の実装５５０のブロック図を示す。モジュール５２０のデマルチプレクサのアレイの代わりに、遷移制御モジュール５５０はｍ個のミキサ７０ａ〜７０ｍのミキサバンク７００を含む。遷移制御モジュール５５０はまた、遷移制御信号Ｓ６０を生成するように構成されたハングオーバ論理回路６００を含む。１≦ｊ≦Ｍに対して、各ミキサ７０ｊは、遷移制御信号Ｓ６０に従ってフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎを混合して、対応する出力チャネルＳ４０−ｊを生成するように構成される。] 図２１
[0058] 図２２に、ミキサ７０ｊの実装７２ｊのブロック図を示す（ただし、１≦ｊ≦Ｍ）。この例では、遷移制御信号Ｓ６０は、それぞれのフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎに重み付けするためにミキサ７２ｊによって適用される並列のｎ個の値と、重み付けされた信号の和を計算して出力チャネルＳ４０−ｊを生成する加算器６０ｊとを含む。] 図２２
[0059] 図２３に、ミキサバンク７００の２チャネル実装７１０を含む遷移制御モジュール５５０の実装５５５のブロック図を示す。１つのそのような例では、ハングオーバ論理回路６００の２チャネル実装６１０は、所定数のフレーム（すなわち、マージ間隔）にわたって０から１に変化する重みファクタωを計算し、ωと（１−ω）値を遷移制御信号６０として（推定状態Ｓ５０によって決定された順序で）出力するように構成される。ミキサバンク７１０のミキサ７４ａおよび７４ｂは、それぞれωＦｎ＋（１−ω）Ｆｃなどの式に従ってこれらの重みファクタを適用するように構成され、ただし、Ｆｎはミキサの遷移先であるフィルタ処理済みチャネルを示し、Ｆｃはミキサの遷移元であるフィルタ処理済みチャネルを示す。] 図２３
[0060] 推定状態Ｓ５０の異なる遷移に対して異なる遅延および／またはマージ間隔を適用するようにハングオーバ論理回路６００を構成することが望ましい。たとえば、推定状態Ｓ５０の一部の遷移は、実際には他の遷移よりも起こる可能性が低いことがある。比較的可能性が低い状態遷移の一例は、ユーザがハンドセットを完全に（すなわち、第１のマイクロホンがユーザの口に向く配向から、第１のマイクロホンがユーザの口の反対方向に向く配向に）反転させたことを示す遷移である。見込みのより少ない遷移にはより長い遅延および／またはマージ期間を使用するようにハングオーバ論理回路６００を構成することが望ましい。そのような構成は、推定状態指示Ｓ５０のスプリアス過渡状態を抑制するに役立つ。また、ハングオーバ論理回路６００は、本明細書で論じる位置情報、動作構成、および／または動作モードなど、通信デバイスの現在および／または以前の状態に関係する他の情報に従って遅延および／またはマージ間隔を選択するように構成することが望ましい。]
[0061] 図２４に、装置Ａ２１０の実装形態Ａ２１８のブロック図を示す。この例では、スイッチング機構３６０の実装形態３６８は、フィルタ処理済みチャネルのｎ個のペアならびに入力チャネルのペアの中から選択してスピーチチャネルＳ４０−１およびノイズチャネルＳ４０−２を生成するように構成される。一例では、スイッチング機構３６８は、デュアルチャネルモードまたはシングルチャネルモードで動作するように構成される。デュアルチャネルモードでは、スイッチング機構３６８は、フィルタ処理済みチャネルのｎ個のペアの中から選択してスピーチチャネルＳ４０−１およびノイズチャネルＳ４０−２を生成するように構成される。シングルチャネルモードでは、スイッチング機構３６８は、入力チャネルＳ１０−１を選択してスピーチチャネルＳ４０−１を生成するように構成される。シングルチャネルモードの代替実装形態では、スイッチング機構３６８は、２つの入力チャネルの中から選択してスピーチチャネルＳ４０−１を生成するように構成される。そのような場合、２つの入力チャネル間の選択は、最大のＳＮＲ、（たとえば、１つまたは複数の統計メトリックによって示される）最大のスピーチ尤度、通信デバイスの現在の動作構成、および／または所望の信号が生じたと判断される方向など、１つまたは複数の基準に基づくことができる。] 図２４
[0062] 図２５に、スイッチング機構３７０の実装形態３７８が、シングルチャネルモードにあるときに入力チャネルのうちの１つ（たとえば、第１のマイクロホンに関連するチャネル）を受信し、このチャネルをスピーチ信号Ｓ４０−１として出力するように構成された装置Ａ２２０の関連実装形態Ａ２２８のブロック図を示す。スイッチング機構は、推定配向状態がフィルタバンク中のｎ個のフィルタのいずれにも対応しないとき、シングルチャネルモードを選択するように構成できる。たとえば、フィルタバンク１２０の２フィルタの実装形態１３０および図５に示す可能な配向状態の３つ組では、スイッチング機構は、推定状態Ｓ５０がエリアＡ３に対応するとき、シングルチャネルモードを選択するように構成できる。設計上の観点から、シングルチャネルモードは、信頼できる空間処理結果を生じる（または、代替的に、生じることが予想される）フィルタがフィルタバンク中に全く発見されない場合を含むことができる。たとえば、スイッチング機構は、空間分離フィルタのいずれかが所望の音声成分を対応するフィルタ処理済みチャネルに分離したと状態推定器が確実に判断できないときは、シングルチャネルモードを選択するように構成できる。１つのそのような例では、コンパレータ５６０は、分離測定の差が最小値を超過しない場合に対してシングルチャネルモードの選択を指示するように構成される。] 図２５図５
[0063] 同じ構造のそれぞれの実例を使用してフィルタバンク１００のフィルタのすべてを実装する場合、この構造の別の実例を使用してシングルチャネルモードを実装すると便利である。図２６に、装置Ａ２２８のそのような実装形態Ａ２２９のブロック図を示す。パススルーフィルタＦ１４−３は、空間処理なしに入力チャネルＳ１０−１およびＳ１０−２をパスするように構成された同じ構造の別の実例を使用して実装される。たとえば、フィルタバンク１００のフィルタは、一般にクロスフィルタフィードフォワードおよび／またはフィードバック構造を使用して実装される。そのような場合、パススルーフィルタは、クロスフィルタのすべての係数値が０である構造を使用して実装できる。さらなる一例では、パススルーフィルタＦ１４−３は、入力チャネルＳ１０−１のみがパスされるように入力チャネルＳ１０−２を遮断するように実装される。装置Ａ２２９はまた、（たとえば、推定状態指示Ｓ５０に基づいて）他のフィルタ処理済みチャネルＳ２０１１、Ｓ２０１２、Ｓ２０２１、およびＳ２０２２と同じ方法でパススルーフィルタＦ１４−３によって生成されたチャネルへ、およびそのチャネルから遷移するように構成されたスイッチング機構３７８の実装形態３７９を含む。] 図２６
[0064] 無相関ノイズは、空間処理システムのパフォーマンスを劣化させる。たとえば、ホワイトノイズ利得により、無相関ノイズの増幅が空間処理フィルタ中で発生することがある。無相関ノイズは、マイクロホンまたはセンサのすべてよりも少ない（たとえば、１つの）マイクロホンまたはセンサに特有であり、マイクロホンおよび／またはセンサもしくは回路ノイズへの直接的な風、（たとえば、ユーザの爪の）ひっかき、呼気または吹込みによるノイズを含むことができる。そのようなノイズは、特に低周波で現れる傾向がある。無相関ノイズが検出されたとき空間分離フィルタをオフにするかまたはバイパスし（たとえば、シングルチャネルモードに移行し）、および／または高域通過フィルタを用いて影響を受けている（１つまたは複数の）入力チャネルから無相関ノイズを除去するように装置Ａ２００を実装することが望ましい。]
[0065] 図２７に、入力チャネル間で無相関であるノイズを検出するように構成された無相関ノイズ検出器３０を含む装置Ａ２１０の実装形態Ａ２１０Ａのブロック図を示す。無相関ノイズ検出器３０は、無相関ノイズの検出および／またはそのような検出への応答の開示に限定した目的のために、参照により本明細書に組み込まれる、「SYSTEMS, METHODS, ANDAPPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する２００８年８月２９日に出願の米国特許出願第１２／２０１，５２８号に開示された構成のいずれかに従って実装できる。この例では、装置Ａ２１０Ａは、無相関ノイズ検出器３０が（たとえば、バイナリ値とすることができる検出指示Ｓ８０によって）無相関ノイズの存在を示すとき、上述のシングルチャネルモードに入るように構成されたスイッチング機構３６８の実装形態３６８Ａを含む。シングルチャネルモードの使用の代替（または追加）として、装置Ａ２１０Ａは、１つまたは複数のチャネルで無相関ノイズが検出されたときにのみフィルタをアクティブ化するように、入力チャネルのうちの１つまたは複数に調節可能な高域通過フィルタを使用して無相関ノイズを除去するように構成できる。] 図２７
[0066] ボイス通信（たとえば、電話通信）のためのトランシーバ適用例では、「近端（near-end）」という用語は、（たとえば、マイクロホンからの）オーディオとして受信され、通信デバイスによって送信される信号を示すために使用され、「遠端」という用語は、通信デバイスによって受信され、（たとえば、デバイスの１つまたは複数のラウドスピーカを介した）オーディオとして再生される信号を示すために使用される。遠端信号アクティビティに応答して装置Ａ２００の実装形態の動作を変更することが望ましい。たとえば、特に全二重スピーカホンモード中またはヘッドセットでは、デバイスのラウドスピーカによって再生された遠端信号アクティビティは、デバイスのマイクロホンによってピックアップされて、入力信号Ｓ１０上に現れて、最終的に配向状態推定器を混乱させることがある。そのような場合、遠端信号アクティビティの期間中に推定状態への更新を中断することが望ましい。図２８に、（たとえば、通信デバイスの受信機部から受信された）遠端オーディオ信号Ｓ１５に対するボイスアクティビティ検出器（ＶＡＤ）２０の実例７０を含む装置Ａ２２４の実装形態Ａ２２４Ａのブロック図を示す。ハンドセットの場合、全二重スピーカホンモード中に、および／または第２のスピーカＳＰ２０がアクティブであるときにＶＡＤ７０をアクティブ化することができ、ＶＡＤ７０が生成する更新制御信号Ｓ７５を使用して、ＶＡＤが遠端スピーチアクティビティを指示するときに状態推定器の出力に対する変更を不能にするようにスイッチング機構を制御することができる。図２８は、ＶＡＤ２０およびＶＡＤ７０のうちの少なくとも一方がスピーチアクティビティを指示するとき推定状態Ｓ５０の更新を中断するように構成されたスイッチング機構３７４の特定の実装形態３７４Ａを示す。ヘッドセットの場合、通常動作中に（たとえば、デバイスの第１のスピーカが無音にされなければ）ＶＡＤ７０をアクティブ化することができる。] 図２８
[0067] 空間分離フィルタＦ１０−１〜Ｆ１０−ｎのうちの１つまたは複数は、Ｍ個よりも少ないチャネルを有する信号を処理するように構成することが望ましい。たとえば、Ｍが２よりも大きい場合でさえ、入力チャネルのペアのみを処理するように空間分離フィルタのうちの１つまたは複数（場合によってはすべて）を構成することが望ましい。そのような構成を求める１つの考えられる理由は、Ｍ個のマイクロホンのうちの１つまたは複数の障害に耐性がある装置Ａ２００の実装形態を得るためである。別の考えられる理由は、通信デバイスのいくつかの動作構成では、Ｍ個のマイクロホンのうちの１つまたは複数を非アクティブ化するか、さもなければ無視するように装置Ａ２００を構成することができることである。]
[0068] 図２９および図３０に、Ｍが３に等しく、フィルタＦ１４−１、Ｆ１４−２、およびＦ１４−３の各々が入力チャネルのペアを処理するように構成された装置Ａ２００の２つの実装形態を示す。図２９は、フィルタＦ１４−１、Ｆ１４−２、およびＦ１４−３の各々が、３つの入力チャネルＳ１０−１、Ｓ１０−２、およびＳ１０−３の異なるペアを処理するように構成された装置Ａ２３２のブロック図を示す。図３０は、フィルタＦ１４−１およびＦ１４−２が入力チャネルＳ１０−１およびＳ１０−２を処理するように構成され、フィルタＦ１４−３が入力チャネルＳ１０−１およびＳ１０−３を処理するように構成された装置Ａ２３４のブロック図を示す。図３１に、フィルタＦ１４−１〜Ｆ１４−６の各々が入力チャネルのペアを処理するように構成された装置Ａ２００の実装形態Ａ２３６のブロック図を示す。] 図２９図３０図３１
[0069] 装置Ａ２３４において、スイッチング機構３６０は、入力チャネルＳ１０−３に対応するマイクロホンが無音にされているかまたは障害のある動作構成のためにフィルタＦ１４−１およびＦ１４−２の中の一方を選択し、他のためにはフィルタＦ１４−１およびＦ１４−３の中の一方を選択するように構成できる。装置Ａ２３６において入力チャネルＳ１０−１〜Ｓ１０−３の特定のペアが（たとえば、現在の動作構成に基づいて、または他の入力チャネルに関連するマイクロホンの故障に応答して）選択されている場合、スイッチング機構３６０は、入力チャネルのそのペアを受信するフィルタＦ１４−１〜Ｆ１４−６に対応する２つの状態の中からのみ選択するように構成できる。]
[0070] 通信装置のいくつかの動作モードでは、３つ以上の入力チャネルの中のペアの選択は、少なくとも部分的にヒューリスティックスに基づいて実行できる。たとえば、図２に示す従来の電話モードでは、電話機は、一般に、（入力チャネルのペアの固定的選択が適切となるように）変動が限定された制約付き方法で保持される。しかしながら、図３Ａおよび図３Ｂ、または図４Ａおよび図４Ｂに示すスピーカホンモードでは、多くの保持パターンが可能であり、したがって、すべての予想される使用配向における十分な分離を得るためには入力チャネルのペアの動的な選択が望ましい。] 図２図３Ａ図３Ｂ図４Ａ図４Ｂ
[0071] 通信デバイスの寿命期間中に、マイクロホン要素のうちの１つまたは複数が損傷するか、さもなければ故障することがある。上記のように、装置Ａ２００はマイクロホンのうちの１つまたは複数の故障に耐性があることが望ましい。スイッチング機構３６０は、それぞれ入力チャネルの異なるサブセットに対応する複数の状態推定方式を用いて構成できる。たとえば、様々な予想される障害シナリオの各々に対して（たとえば、あらゆる可能な障害シナリオに対して）状態推定ロジックを設けることが望ましい。]
[0072] 状態推定器４００は、インジケータ関数の値を可能な配向状態のセットにマッピングすることによって推定状態指示Ｓ５０を生成するように実装することが望ましい。たとえば、装置Ａ２００の２フィルタの実装形態Ａ２２０では、分離測定を単一のインジケータに圧縮し、そのインジケータの値を、可能な配向状態のセットのうちの対応する１つにマッピングすることが望ましい。１つのそのような方法は、各フィルタの分離測定を計算し、２つの測定を使用してインジケータ関数を評価し、そのインジケータ関数値を可能な状態のセットにマッピングすることを含む。]
[0073] 図１４Ａ〜図１４Ｄを参照しながら上述したものを含むいかなる分離測定でも使用することができる（たとえば、エネルギー差、相関、ＴＤＯＡ）。一例では、フィルタバンク１３０のそれぞれの空間分離フィルタＦ１４−１およびＦ１４−２に対する分離測定Ｚ１およびＺ２の各々は、以下のように、フィルタの出力のエネルギーの差として計算され、各チャネルのエネルギーは、２０ミリ秒フレームにわたる２乗サンプルの合計として計算できる：Ｚ１＝ｅ１１−ｅ１２、Ｚ２＝ｅ２１−ｅ２２。ここで、ｅ１１、ｅ１２、ｅ２１、ｅ２２はそれぞれ、対応するフレームにわたるチャネルＳ２０１１、Ｓ２０２１、Ｓ２０１２、およびＳ２０２２のエネルギーを示す。次いでインジケータ関数を、たとえば、Ｚ１−Ｚ２のように２つの分離測定の差として計算することができる。] 図１４Ａ図１４Ｂ図１４Ｃ図１４Ｄ
[0074] インジケータ関数を評価する前に、対応するフィルタ入力チャネルのうちの１つまたは複数に従って各分離測定をスケーリングすることが望ましい。たとえば、対応するフレームにわたる以下の式のうちの１つの値の合計などのファクタに従って測定Ｚ１およびＺ２の各々をスケーリングすることが望ましい：｜ｘ１｜、｜ｘ２｜、｜ｘ１｜＋｜ｘ２｜、｜ｘ１＋ｘ２｜、｜ｘ１ｘ２｜。ここで、ｘ１、ｘ２はそれぞれ入力チャネルＳ１０−１およびＳ１０−２の値を示す。]
[0075] 分離測定に対して異なるスケールファクタを使用することが望ましい。１つのそのような例では、フィルタＦ１４−１は、チャネルＳ１０−１に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応し、フィルタＦ１４−２は、チャネルＳ１０−２に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応する。この場合、フレームにわたる｜ｘ１｜の合計に基づくファクタに従って分離測定Ｚ１をスケーリングし、フレームにわたる｜ｘ２｜の合計に基づくファクタに従って分離測定Ｚ２をスケーリングすることが望ましい。この例では、分離測定Ｚ１は]
[0076] のような式に従って計算し、分離測定Ｚ２は]
[0077] のような式に従って計算できる。]
[0078] スケールファクタは、他の方向ではなく一方向においてより強く分離測定の値に影響を及ぼすことが望ましい。たとえば、最大差に基づく分離測定の場合、スケールファクタは、入力ボリュームが小さいときに分離測定の値を過度に増大させることなく、大きい入力チャネルボリュームに応答して分離測定の値を低減させることが望ましい。（最小差に基づく分離測定の場合は、反対の効果が望ましい。）１つのそのような例では、分離測定Ｚ１およびＺ２は、以下のような式に従って計算される：]
[0079] 、およびＴｓはしきい値である。]
[0080] 図３２Ａに、インジケータ関数値（たとえば、Ｚ１−Ｚ２）を３つの可能な配向状態のセットにマッピングする一例を示す。この値が第１のしきい値Ｔ１未満である場合、（第１のフィルタに対応する）状態１が選択される。この値が第２のしきい値Ｔ２を上回る場合、（第２のフィルタに対応する）状態３が選択される。この値がそれらのしきい値の間にある場合、（いずれのフィルタにも対応しない、すなわち、シングルチャネルモードの）状態３が選択される。典型的な場合、しきい値Ｔ１とＴ２は反対の極性を有する。図３２Ｂに、遷移がどちらの方向に進んでいるかに応じて状態間の遷移を制御するのに異なるしきい値Ｔ１Ａ、Ｔ１ＢおよびＴ２Ａ、Ｔ２Ｂを使用するマッピングの別の例を示す。そのようなマッピングを使用して、配向の小さい変化によるジッタを低減し、および／または重複エリアにおける不必要な状態遷移を少なくすることができる。] 図３２Ａ図３２Ｂ
[0081] 上述のインジケータ関数方式は、たとえば、ペアの選択された状態を得るようにチャネルの各ペアを処理し、次いで全体的に最も多い得票を有する状態を選択することによって装置Ａ２００の３チャネル（またはＭチャネル）の実装形態に拡張することもできる。]
[0082] 上記のように、フィルタバンク１３０は、フィルタＦ１４−２の係数値行列がフィルタＦ１４−１の対応する係数値行列に関して反転されるように実装できる。この特定の場合、上述のインジケータ関数値は]
[0083] のような式に従って計算できる。ここで、β１は前述の値を有する。]
[0084] 図３３Ａに、出力信号Ｓ４０の追加の空間処理（たとえば、スピーチ成分とノイズ成分のさらなる分離）を実行してさらなる出力信号Ｓ４２を生成するように構成された適応フィルタ４５０と装置Ａ２１０を組み合わせる装置Ａ２００の実装形態Ａ３１０のブロック図を示す。これらの成分フィルタの各々が、フィルタバンク１２０中のフィルタのうちの１つに対応し推定状態指示Ｓ５０に従って選択できるように、適応フィルタ４５０は、複数の適応フィルタを含むように実装することが望ましい。たとえば、適応フィルタ４５０のそのような実装は、成分フィルタのうちの１つの出力を信号Ｓ４２として選択し、および／またはマージ間隔中に成分フィルタのうちの２つ以上の出力を混合して、推定状態指示Ｓ５０に従って信号Ｓ４２を得るように構成された遷移制御モジュール５００に類似する選択機構または混合機構を含むことができる。] 図３３Ａ
[0085] 適応フィルタ４５０（あるいは、その成分フィルタのうちの１つまたは複数、場合によってはすべて）は、本明細書で説明するように１つまたは複数のＢＳ、ビームフォーミング、および／または結合ＢＳ／ビームフォーミング方法に従って、あるいは特定の適用例に適した任意の他の方法に従って構成できる。初期条件のセットをもつ適応フィルタ４５０を構成することが望ましい。たとえば、成分フィルタのうちの少なくとも１つが０以外の初期状態を有することが望ましい。そのような状態は、フィルタバンク１２０の対応するフィルタを使用してトレーニング信号のセットをフィルタ処理することによって得られるフィルタ処理済み信号への収束の状態に成分フィルタをトレーニングすることによって計算できる。典型的な生成適用例では、成分フィルタとフィルタバンク１２０の対応するフィルタとの参照実例を使用して初期状態（すなわち、フィルタ係数の初期値のセット）を生成し、次いでその初期状態は、適応フィルタ４５０の成分フィルタに記憶される。初期状況の生成はまた、「SYSTEMS, METHODS, ANDAPPARATUS FOR SIGNALSEPARATION」と題する２００８年８月２５日に出願の米国特許出願第１２／１９７，９２４号の段落［００１３０］〜［００１３４］（「For a configuration that includes」で開始し「during online operation」で終了する）に記載されており、それらの段落は、フィルタトレーニングの開示に限定した目的のために、参照により本明細書に組み込まれる。トレーニングを介したフィルタ状態の生成についても以下でより詳細に説明する。]
[0086] 装置Ａ２００はまた、空間処理済み信号のスペクトル処理を実行するように構成された１つまたは複数のステージを含むように実装できる。図３３Ｂに、装置Ａ２１０をノイズ低減フィルタ４６０と組み合わせる装置Ａ２００の実装形態Ａ３２０のブロック図を示す。ノイズ低減フィルタ４６０は、ノイズチャネルＳ４０−２上の信号をノイズ基準として適用して、スピーチ信号Ｓ４０−１中のノイズを低減し、対応するフィルタ処理済みスピーチ信号Ｓ４５を生成するように構成される。ノイズ低減フィルタ４６０は、フィルタ係数値が、分離されたチャネルからの信号およびノイズ電力情報に基づくウィーナーフィルタとして実装できる。そのような場合、ノイズ低減フィルタ４６０は、ノイズ基準（あるいは出力チャネルＳ４０が３つ以上のチャネルを有するより一般的な場合は、１つまたは複数のノイズ基準）に基づいてノイズスペクトルを推定するように構成できる。代替的に、ノイズ低減フィルタ４６０は、１つまたは複数のノイズ基準からのスペクトルに基づいてスピーチ信号に対してスペクトル減算演算を実行するように実装できる。代替的に、ノイズ低減フィルタ４６０は、ノイズ共分散が１つまたは複数のノイズ基準に基づくカルマンフィルタとして実装できる。] 図３３Ｂ
[0087] ノイズ低減フィルタ４６０は、非スピーチ間隔のみの間にスペクトルおよびまたは共分散などのノイズ特性を推定するように構成することが望ましい。そのような場合、ノイズ低減フィルタ４６０は、ボイスアクティビティ検出（ＶＡＤ）動作を含むかまたは装置もしくはデバイス内で他の方法によって実施されるそのような動作の結果を使用して、スピーチ間隔中にノイズ特性の推定を不能にする（代替的に、ノイズのみ間隔中のみでそのような推定を可能にする）ように構成できる。図３３Ｃに、適応フィルタ４５０とノイズ低減フィルタ４６０の両方を含む装置Ａ３１０およびＡ３２０の実装形態Ａ３３０のブロック図を示す。この場合、ノイズ低減フィルタ４６０は、ノイズチャネルＳ４２−２上の信号をノイズ基準として適用して、スピーチ信号Ｓ４２−１中のノイズを低減して、フィルタ処理済みスピーチ信号Ｓ４５を生成するように構成される。] 図３３Ｃ
[0088] 装置Ａ２００の実装形態は、通信デバイスの他の要素が出力信号Ｓ４０またはＳ４５に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。この場合、（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分内に含めることができる）シングルチャネルノイズ低減モジュールの実装など、装置Ａ２００とデバイスの任意の他のノイズ低減要素との間に起こりうる相互作用をなくすことが望ましい。]
[0089] そのような場合、残差バックグラウンドノイズの量および／または品質を調整することが望ましい。たとえば、装置Ａ２００のマルチチャネルフィルタは、シングルチャネルノイズ低減モジュールの予想されるノイズ入力レベルに対して、あまりにアグレッシブなことがある。出力信号Ｓ４０中に残っているノイズの振幅および／またはスペクトルシグナチャに応じて、シングルチャネルノイズ低減モジュールはより多くのひずみ（たとえば、急激に変化する残差、音楽ノイズ）を発生させることがある。そのような場合、結合ノイズ低減方式の出力に応答して何らかのフィルタ処理済み快適ノイズを出力信号Ｓ４０に加え、および／または１つまたは複数のパラメータ設定を調整することが望ましい。]
[0090] シングルチャネルノイズ低減法は、一般に、ノイズ低減演算をサポートするのに使用される参照情報を提供するのにノイズおよびボイスデータの多少延長された期間の獲得を必要とする。この獲得期間は、可観測性ノイズ除去において遅延を生じさせる傾向がある。そのような方法と比較して、ここで提示するマルチチャネル方法は、バックグラウンドノイズからのユーザボイスの分離により、比較的即時のノイズ低減を行うことができる。したがって、シングルチャネルノイズ低減モジュールの動的機能に関してマルチチャネル処理ステージのアグレッシブネス設定の適用のタイミングを最適化することが望ましい。]
[0091] 推定状態指示Ｓ５０の変更に応答して、後続の処理ステージにおいてパラメータ変更を実施することが望ましい。また、装置Ａ２００は、特有のパラメータ変更および／または推定配向状態に関連できるタイミングキューおよび／またはハングオーバ論理回路における変更を始動することが望ましい。たとえば、一定の延長された推定期間は、状態推定知識の信頼度を十分なものにするのに役立つので、推定状態指示Ｓ５０の変更後に少しの期間だけアグレッシブな後処理ステージを遅延させることが望ましい。]
[0092] 配向状態が変化すると、現在のノイズ基準は後続の空間および／またはスペクトル処理演算にはもはや適切でなくなることがあり、状態遷移中にこれらのステージをよりアグレッシブでないようにすることが望ましい。たとえば、遷移位相中にスイッチング機構３５０が現在のノイズチャネル出力を減衰させることが望ましい。ハングオーバ論理回路６００は、そのような演算を実施するように実装できる。１つのそのような例では、ハングオーバ論理回路６００は、現在の推定状態と以前の推定状態との間の不一致を検出し、そのような検出に応答して現在のノイズチャネル出力（たとえば、装置Ａ２１０のチャネルＳ４０−２）を減衰させるように構成される。（漸進的または即時とすることができる）そのような減衰は、大幅なものに（たとえば、７５または８０パーセントなど、５０または６０パーセントから８０または９０パーセントまでの範囲内の量だけに）することができる。また、新しいスピーチおよびノイズチャネルへの（たとえば、両方とも通常ボリュームの）遷移を、本明細書で（たとえば、遷移制御モジュール５５０を参照しながら）説明したように実施することができる。図３４に、チャネルペアＳ２０１１とＳ２０１２からチャネルペアＳ２０２１とＳ２０２２に遷移中の減衰方式の一例における、スピーチチャネルＳ２０１１、Ｓ２０２１およびノイズチャネルＳ２０１２、Ｓ２０２２の時間の変化に伴う相対的な利得レベルを示す。] 図３４
[0093] また、推定状態指示Ｓ５０に従って１つまたは複数の下流の演算を制御することが望ましい。たとえば、推定状態指示Ｓ５０に従って初期条件の対応するセットを（たとえば、図３３Ａおよび図３３Ｃに示す）下流の適応フィルタに適用することが望ましい。そのような場合、上述のように推定状態指示Ｓ５０に従って適応フィルタ４５０の成分フィルタを選択し、成分フィルタをその初期状態にリセットすることが望ましい。初期条件のあるセットから別のセットへの、またはある成分フィルタから別の成分フィルタへの遷移中は、ハングオーバ論理回路６００を参照しながら上述したのと類似する方法で現在のノイズチャネル出力（たとえば、Ｓ４２−２）を減衰させることが望ましい。また、装置Ａ２００のシングルチャネル動作中は、下流の適応空間処理フィルタなどの（たとえば、図３３Ａ〜図３３Ｃに示す）デバイスの他の空間処理演算を不能にすることが望ましい。] 図３３Ａ図３３Ｂ図３３Ｃ
[0094] いくつかの方向に対するシステムノイズ低減性能の若干の感度が（たとえば、通信デバイス上のマイクロホン配置により）発生することがある。特定の適用例に適したマイクロホンの構成を選択することによって、および／またはノイズ間隔の選択的マスキングを使用することによって、そのような感度を下げることが望ましい。そのようなマスキングは、（たとえば、本明細書で説明したＶＡＤを使用して）ノイズのみ時間間隔を選択的に減衰させることによって、または後続のシングルチャネルノイズ低減モジュールが残差ノイズ乱れを除去するのを可能にするために快適ノイズを加えることによって達成できる。]
[0095] 図３５Ａに、遠端オーディオ信号Ｓ１５に基づいて入力信号Ｓ１０からエコーを消去するように構成されたエコーキャンセラＥＣ１０を含む装置Ａ２００の実装形態Ａ２１０Ｂのブロック図を示す。この例では、エコーキャンセラＥＣ１０は、フィルタバンク１２０によって入力として受信されたエコー消去済み信号Ｓ１０ａを生成する。装置Ａ２００はまた、遠端オーディオ信号Ｓ１５に基づいて出力信号Ｓ４０からエコーを消去するように構成されたエコーキャンセラＥＣ１０の実例を含むように実装できる。いずれの場合も、スピーカホンモードでの通信デバイスの動作中および／またはＰＴＴモードでの通信デバイスの動作中はエコーキャンセラＥＣ１０を使用不能にすることが望ましい。] 図３５Ａ
[0096] 図３５Ｂに、シングルチャネルエコーキャンセラＥＣ２０の２つの実例ＥＣ２０ａおよびＥＣ２０ｂを含むエコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図を示す。この例では、エコーキャンセラＥＣ２０の各実例は、入力チャネルＩ１、Ｉ２のセットのうちの一方を処理して出力チャネルＯ１、Ｏ２のセットのうちの対応する１つを生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技術（たとえば、最小２乗平均技術）に従ってエコーキャンセラＥＣ２０の様々な実例をそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第１２／１９７，９２４号の段落［００１３９］−［００１４１］（「An apparatus」で開始し「B500」で終了する）で論じられており、それらの段落は、装置の他の要素の設計、実装、および／または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。] 図３５Ｂ
[0097] 図３５Ｃに、遠端信号Ｓ１５をフィルタ処理するように構成されたフィルタＣＥ１０と、処理中の入力チャネルとフィルタ処理済み遠端信号を組み合わせるように構成された加算器ＣＥ２０とを含むエコーキャンセラＥＣ２０の実装形態ＥＣ２２のブロック図を示す。フィルタＣＥ１０のフィルタ係数値は固定および／または適応型とすることができる。遠端オーディオ信号を再生するように通信デバイスの参照実例によって記録されたマルチチャネル信号のセットを使用して（たとえば、以下でより詳細に説明するように）フィルタＣＥ１０の参照実例をトレーニングすることが望ましい。] 図３５Ｃ
[0098] 装置Ａ２１０Ｂの実装形態は、通信デバイスの他の要素（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分）が出力信号Ｓ４０に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。エコーキャンセラを装置Ａ２００の実装形態中に含めるように設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ（たとえば、ＭＳＭチップまたはチップセットのエコー消去モジュール）との間の起こりうる相乗効果を考慮に入れることが望ましい。]
[0099] 図３６に、本明細書で説明する装置Ａ２００（または以下で説明する装置Ａ１００）の実装形態を含むデバイスの設計および使用中に従われる手順のフローチャートを示す。設計段階では、トレーニングデータを使用して固定フィルタセット（たとえば、フィルタバンク１００のフィルタのフィルタ係数値）を決定し、対応するユーザハンドセット状態を、電流配向状態の（たとえば、本明細書で説明するスイッチング機構による）オンライン推定と、電流状況に適した固定フィルタセットの選択とを可能にするように特徴づける。トレーニングデータは、通信デバイス（たとえば、ハンドセットまたはヘッドセット）の参照実例を使用して様々なユーザデバイス音響シナリオにおいて記録される、ノイズの多いスピーチサンプルのセットである。（無響室において実行される）そのような記録の前に、（周波数とともに変化する）参照デバイスのＭ個のマイクロホンの利得の比が所望の範囲内にあることを確認するために較正を実行することが望ましい。参照デバイスを使用して固定フィルタセットが決定されると、本明細書で説明する装置の実装形態を含む通信デバイスのプロダクション実例に、それらの固定フィルタセットがコピーされる。] 図３６
[0100] 図３７に、フィルタバンク１００の空間分離フィルタの１つまたは複数を特徴づける係数値を得るために使用できる設計方法Ｍ１０のフローチャートを示す。方法Ｍ１０は、マルチチャネルトレーニング信号のセットを記録するタスクＴ１０と、トレーニング信号のセットをサブセットに分割するタスクＴ２０とを含む。方法Ｍ１０はまた、タスクＴ３０とＴ４０とを含む。サブセットの各々について、タスクＴ３０は、収束のために対応する空間分離フィルタをトレーニングする。タスクＴ４０は、トレーニングされたフィルタの分離性能を評価する。タスクＴ２０、Ｔ３０、およびＴ４０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。タスクＴ４０において容認できる結果が得られるまで、方法Ｍ１０のタスクの１つまたは複数を繰り返す。方法Ｍ１０の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、空間分離フィルタの設計、トレーニング、および／または評価に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, ANDAPPARATUS FOR SIGNALSEPARATION」と題する米国特許出願第１２／１９７，９２４号に記載されている。] 図３７
[0101] タスクＴ１０は、少なくともＫ個のマイクロホンのアレイを使用して、Ｋチャネルトレーニング信号のセットを記録する。ここで、Ｋは、少なくともＭに等しい整数である。トレーニング信号の各々は、スピーチ成分とノイズ成分の両方を含み、各トレーニング信号は、Ｐ個のシナリオの１つの下で記録される。ここで、Ｐは、２に等しい場合があるが、一般に１よりも大きい任意の整数である。以下で説明するように、Ｐ個のシナリオの各々は、様々な空間特徴（たとえば、様々なハンドセットまたはヘッドセット配向）および／または様々なスペクトル特徴（たとえば、様々な特性を有する音源の捕捉）を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、Ｐ個のシナリオのうちの異なる１つの下でそれぞれ記録される少なくともＰ個のトレーニング信号を含む。]
[0102] Ｋチャネルトレーニング信号のセットの各々は、少なくとも１つの情報ソースおよび少なくとも１つの干渉ソースに応答してＫ個のマイクロホンのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、ノイズの多い環境でのスピーチの記録であることが望ましい。Ｋ個のチャネルの各々は、Ｋ個のマイクロホンのうちの対応する１つの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、８ｋＨｚから１６ｋＨｚにわたる。]
[0103] 本明細書で説明する装置Ａ２００の他の要素を含んでいる同じ通信デバイスを使用してタスクＴ１０を実行することが可能である。しかしながら、より一般的には、タスクＴ１０は、通信デバイス（たとえば、ハンドセットまたはヘッドセット）の参照実例を使用して実行されるであろう。方法Ｍ１０によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様の通信デバイスの他の実例（たとえば、各そのようなプロダクション実例のフラッシュメモリ）にロードされる。]
[0104] そのような場合、通信デバイス（「参照デバイス」）の参照実例は、Ｋ個のマイクロホンのアレイを含む。参照デバイスのマイクロホンは、通信デバイスのプロダクション実例（「プロダクションデバイス」）の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロホンは、プロダクションデバイスのモデルと同じ１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、１つまたは複数の低位の（すなわち、音響的に重要でない）態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置Ａ２００の要素を含む必要はない。]
[0105] 同じＫ個のマイクロホンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の１つを記録するために使用されるＫ個のマイクロホンのセットは、トレーニング信号のもう１つを記録するために使用されるＫ個のマイクロホンのセットとは（マイクロホンの１つまたは複数において）異なることが望ましい。たとえば、マイクロホンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロホンアレイの異なる実例を使用することが望ましい。１つのそのような場合には、Ｋチャネルトレーニング信号のセットは、参照デバイスの少なくとも２つの異なる実例を使用して記録された信号を含む。]
[0106] Ｐ個のシナリオの各々は、少なくとも１つの情報ソースと少なくとも１つの干渉ソースとを含む。一般に、各情報ソースは、スピーチ信号または楽音信号を再生するラウドスピーカであり、各干渉ソースは、別のスピーチ信号または典型的な予想される環境からの周囲のバックグラウンドサウンド、またはノイズ信号などの干渉側音響信号を再生するラウドスピーカである。使用できるラウドスピーカの様々なタイプには、動電型（たとえば、ボイスコイル）スピーカ、圧電型スピーカ、静電型スピーカ、リボンスピーカ、平面磁気スピーカなどがある。１つのシナリオまたは適用例において情報ソースとして働くソースは、異なるシナリオまたは適用例において干渉ソースとして働くことができる。Ｐ個のシナリオの各々におけるＫ個のマイクロホンからの入力データの記録は、Ｋチャネルテープレコーダ、Ｋチャネルサウンドの記録または捕捉機能をもつコンピュータ、あるいは（たとえば、サンプリング解像度のオーダー内で）同時にＫ個のマイクロホンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。]
[0107] 音響無響室は、Ｋチャネルトレーニング信号のセットを記録するために使用できる。図３８に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒ（ＨＡＴＳ、デンマーク、Ｎａｅｒｕｍ、Ｂｒｕｅｌ＆Ｋｊａｅｒ製）は、干渉ソース（すなわち、４つのラウドスピーカ）の内向きアレイ内に配置される。ＨＡＴＳの頭部は、代表的な人間の頭部と音響的に同様であり、スピーチ信号を再生するために口部にラウドスピーカを含む。干渉ソースのアレイは、図示のようにＨＡＴＳを囲む拡散ノイズフィールドを生成するように駆動できる。１つのそのような例では、ラウドスピーカのアレイは、ＨＡＴＳ耳参照ポイントまたは口参照ポイントにおいて７５〜７８ｄＢの音圧レベルでノイズ信号を再生するように構成される。他の場合には、１つまたは複数のそのような干渉ソースは、様々な空間分布を有するノイズフィールド（たとえば、指向性ノイズフィールド）を生成するように駆動できる。] 図３８
[0108] 使用できるノイズ信号のタイプは、（たとえば、ニュージャージー州Ｐｉｓｃａｔａｗａｙ、米国電気電子学会（ＩＥＥＥ）によって公表されたＩＥＥＥ規格２６９−２００１、「Draft Standard Methodsfor Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように）ホワイトノイズ、ピンクノイズ、グレーノイズ、Ｈｏｔｈノイズを含む。使用できる他のタイプのノイズ信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。]
[0109] Ｐ個のシナリオは、少なくとも１つの空間および／またはスペクトル特徴に関して互いに異なる。ソースおよびマイクロホンの空間構成は、少なくとも以下の方法、すなわち、他の１つまたは複数のソースに対するソースの配置および／または配向と、他の１つまたは複数のマイクロホンに対するマイクロホンの配置および／または配向と、マイクロホンに対するソースの配置および／または配向と、ソースに対するマイクロホンの配置および／または配向とのうちの任意の１つまたは複数でシナリオごとに異なることができる。Ｐ個のシナリオの中の少なくとも２つは、セットの中のマイクロホンまたはソースの少なくとも１つが、１つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロホンおよびソースのセットに対応することができる。たとえば、Ｐ個のシナリオの中の少なくとも２つは、ユーザの口などの情報ソースに対する、Ｋ個のマイクロホンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約（たとえば、デバイス上のマイクロホンのロケーション）、デバイスの予測される使用パターン（たとえば、典型的な予想されるユーザの保持姿勢）、および／または異なるマイクロホン位置および／またはアクティブ化（たとえば、３つ以上のマイクロホンの中の異なるペアをアクティブにすること）を含むことができる。]
[0110] シナリオごとに異なることがあるスペクトル特徴は、少なくとも１つのソース信号のスペクトル成分（たとえば、異なるボイスからのスピーチ、異なる色のノイズ）と、マイクロホンの１つまたは複数の周波数応答とを少なくとも含む。上述の１つの特定の例では、シナリオの少なくとも２つは、マイクロホンの少なくとも１つに関して異なる（言い換えれば、１つのシナリオにおいて使用されるマイクロホンの少なくとも１つの代わりに、他のシナリオでは別のマイクロホンを使用するか、または全く使用しない）。そのような変動は、マイクロホンの周波数応答および／または位相応答の変化の予想される範囲にわたってロバストであり、および／またはマイクロホンの障害に対してロバストであるソリューションをサポートするために望ましい。]
[0111] 別の特定の例では、シナリオの少なくとも２つは、バックグラウンドノイズを含み、バックグラウンドノイズのシグナチャ（すなわち、周波数および／または時間にわたるノイズの統計値）に関して異なる。そのような場合、干渉ソースは、Ｐ個のシナリオの１つでは、１つの色（たとえば、白、ピンク、またはＨｏｔｈ）またはタイプ（たとえば、道路のノイズ、バブルのノイズ、または車のノイズの再生）のノイズを放出し、Ｐ個のシナリオのもう１つでは、別の色またはタイプのノイズ（たとえば、１つのシナリオではバブルのノイズ、および別のシナリオでは道路および／または車のノイズ）を放出するように構成することができる。]
[0112] Ｐ個のシナリオの少なくとも２つは、実質的に異なるスペクトル成分を有する信号を生成する情報ソースを含むことができる。スピーチ適用例では、たとえば、２つの異なるシナリオにおける情報信号は、互いに１０パーセント、２０パーセント、３０パーセント、さらには５０パーセント以上異なる平均ピッチ（すなわち、シナリオの長さにわたる）を有する２つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の１つまたは複数のソースの出力振幅に対するソースの出力振幅である。シナリオごとに異なることがある別の特徴は、他の１つまたは複数のマイクロホンの利得感度に対するマイクロホンの利得感度である。]
[0113] 以下で説明するように、Ｋチャネルトレーニング信号のセットは、タスクＴ３０においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約１／２または１秒〜約５または１０秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべきサウンドファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、１０、３０、４５、６０、７５、９０、１００、および１２０秒を含む。]
[0114] 近距離シナリオ（たとえば、通信デバイスがユーザの口の近くに保持されるとき）では、遠距離シナリオ（たとえば、デバイスがユーザの口から遠くに保持されるとき）とは異なる振幅と遅延との関係が、マイクロホン出力間に存在することがある。Ｐ個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。以下に示すように、タスクＴ３０は、異なるフィルタをトレーニングするために、近距離および遠距離シナリオからのトレーニング信号を使用するように構成できる。]
[0115] Ｐ個の音響シナリオの各々では、（ＩＴＵ−Ｔ勧告Ｐ．５０、国際電気通信連合、スイス、ジュネーブ、１９９３年３月に記載されているように）ユーザの口の人工スピーチ、および／または（「IEEE Transactions on Audio and Electroacoustics」、第１７巻、２２７〜４６ページ、１９６９年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように）ＨａｒｖａｒｄＳｅｎｔｅｎｃｅの１つまたは複数などの標準化された語彙を発しているボイスから複製することによって、情報信号をＫ個のマイクロホンに供給することができる。１つのそのような例では、スピーチは、８９ｄＢの音圧レベルでＨＡＴＳの口部ラウドスピーカから再生される。Ｐ個のシナリオの少なくとも２つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、Ｐ個のシナリオの少なくとも２つは、（たとえば、異なるマイクロホンに応答した変動に対してロバストである収束ソリューションをサポートするために）参照デバイスの異なる実例を使用することができる。]
[0116] 適用例の１つの特定のセットでは、Ｋ個のマイクロホンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロホンである。図１Ａおよび図１Ｂは、そのようなデバイスの２つの異なる動作構成を示し、図２〜図４Ｂは、これらの構成のための様々な異なる配向状態を示す。２つ以上のそのような配向状態を、Ｐ個のシナリオのうちの異なるシナリオにおいて使用することができる。たとえば、Ｋチャネルトレーニング信号の１つは、これらの２つの配向の一方においてマイクロホンによって生成される信号に基づき、Ｋチャネルトレーニング信号のもう１つは、これらの２つの配向の他方においてマイクロホンによって生成される信号に基づくことが望ましい。] 図１Ａ図１Ｂ図２図３Ａ図３Ｂ図４Ａ図４Ｂ
[0117] （たとえば、各構成について収束フィルタ状態の別々のセットを得るために）デバイスの異なる動作構成の各々に対して方法Ｍ１０の別々の実例を実行することも可能である。そのような場合、装置Ａ２００は、実行時に収束フィルタ状態の様々なセット（すなわち、フィルタバンク１００の異なる実例）の中で選択するように構成できる。たとえば、装置Ａ２００は、デバイスが開いているか閉じているかを指示するスイッチの状態に対応するフィルタ状態のセットを選択するように構成できる。]
[0118] 適用例の別の特定のセットでは、Ｋ個のマイクロホンは、有線またはワイヤレスイヤホンあるいは他のヘッドセットのマイクロホンである。図９は、本明細書で説明する、そのようなヘッドセットの一例６３を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例を参照しながら説明したように情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。図９にヘッドセット取り付け可変性６６によって示すように、Ｐ個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離性能に悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のＫチャネルトレーニング信号の１つは、ヘッドセットが、取り付け角度の予想される範囲の１つの極値またはその近くの角度で耳６５に取り付けられるシナリオに基づき、Ｋチャネルトレーニング信号のもう１つは、ヘッドセットが、取り付け角度の予想される範囲の他の極値またはその近くの角度で耳６５に取り付けられるシナリオに基づくことが望ましい。Ｐ個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する１つまたは複数の配向を含むことができる。] 図９
[0119] 適用例のさらなるセットでは、Ｋ個のマイクロホンは、ハンズフリー車キットに設けられたマイクロホンである。図３９に、ラウドスピーカ８５がマイクロホンアレイ８４に対して直角に配設された、そのような通信デバイス８３の一例を示す。そのようなデバイスのためのＰ個の音響シナリオは、上記でハンドセット適用例を参照しながら説明したように、情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。たとえば、図４０に示すように、２つ以上のＰ個のシナリオは、マイクロホンアレイに対する所望のスピーカの配置において異なることができる。Ｐ個のシナリオの１つまたは複数はまた、ラウドスピーカ８５から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および／または周波数的に異なるシグナチャ（たとえば、実質的に異なるピッチ周波数）を有する音楽および／またはボイスなど、ラウドスピーカ８５から再生される干渉信号を含むことができる。そのような場合、方法Ｍ１０は、所望のスピーチ信号から干渉信号を分離する少なくとも１つのフィルタ状態を生成することが望ましい。Ｐ個のシナリオの１つまたは複数はまた、上述のように拡散または指向性ノイズフィールドなどの干渉を含むことができる。] 図３９図４０
[0120] 適用例のさらなるセットでは、Ｋ個のマイクロホンは、ペン、スタイラス、または他の描画デバイス内に設けられたマイクロホンである。図４１に、先端から到着し、先端と描画面８１との間の接触によって起こるスクラッチノイズ８２に対してマイクロホン８０が縦形構成で配設された、そのようなデバイス７９の一例を示す。そのような通信デバイスのためのＰ個のシナリオは、上記で適用例を参照しながら説明したように情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。追加または代替として、異なるシナリオは、スクラッチノイズ８２の異なる実例（たとえば、時間および／または周波数に関して異なるシグナチャを有する）を誘発するために、異なる表面上でデバイス７９の先端を引くことを含むことができる。上述のようにハンドセットまたはヘッドセット適用例に比較して、そのような適用例では、方法Ｍ１０は、情報ソース（すなわち、ユーザのボイス）ではなく干渉ソース（すなわち、スクラッチノイズ）を分離するフィルタ状態のセットを生成することが望ましい。そのような場合、分離された干渉は、後の処理ステージで所望の信号から除去できる（たとえば、本明細書で説明するようにノイズ基準として適用できる）。] 図４１
[0121] 方法Ｍ１０によって生成される収束フィルタソリューションのセットの空間分離特性（たとえば、様々なビームパターンの形状および配向）は、タスクＴ１０においてトレーニング信号を収集するために使用されるマイクロホンの相対特性に敏感であることがある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのＫ個のマイクロホンの利得を互いに対して較正することが望ましい。また、プロダクション中および／またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロホンの利得を互いに対して較正することが望ましい。]
[0122] 個々のマイクロホン素子が音響的にうまく特徴づけられたとしても、素子を通信デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロホン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロホンアレイを通信デバイスに設置した後に、マイクロホンアレイのそのような較正を実行することが望ましい。]
[0123] マイクロホンのアレイの較正は特殊なノイズフィールド内で実行でき、通信デバイスは、そのノイズフィールド内に特定の方法で配向される。図４２に、両方のマイクロホン（それぞれ全方向または単方向とすることができる）が同じＳＰＬレベルに等しく露出されるように、２点のソースノイズフィールドに置かれた２つのマイクロホンハンドセットの例を示す。プロダクションデバイス（たとえば、ハンドセット）の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、マルチマイクロホンデバイスの較正に限定した目的のために、参照により本明細書に組み込まれる、２００８年６月３０日に出願された、「SYSTEMS, METHODS, ANDAPPARATUS FORCALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第６１／０７７，１４４号に記載されている。参照デバイスのマイクロホンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および／またはマイクロホン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロホンを較正することも望ましい。] 図４２
[0124] プロダクションデバイスのマイクロホンと参照デバイスのマイクロホンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室において実験室手順を使用して参照デバイスを較正すること、および工場の現場で（たとえば、上記で組み込まれる米国特許出願第６１／０７７，１４４号に記載されているように）ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得マッチング手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、マイクロホン較正の技法および／または実装の説明に限定された目的のために、参照により本明細書に組み込まれる、２００８年６月２日に出願された、「SYSTEMAND METHODFOR AUTOMATIC GAIN MATCHING OF A PAIR OFMICROPHONES」と題する米国仮特許出願第６１／０５８，１３２号に記載されている。]
[0125] プロダクションデバイスのマイクロホンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構造は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント（たとえば、ユーザ選択）時に、１つまたは複数のマイクロホン周波数特性および／または感度（たとえば、マイクロホン利得間の比）を一致させるように構成された較正ルーチンを通信デバイス内に含むことが望ましい。そのような手順の例は、上記で組み込まれる米国仮特許出願第６１／０５８，１３２号に記載されている。]
[0126] Ｐ個のシナリオの１つまたは複数は、指向性干渉ソースを与えるために、（たとえば、標準化された語彙を発する人工スピーチおよび／またはボイスによって）通信デバイスの１つまたは複数のラウドスピーカを駆動することを含むことができる。１つまたは複数のそのようなシナリオを含むことは、遠端オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの１つまたは複数のラウドスピーカは、プロダクションデバイスのモデルと同じ、１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図１Ａに示す動作構成では、そのようなシナリオは第１のスピーカＳＰ１０を駆動することを含むことができ、図１Ｂに示す動作構成では、そのようなシナリオは第２のスピーカＳＰ２０を駆動することを含むことができる。シナリオは、たとえば、図３８に示す干渉ソースのアレイによって生成される拡散ノイズフィールドの追加または代替として、そのような干渉ソースを含むことができる。] 図１Ａ図１Ｂ図３８
[0127] 代替または追加として、方法Ｍ１０の実例は、上述のようにエコーキャンセラＥＣ１０のための１つまたは複数の収束フィルタセットを得るために実行できる。エコーキャンセラがフィルタバンク１００の上流にある場合には、トレーニング信号の記録中にエコーキャンセラのトレーニングされたフィルタをフィルタバンク１００に対して使用できる。エコーキャンセラがフィルタバンク１００の下流にある場合には、トレーニング信号の記録中にフィルタバンク１００のトレーニングされたフィルタをエコーキャンセラに対して使用できる。]
[0128] 無響室内に配置されたＨＡＴＳを、タスクＴ１０においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカを所望のスピーチ生成ソースの代わりに使用することができる。そのような場合、（たとえば、可聴周波数の所望の範囲にわたるフィルタ係数行列をより良く調整するために）少なくともある量のバックグラウンドノイズを使用することが望ましい。デバイスの使用より前および／または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロホンから口までの典型的な距離など、通信デバイスのユーザの特徴に基づいて、および／または予想される使用環境に基づいて個人化できる。一連の予め設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。]
[0129] タスクＴ２０は、トレーニング信号のＱ個のサブセットを得るためにトレーニング信号のセットの各々を分類し、Ｑは、タスクＴ３０においてトレーニングすべきフィルタの数に等しい整数である。分類を各トレーニング信号のすべてのＫ個のチャネルに基づいて実行することができ、または分類を各トレーニング信号のＫ個のチャネルのすべてよりも少数のチャネルに限定することができる。ＫがＭよりも大きい場合、たとえば、分類を各トレーニング信号のＭ個のチャネルの同じセット（すなわち、トレーニング信号を記録するために使用されたアレイのＭ個のマイクロホンの特定のセットから開始したチャネルのみ）に限定することが望ましい。]
[0130] 分類基準は先験的知識および／または発見的方法を含むことができる。１つのそのような例では、タスクＴ２０は、トレーニング信号が記録されたシナリオに基づいて、各トレーニング信号を特定のサブセットに割り当てる。タスクＴ２０では、近距離シナリオからのトレーニング信号を、遠距離シナリオからのトレーニング信号とは異なる１つまたは複数のサブセットに分類することが望ましい。別の例では、タスクＴ２０は、トレーニング信号の２つ以上のチャネルの相対エネルギーに基づいてトレーニング信号を特定のサブセットに割り当てる。]
[0131] 代替または追加として、分類基準は、トレーニング信号を空間的に処理するために１つまたは複数の空間分離フィルタを使用することによって得られる結果を含むことができる。そのような１つまたは複数のフィルタは、タスクＴ３０の前の反復によって生成される対応する１つまたは複数の収束フィルタ状態に従って構成できる。代替または追加として、１つまたは複数のそのようなフィルタは、本明細書で説明するようにビームフォーミングまたは結合ＢＳＳ／ビームフォーミング方法に従って構成できる。たとえば、タスクＴ２０では、Ｑ個の空間分離フィルタのどれが信号のスピーチおよびノイズ成分の最良の分離を生成すると考えられるかに基づいて（たとえば、図１４Ａ〜図１４Ｄを参照しながら上記で説明した基準に従って）、各トレーニング信号を分類することが望ましい。] 図１４Ａ図１４Ｂ図１４Ｃ図１４Ｄ
[0132] タスクＴ２０がトレーニング信号のすべてをＱ個のサブセットに分類することができない場合、Ｑの値を増加させることが望ましい。代替的に、分類タスクＴ２０の別の反復を実行する前に、トレーニング信号の新しいセットを得るため、分類基準の１つまたは複数を変更するため、および／または各トレーニング信号のＭ個のチャネルの異なるセットを選択するために、異なるマイクロホン配置について記録タスクＴ１０を繰り返すことが望ましい。タスクＴ２０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。]
[0133] タスクＴ３０は、Ｑ個のトレーニングサブセットの各々を使用して、それぞれのソース分離アルゴリズムに従って対応する適応フィルタ構造をトレーニングする（すなわち、対応する収束フィルタソリューションを計算する）。Ｑ個のフィルタ構造の各々は、フィードフォワードおよび／またはフィードバック係数を含むことができ、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。タスクＴ３０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。]
[0134] 「ソース分離アルゴリズム（source separation algorithms）」という用語は、独立成分分析（ＩＣＡ）、および独立ベクトル分析（ＩＶＡ）などの関連する方法など、ブラインドソース分離アルゴリズムを含む。ブラインドソース分離（ＢＳＳ）アルゴリズムは、ソース信号の混合のみに基づいて、（１つまたは複数の情報ソースおよび１つまたは複数の干渉ソースからの信号を含むことがある）個々のソース信号を分離する方法である。「ブラインド（blind）」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および／または干渉信号の１つまたは複数の統計値に関する仮定を含む。スピーチ適用例では、たとえば、当該のスピーチ信号は、通常、スーパーガウス分布（たとえば、高い尖度）を有すると仮定される。]
[0135] 典型的なソース分離アルゴリズムは、混合信号のセットを処理して、（Ａ）信号とノイズの両方を有する結合チャネルと、（Ｂ）少なくとも１つのノイズ優位チャネルとを含む分離されたチャネルのセットを生成するように構成される。結合チャネルはまた、入力チャネルに比較して増加した信号対雑音比（ＳＮＲ）を有することがある。タスクＴ３０では、得られた出力信号において指向性成分のエネルギーが出力チャネルの１つに集中するように、指向性成分を有する入力信号をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。]
[0136] ＢＳＳアルゴリズムの種類は、多変量ブラインドデコンボリューションアルゴリズムを含む。ソース分離アルゴリズムはまた、たとえば、マイクロホンアレイの軸に対する、ソース信号の１つまたは複数の各々の知られている方向などの他の先験的情報によって制限された、ＩＣＡおよびＩＶＡなど、ＢＳＳアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマ（beamformers）と区別される。]
[0137] 本明細書に示すように、フィルタバンク１００の空間分離フィルタの各々および／または適応フィルタ４５０の各々は、ＢＳＳ、ビームフォーミング、または結合ＢＳＳ／ビームフォーミング方法を使用して構成できる。ＢＳＳ方法は、ＩＣＡ、ＩＶＡ、制約付きＩＣＡ、または制約付きＩＶＡのうちの少なくとも１つの実装形態を含むことができる。独立成分分析は、互いからおそらく独立している混合ソース信号（成分）を分離するための技法である。その簡略形態では、独立成分分析は、混合信号上の重みの「逆混合」行列を演算し、たとえば行列を混合信号で乗算して、分離された信号を生成する。重みは、初期値を割り当てられ、次いで、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ＩＣＡなどの方法は、ノイズソースからのスピーチ信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析（「ＩＶＡ」）は関連する技法であり、ソース信号は、単一の可変ソース信号ではなくベクトルソース信号である。これらの技法は、各信号のソースに関する情報を必要としないので、「ブラインドソース分離」方法として知られる。ブラインドソース分離問題は、複数の独立ソースから来る混合信号を分離するアイデアに関連する。]
[0138] （たとえば、フィルタバンク１００、または適応フィルタ４５０の）Ｑ個の空間分離フィルタの各々は、係数値が、ソース分離アルゴリズムから導出される学習規則を使用してタスクＴ３０によって計算される、対応する適応フィルタ構造に基づく。図４３Ａに、２つのフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０の２チャネル例のブロック図を示し、図４３Ｂに、２つの直接フィルタＤ１１０およびＤ１２０をも含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図を示す。そのような構造をトレーニングするためにタスクＴ３０によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする（たとえば、フィルタの出力チャネルの少なくとも１つによって含まれる情報量を最大にする）ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報（ｉｎｆｏｍａｘとしても知られる）、最大の尤度、および最大非ガウス性（たとえば、最大の尖度）がある。そのような適応構造、およびＩＣＡまたはＩＶＡ適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、２００６年３月９日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第２００６／００５３００２Ａ１号、２００６年３月１日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第６０／７７７，９２０号、２００６年３月１日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第６０／７７７，９００号、および「Systems and Methodsfor Blind Source Signal Separation」と題する国際特許公開第ＷＯ２００７／１００３３０Ａ１号（Kimら）に記載されている。適応フィルタ構造、およびタスクＴ３０においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。] 図４３Ａ図４３Ｂ
[0139] Ｑ個のフィルタの１つまたは複数（場合によってはすべて）は同じ適応構造に基づくことができ、そのような各フィルタは異なる学習規則に従ってトレーニングされる。代替的に、Ｑ個のフィルタのすべては異なる適応フィルタ構造に基づくことができる。図４３Ａに示すフィードバック構造ＦＳ１０をトレーニングするために使用できる学習規則の一例は、次のように表される。] 図４３Ａ
[0140] ここで、ｔは、時間サンプル指数を示し、ｈ１２（ｔ）は、時間ｔにおけるフィルタＣ１１０の係数値を示し、ｈ２１（ｔ）は、時間ｔにおけるフィルタＣ１２０の係数値を示し、記号]
[0141] は、時間領域畳み込み演算を示し、Δｈ１２ｋは、出力値ｙ１（ｔ）およびｙ２（ｔ）の計算に続くフィルタＣ１１０のｋ番目の係数値の変化を示し、Δｈ２１ｋは、出力値ｙ１（ｔ）およびｙ２（ｔ）の計算に続くフィルタＣ１２０のｋ番目の係数値の変化を示す。アクティブ化関数ｆを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。スピーチ適用例のためのアクティブ化信号ｆに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。]
[0142] ＩＣＡおよびＩＶＡ技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第１に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第２に、入力チャネルの数が大きい場合、ＩＶＡ学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第３に、ＩＶＡのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられたスピーチ認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。]
[0143] 線形マイクロホンアレイ処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロホンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロホンの１つは、所望のソース（たとえば、ユーザの口）に直接配向され、他のマイクロホンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、ソースとセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。フィルタバンク１００のフィルタの１つまたは複数は、データ従属またはデータ独立ビームフォーマ設計（たとえば、超指向性ビームフォーマ、最小２乗ビームフォーマ、または統計学的最適ビームフォーマ設計）に従って構成できる。データ独立ビームフォーマ設計の場合、（たとえば、ノイズ相関行列を同調させることによって）所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。]
[0144] 「一般化サイドローブ消去」（ＧＳＣ）と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第４７巻、第１０号、２６７７〜２６８４ページ、１９９９年１０月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望のソース信号をフィルタ除去することを目的とする。ＧＳＣ原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第３０巻、第１号、２７〜３４ページ、１９８２年１月に記載されている。]

权利要求:

請求項1
Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法であって、前記入力信号に第１の空間処理フィルタを適用することと、前記入力信号に第２の空間処理フィルタを適用することと、１回目に、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、前記１回目に前記判断することに応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成することと、前記１回目に続いて２回目に、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、前記２回目に前記判断することに応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成することとを備え、前記第１および第２の空間処理済み信号が前記入力信号に基づく、方法。
請求項2
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項１に記載の方法。
請求項3
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項１に記載の方法。
請求項4
前記第１の空間処理フィルタの複数の前記係数値が、第１の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づき、前記第２の空間処理フィルタの複数の前記係数値が、前記第１の複数のシナリオとは異なる第２の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項１に記載の方法。
請求項5
前記入力信号に前記第１の空間処理フィルタを前記適用することが前記第１の空間処理済み信号を生成し、前記入力信号に前記第２の空間処理フィルタを前記適用することが前記第２の空間処理済み信号を生成する、請求項１に記載の方法。
請求項6
前記出力信号として第１の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第１の空間処理済み信号を生成することを備え、前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第２の空間処理済み信号を生成することを備える、請求項５に記載の方法。
請求項7
前記第１の空間処理フィルタが係数値の第１の行列によって特徴づけられ、前記第２の空間処理フィルタが係数値の第２の行列によって特徴づけられ、前記第２の行列が、前記第１の行列を中央垂直軸に関して反転した結果に少なくとも実質的に等しい、請求項１に記載の方法。
請求項8
前記方法が、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、前記出力信号として第１の空間処理済み信号に基づく信号を前記生成することが、前記第１の遅延間隔の後に開始される、請求項１に記載の方法。
請求項9
前記方法が、前記２回目の直後の第２の遅延間隔にわたって、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、前記第２の遅延間隔の後に実行され、前記第２の遅延間隔が前記第１の遅延間隔より長い、請求項８に記載の方法。
請求項10
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移することを含み、前記遷移することが、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成することを含む、請求項１に記載の方法。
請求項11
前記方法が、前記入力信号に第３の空間処理フィルタを適用することと、２回目に続いて３回目に、第３の空間処理フィルタが第１の空間処理フィルタよりも良好に、かつ、第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記３回目に前記判断することに応答して、出力信号として第３の空間処理済み信号に基づく信号を生成することとを備え、前記第３の空間処理済み信号が前記入力信号に基づく、請求項１に記載の方法。
請求項12
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移することを含み、前記出力信号として第３の空間処理済み信号に基づく信号を前記生成することが、第２のマージ間隔にわたって、前記出力信号を前記第２の空間処理済み信号に基づく前記信号から前記第３の空間処理済み信号に基づく信号に前記遷移することを含み、前記第２のマージ間隔が前記第１のマージ間隔より長い、請求項１１に記載の方法。
請求項13
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、１回目に前記判断することが、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することを含む、請求項１に記載の方法。
請求項14
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、１回目に前記判断することが、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値より小さいことを検出することを含む、請求項１に記載の方法。
請求項15
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、１回目に前記判断することが、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することを含む、請求項１に記載の方法。
請求項16
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、１回目に前記判断することが、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することを含む、請求項１に記載の方法。
請求項17
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、１回目に前記判断することが、前記入力信号の２つのチャネル間の到着時間差を計算することを含む、請求項１に記載の方法。
請求項18
前記方法が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用することを備える、請求項１に記載の方法。
請求項19
Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置であって、前記入力信号に対して第１の空間処理演算を実行するための手段と、前記入力信号に対して第２の空間処理演算を実行するための手段と、１回目に、第１の空間処理演算を実行するための前記手段が第２の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、１回目に判断するための前記手段からの指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成するための手段と、前記１回目に続いて２回目に、第２の空間処理演算を実行するための前記手段が第１の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、２回目に判断するための前記手段からの指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成するための手段と、を備え、前記第１および第２の空間処理済み信号が前記入力信号に基づく、装置。
請求項20
（Ａ）第１の空間処理演算を実行するための前記手段と、（Ｂ）第２の空間処理演算を実行するための前記手段と、の中の少なくとも１つの複数の前記係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項１９に記載の装置。
請求項21
前記入力信号に対して前記第１の空間処理演算を実行するための前記手段が、前記第１の空間処理済み信号を生成するように構成され、前記入力信号に対して前記第２の空間処理演算を実行するための前記手段が、前記第２の空間処理済み信号を生成するように構成され、前記出力信号として第１の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第１の空間処理済み信号を生成するように構成され、前記出力信号として第２の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第２の空間処理済み信号を生成するように構成された、請求項１９に記載の装置。
請求項22
前記装置が、前記１回目の直後の第１の遅延間隔にわたって、第１の空間処理演算を実行するための前記手段が第２の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するための手段を備え、前記出力信号として第１の空間処理済み信号に基づく前記信号を生成するための前記手段が、前記第１の遅延間隔の後に前記信号を生成し始めるように構成された、請求項１９に記載の装置。
請求項23
前記出力信号として第２の空間処理済み信号に基づく信号を生成するための前記手段が、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移するための手段を含み、遷移するための前記手段が、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成するように構成された、請求項１９に記載の装置。
請求項24
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、前記１回目に判断するための手段が、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出するための手段を含む、請求項１９に記載の装置。
請求項25
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、前記入力信号に対して前記第２の空間処理演算を実行するための手段が第２のフィルタ処理済み信号を生成し、１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出するための手段を含む、請求項１９に記載の装置。
請求項26
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出するための手段を含む、請求項１９に記載の装置。
請求項27
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出するための手段を含む、請求項１９に記載の装置。
請求項28
前記装置が、前記入力信号が基づくＭチャネル信号を生成するように構成されたマイクロホンアレイを備える、請求項１９に記載の装置。
請求項29
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用するための手段を備える、請求項１９に記載の装置。
請求項30
Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置であって、前記入力信号をフィルタ処理するように構成された第１の空間処理フィルタと、前記入力信号をフィルタ処理するように構成された第２の空間処理フィルタと、１回目に、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器と、１回目の前記指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールとを備え、前記状態推定器が、前記１回目に続いて２回目に、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成され、前記遷移制御モジュールが２回目の前記指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成するように構成され、前記第１および第２の空間処理済み信号が前記入力信号に基づく、装置。
請求項31
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項３０に記載の装置。
請求項32
前記第１の空間処理フィルタが前記入力信号に応答して前記第１の空間処理済み信号を生成するように構成され、前記第２の空間処理フィルタが前記入力信号に応答して前記第２の空間処理済み信号を生成するように構成され、前記遷移制御モジュールが、前記出力信号として第１の空間処理済み信号を生成することによって、前記出力信号として前記第１の空間処理済み信号に基づく信号を生成するように構成され、前記遷移制御モジュールが、前記出力信号として第２の空間処理済み信号を前記生成することによって、前記出力信号として前記第２の空間処理済み信号に基づく信号を生成するように構成された、請求項３０に記載の装置。
請求項33
前記状態推定器が、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するように構成され、前記遷移制御モジュールが、前記第１の遅延間隔中に前記出力信号として前記第２の空間処理済み信号に基づく信号を生成するように構成され、前記遷移制御モジュールが、前記第１の遅延間隔の後に前記出力信号として前記第１の空間処理済み信号に基づく前記信号を生成するように構成された、請求項３０に記載の装置。
請求項34
前記遷移制御モジュールが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から第２の空間処理済み信号に基づく信号に遷移することによって、前記出力信号として前記第２の空間処理済み信号に基づく前記信号を生成するように構成され、前記第１のマージ間隔中に、前記状態遷移モジュールが前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成するように構成された、請求項３０に記載の装置。
請求項35
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記１回目に、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項３０に記載の装置。
請求項36
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項３０に記載の装置。
請求項37
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項３０に記載の装置。
請求項38
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項３０に記載の装置。
請求項39
前記装置が、前記入力信号が基づくＭチャネル信号を生成するように構成されたマイクロホンアレイを備える、請求項３０に記載の装置
請求項40
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用するように構成されたノイズ低減フィルタを備える、請求項３０に記載の装置。
請求項41
プロセッサによって実行されると、前記プロセッサに、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、Ｍが１よりも大きい整数であり、前記命令が、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させ、前記入力信号に対して第２の空間処理演算を実行させ、１回目に、前記第１の空間処理演算が前記第２の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、１回目の前記指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成させ、前記１回目に続いて２回目に、前記第２の空間処理演算が前記第１の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、２回目の前記指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成させ、前記第１および第２の空間処理済み信号が前記入力信号に基づく、コンピュータ可読媒体。
請求項42
前記第１および第２の空間処理演算のうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束したフィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項４１に記載のコンピュータ可読媒体。
請求項43
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第１の空間処理演算を実行させる前記命令が、前記プロセッサに前記第１の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第２の空間処理演算を実行させる前記命令が、前記プロセッサに前記第２の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに前記出力信号として第１の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第１の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに前記出力信号として第２の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第２の空間処理済み信号を生成させる、請求項４１に記載のコンピュータ可読媒体。
請求項44
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理演算が前記第２の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断させる命令を備え、プロセッサによって実行されると、前記プロセッサに前記出力信号として第１の空間処理済み信号に基づく前記信号を生成させる前記命令が、前記プロセッサに前記第１の遅延間隔の後に前記信号を生成し始めさせる、請求項４１に記載のコンピュータ可読媒体。
請求項45
プロセッサによって実行されると、前記プロセッサに前記出力信号として第２の空間処理済み信号に基づく信号を生成させる前記命令が、プロセッサによって実行されると、前記プロセッサに第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移させる命令を含み、プロセッサによって実行されると、前記プロセッサに遷移させる前記命令が、プロセッサによって実行されると、前記プロセッサに、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成させる命令を含む、請求項４１に記載のコンピュータ可読媒体。
請求項46
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出させる命令を含む、請求項４１に記載のコンピュータ可読媒体。
請求項47
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出させる命令を含む、請求項４１に記載のコンピュータ可読媒体。
請求項48
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出させる命令を含む、請求項４１に記載のコンピュータ可読媒体。
請求項49
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出させる命令を含む、請求項４１に記載のコンピュータ可読媒体。
請求項50
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用させる命令を備える、請求項４１に記載のコンピュータ可読媒体。

类似技术:
公开号 | 公开日 | 专利标题
US9697826B2|2017-07-04|Processing multi-channel audio waveforms
US9672821B2|2017-06-06|Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US10032461B2|2018-07-24|Method and apparatus for generating a speech signal
US10446167B2|2019-10-15|User-specific noise suppression for voice quality improvements
US9711135B2|2017-07-18|Electronic devices and methods for compensating for environmental noise in text-to-speech applications
Gannot et al.2017|A consolidated perspective on multimicrophone speech enhancement and source separation
JP6009619B2|2016-10-19|System, method, apparatus, and computer readable medium for spatially selected speech enhancement
EP2974367B1|2018-07-04|Apparatus and method for beamforming to obtain voice and noise signals
JP6400566B2|2018-10-03|ユーザインターフェースを表示するためのシステムおよび方法
US9525938B2|2016-12-20|User voice location estimation for adjusting portable device beamforming settings
Sainath et al.2015|Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveforms
Wölfel et al.2009|Distant speech recognition
US9031256B2|2015-05-12|Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
Kumatani et al.2012|Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors
Cauchi et al.2015|Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech
EP2353159B1|2013-03-27|Audio source proximity estimation using sensor array for noise reduction
JP5596048B2|2014-09-24|System, method, apparatus and computer program product for enhanced active noise cancellation
CN204857179U|2015-12-09|语音活动检测器
KR100499124B1|2005-07-04|직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
US10482899B2|2019-11-19|Coordination of beamformers for noise estimation and noise suppression
CN102625946B|2013-08-14|用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN102077274B|2013-08-21|多麦克风语音活动检测器
Seltzer2003|Microphone array processing for robust speech recognition
CN103180900B|2015-08-12|用于话音活动检测的系统、方法和设备
US8340309B2|2012-12-25|Noise suppressing multi-microphone headset

同族专利:
公开号 | 公开日
KR20100105700A|2010-09-29|
CN101903948A|2010-12-01|
CN101903948B|2013-11-06|
TW200939210A|2009-09-16|
JP5479364B2|2014-04-23|
KR101172180B1|2012-08-07|
US8175291B2|2012-05-08|
US20090164212A1|2009-06-25|
EP2229678A1|2010-09-22|
WO2009086017A1|2009-07-09|

引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
WO2006012578A2|2004-07-22|2006-02-02|Softmax, Inc.|Separation of target acoustic signals in a multi-transducer arrangement|
US20070244698A1|2006-04-18|2007-10-18|Dugger Jeffery D|Response-select null steering circuit|
JP2007295085A|2006-04-21|2007-11-08|Kobe Steel Ltd|音源分離装置及び音源分離方法|JP2013078118A|2011-09-15|2013-04-25|Jvc Kenwood Corp|ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法|
JP2013543987A|2010-10-22|2013-12-09|クゥアルコム・インコーポレイテッドＱｕａｌｃｏｍｍＩｎｃｏｒｐｏｒａｔｅｄ|遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体|
JP2013545136A|2010-10-25|2013-12-19|クゥアルコム・インコーポレイテッドＱｕａｌｃｏｍｍＩｎｃｏｒｐｏｒａｔｅｄ|音声アクティビティ検出のための、システム、方法、および装置|
JP2015213328A|2010-10-25|2015-11-26|クゥアルコム・インコーポレイテッドＱｕａｌｃｏｍｍＩｎｃｏｒｐｏｒａｔｅｄ|マルチマイクロフォンを用いた３次元サウンド獲得及び再生|US4649505A|1984-07-02|1987-03-10|General Electric Company|Two-input crosstalk-resistant adaptive noise canceller|
US4912767A|1988-03-14|1990-03-27|International Business Machines Corporation|Distributed noise cancellation system|
US5327178A|1991-06-17|1994-07-05|Mcmanigal Scott P|Stereo speakers mounted on head|
US5208786A|1991-08-28|1993-05-04|Massachusetts Institute Of Technology|Multi-channel signal separation|
JPH05316587A|1992-05-08|1993-11-26|Sony Corp|マイクロホン装置|
US5251263A|1992-05-22|1993-10-05|Andrea Electronics Corporation|Adaptive noise cancellation and speech enhancement system and apparatus therefor|
US5732143A|1992-10-29|1998-03-24|Andrea Electronics Corp.|Noise cancellation apparatus|
US5383164A|1993-06-10|1995-01-17|The Salk Institute For Biological Studies|Adaptive system for broadband multisignal discrimination in a channel with reverberation|
US5375174A|1993-07-28|1994-12-20|Noise Cancellation Technologies, Inc.|Remote siren headset|
JP3146804B2|1993-11-05|2001-03-19|松下電器産業株式会社|アレイマイクロホンおよびその感度補正装置|
US5706402A|1994-11-29|1998-01-06|The Salk Institute For Biological Studies|Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy|
US6002776A|1995-09-18|1999-12-14|Interval Research Corporation|Directional acoustic signal processor and method therefor|
US5770841A|1995-09-29|1998-06-23|United Parcel Service Of America, Inc.|System and method for reading package information|
US5675659A|1995-12-12|1997-10-07|Motorola|Methods and apparatus for blind separation of delayed and filtered sources|
US6130949A|1996-09-18|2000-10-10|Nippon Telegraph And Telephone Corporation|Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor|
US6108415A|1996-10-17|2000-08-22|Andrea Electronics Corporation|Noise cancelling acoustical improvement to a communications device|
US5999567A|1996-10-31|1999-12-07|Motorola, Inc.|Method for recovering a source signal from a composite signal and apparatus therefor|
US7072476B2|1997-02-18|2006-07-04|Matech, Inc.|Audio headset|
FR2759824A1|1997-02-18|1998-08-21|Philips Electronics Nv|Systeme de separation de sources non stationnaires|
US6496581B1|1997-09-11|2002-12-17|Digisonix, Inc.|Coupled acoustic echo cancellation system|
US6898612B1|1998-11-12|2005-05-24|Sarnoff Corporation|Method and system for on-line blind source separation|
US6167417A|1998-04-08|2000-12-26|Sarnoff Corporation|Convolutive blind source separation using a multiple decorrelation method|
DE19822021C2|1998-05-15|2000-12-14|Siemens Audiologische Technik|Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich|
US6654468B1|1998-08-25|2003-11-25|Knowles Electronics, Llc|Apparatus and method for matching the response of microphones in magnitude and phase|
DE19849739C2|1998-10-28|2001-05-31|Siemens Audiologische Technik|Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät|
US6606506B1|1998-11-19|2003-08-12|Albert C. Jones|Personal entertainment and communication device|
US6343268B1|1998-12-01|2002-01-29|Siemens Corporation Research, Inc.|Estimator of independent sources from degenerate mixtures|
DE19859174C1|1998-12-21|2000-05-04|Max Planck Gesellschaft|Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale|
US6381570B2|1999-02-12|2002-04-30|Telogy Networks, Inc.|Adaptive two-threshold method for discriminating noise from speech in a communication signal|
WO2000057671A2|1999-03-19|2000-09-28|Siemens Aktiengesellschaft|Verfahren und einrichtung zum aufnehmen und bearbeiten von audiosignalen in einer störschallerfüllten umgebung|
US6526148B1|1999-05-18|2003-02-25|Siemens Corporate Research, Inc.|Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals|
US6424960B1|1999-10-14|2002-07-23|The Salk Institute For Biological Studies|Unsupervised adaptation and classification of multiple classes and sources in blind signal separation|
US6594367B1|1999-10-25|2003-07-15|Andrea Electronics Corporation|Super directional beamforming design and implementation|
US6549630B1|2000-02-04|2003-04-15|Plantronics, Inc.|Signal expander with discrimination between close and distant acoustic source|
DE10195933T1|2000-03-14|2003-04-30|Audia Technology Inc|Adaptiver Mikrophonabgleich in einem Richtsystem mit mehreren Mikrophonen|
US20010038699A1|2000-03-20|2001-11-08|Audia Technology, Inc.|Automatic directional processing control for multi-microphone system|
US8903737B2|2000-04-25|2014-12-02|Accenture Global Service Limited|Method and system for a wireless universal mobile product interface|
US6879952B2|2000-04-26|2005-04-12|Microsoft Corporation|Sound source separation using convolutional mixing and a priori sound source knowledge|
US7027607B2|2000-09-22|2006-04-11|Gn Resound A/S|Hearing aid with adaptive microphone matching|
US7471798B2|2000-09-29|2008-12-30|Knowles Electronics, Llc|Microphone array having a second order directional pattern|
EP1356706A2|2000-09-29|2003-10-29|Knowles Electronics, LLC|Second order microphone array|
JP4028680B2|2000-11-01|2007-12-26|インターナショナル・ビジネス・マシーンズ・コーポレーションＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｓｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎ|観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体|
US6462664B1|2000-11-20|2002-10-08|Koninklijke Philips Electronics N.V.|Baby monitor, system, and method and control of remote devices|
US7206418B2|2001-02-12|2007-04-17|Fortemedia, Inc.|Noise suppression for a wireless communication device|
EP1380186B1|2001-02-14|2015-08-26|Gentex Corporation|Vehicle accessory microphone|
CA2396832C|2001-05-23|2008-12-16|Phonak Ag|Method of generating an electrical output signal and acoustical/electrical conversion system|
US7123727B2|2001-07-18|2006-10-17|Agere Systems Inc.|Adaptive close-talking differential microphone array|
US8098844B2|2002-02-05|2012-01-17|Mh Acoustics, Llc|Dual-microphone spatial noise suppression|
US20030179888A1|2002-03-05|2003-09-25|Burnett Gregory C.|Voice activity detection devices and methods for use with noise suppression systems|
WO2003107591A1|2002-06-14|2003-12-24|Nokia Corporation|Enhanced error concealment for spatial audio|
EP1540986A1|2002-09-13|2005-06-15|Philips Electronics N.V.|Calibrating a first and a second microphone|
US7383178B2|2002-12-11|2008-06-03|Softmax, Inc.|System and method for speech processing using independent component analysis under stability constraints|
US7142682B2|2002-12-20|2006-11-28|Sonion Mems A/S|Silicon-based transducer for use in hearing instruments and listening devices|
KR100480789B1|2003-01-17|2005-04-06|삼성전자주식회사|피드백 구조를 이용한 적응적 빔 형성방법 및 장치|
EP1453348A1|2003-02-25|2004-09-01|AKG Acoustics GmbH|Selbstkalibrierung von Arraymikrofonen|
DE10310579B4|2003-03-11|2005-06-16|Siemens Audiologische Technik Gmbh|Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen|
KR100486736B1|2003-03-31|2005-05-03|삼성전자주식회사|두개의 센서를 이용한 목적원별 신호 분리방법 및 장치|
US7203323B2|2003-07-25|2007-04-10|Microsoft Corporation|System and process for calibrating a microphone array|
US7424119B2|2003-08-29|2008-09-09|Audio-Technica, U.S., Inc.|Voice matching system for audio transducers|
US7515721B2|2004-02-09|2009-04-07|Microsoft Corporation|Self-descriptive microphone array|
KR100600313B1|2004-02-26|2006-07-14|남승현|다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치|
US7415117B2|2004-03-02|2008-08-19|Microsoft Corporation|System and method for beamforming using a microphone array|
US7688985B2|2004-04-30|2010-03-30|Phonak Ag|Automatic microphone matching|
CN101027571B|2004-09-23|2011-05-04|美商内数位科技公司|使用展频码的盲信号分离|
EP1640971B1|2004-09-23|2008-08-20|Harman Becker Automotive Systems GmbH|Multi-channel adaptive speech signal processing with noise reduction|
US7190308B2|2004-09-23|2007-03-13|Interdigital Technology Corporation|Blind signal separation using signal path selection|
US7826624B2|2004-10-15|2010-11-02|Lifesize Communications, Inc.|Speakerphone self calibration and beam forming|
US7464029B2|2005-07-22|2008-12-09|Qualcomm Incorporated|Robust separation of speech signals in a noisy environment|
JP4701931B2|2005-09-02|2011-06-15|日本電気株式会社|信号処理の方法及び装置並びにコンピュータプログラム|
DE102005047047A1|2005-09-30|2007-04-12|Friedrich-Alexander-Universität Erlangen-Nürnberg|Mikrofonkalibrierung bei einem RGSC-Beamformer|
US7813923B2|2005-10-14|2010-10-12|Microsoft Corporation|Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset|
JP2007156300A|2005-12-08|2007-06-21|Kobe Steel Ltd|音源分離装置、音源分離プログラム及び音源分離方法|
JP4863713B2|2005-12-29|2012-01-25|富士通株式会社|雑音抑制装置、雑音抑制方法、及びコンピュータプログラム|
CN1809105B|2006-01-13|2010-05-12|北京中星微电子有限公司|适用于小型移动通信设备的双麦克语音增强方法及系统|
JP2009529699A|2006-03-01|2009-08-20|ソフトマックス，インコーポレイテッド|分離信号を生成するシステムおよび方法|
US8874439B2|2006-03-01|2014-10-28|The Regents Of The University Of California|Systems and methods for blind source signal separation|
US20080175407A1|2007-01-23|2008-07-24|Fortemedia, Inc.|System and method for calibrating phase and gain mismatches of an array microphone|US8019091B2|2000-07-19|2011-09-13|Aliphcom, Inc.|Voice activity detector-based multiple-microphone acoustic noise suppression|
US8280072B2|2003-03-27|2012-10-02|Aliphcom, Inc.|Microphone array with rear venting|
US9099094B2|2003-03-27|2015-08-04|Aliphcom|Microphone array with rear venting|
US9066186B2|2003-01-30|2015-06-23|Aliphcom|Light-based detection for acoustic applications|
US7099821B2|2003-09-12|2006-08-29|Softmax, Inc.|Separation of target acoustic signals in a multi-transducer arrangement|
US8543390B2|2004-10-26|2013-09-24|Qnx Software Systems Limited|Multi-channel periodic signal enhancement system|
US9185487B2|2006-01-30|2015-11-10|Audience, Inc.|System and method for providing noise suppression utilizing null processing noise subtraction|
US8949120B1|2006-05-25|2015-02-03|Audience, Inc.|Adaptive noise cancelation|
JP2009529699A|2006-03-01|2009-08-20|ソフトマックス，インコーポレイテッド|分離信号を生成するシステムおよび方法|
US8160273B2|2007-02-26|2012-04-17|Erik Visser|Systems, methods, and apparatus for signal separation using data driven techniques|
US20080208538A1|2007-02-26|2008-08-28|Qualcomm Incorporated|Systems, methods, and apparatus for signal separation|
US8068620B2|2007-03-01|2011-11-29|Canon Kabushiki Kaisha|Audio processing apparatus|
CN203242334U|2010-05-03|2013-10-16|艾利佛卡姆公司|用于电子系统的风抑制/替换部件|
WO2009027980A1|2007-08-28|2009-03-05|Yissum Research Development Company Of The Hebrew University Of Jerusalem|Method, device and system for speech recognition|
JP5642339B2|2008-03-11|2014-12-17|トヨタ自動車株式会社|Signal separation device and signal separation method|
US8321214B2|2008-06-02|2012-11-27|Qualcomm Incorporated|Systems, methods, and apparatus for multichannel signal amplitude balancing|
WO2009151578A2|2008-06-09|2009-12-17|The Board Of Trustees Of The University Of Illinois|Method and apparatus for blind signal recovery in noisy, reverberant environments|
US20100057472A1|2008-08-26|2010-03-04|Hanks Zeng|Method and system for frequency compensation in an audio codec|
JP5071346B2|2008-10-24|2012-11-14|ヤマハ株式会社|雑音抑圧装置及び雑音抑圧方法|
KR101178801B1|2008-12-09|2012-08-31|한국전자통신연구원|음원분리 및 음원식별을 이용한 음성인식 장치 및 방법|
US8781818B2|2008-12-23|2014-07-15|Koninklijke Philips N.V.|Speech capturing and speech rendering|
WO2010092913A1|2009-02-13|2010-08-19|日本電気株式会社|多チャンネル音響信号処理方法、そのシステム及びプログラム|
US9064499B2|2009-02-13|2015-06-23|Nec Corporation|Method for processing multichannel acoustic signal, system therefor, and program|
FR2945169B1|2009-04-29|2011-06-03|Commissariat Energie Atomique|METHOD OF IDENTIFYING OFDM SIGNAL|
JP5293817B2|2009-06-19|2013-09-18|富士通株式会社|音声信号処理装置及び音声信号処理方法|
FR2948484B1|2009-07-23|2011-07-29|Parrot|Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile|
KR101587844B1|2009-08-26|2016-01-22|삼성전자주식회사|마이크로폰의 신호 보상 장치 및 그 방법|
US20110058676A1|2009-09-07|2011-03-10|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal|
US20110125497A1|2009-11-20|2011-05-26|Takahiro Unno|Method and System for Voice Activity Detection|
CN102696239B|2009-11-24|2020-08-25|诺基亚技术有限公司|一种设备|
EP2508010B1|2009-11-30|2020-08-26|Nokia Technologies Oy|An apparatus for processing audio signals in dependence of motion and orientation of the apparatus|
US9838784B2|2009-12-02|2017-12-05|Knowles Electronics, Llc|Directional audio capture|
US8718290B2|2010-01-26|2014-05-06|Audience, Inc.|Adaptive noise reduction using level cues|
JP5489778B2|2010-02-25|2014-05-14|キヤノン株式会社|情報処理装置およびその処理方法|
US9091851B2|2010-02-28|2015-07-28|Microsoft Technology Licensing, Llc|Light control in head mounted displays|
US20120249797A1|2010-02-28|2012-10-04|Osterhout Group, Inc.|Head-worn adaptive display|
US9097890B2|2010-02-28|2015-08-04|Microsoft Technology Licensing, Llc|Grating in a light transmissive illumination system for see-through near-eye display glasses|
US9129295B2|2010-02-28|2015-09-08|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear|
US9134534B2|2010-02-28|2015-09-15|Microsoft Technology Licensing, Llc|See-through near-eye display glasses including a modular image source|
US9759917B2|2010-02-28|2017-09-12|Microsoft Technology Licensing, Llc|AR glasses with event and sensor triggered AR eyepiece interface to external devices|
US9223134B2|2010-02-28|2015-12-29|Microsoft Technology Licensing, Llc|Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses|
AU2011220382A1|2010-02-28|2012-10-18|Microsoft Corporation|Local advertising content on an interactive head-mounted eyepiece|
US9229227B2|2010-02-28|2016-01-05|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a light transmissive wedge shaped illumination system|
US9097891B2|2010-02-28|2015-08-04|Microsoft Technology Licensing, Llc|See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment|
US9128281B2|2010-09-14|2015-09-08|Microsoft Technology Licensing, Llc|Eyepiece with uniformly illuminated reflective display|
US9366862B2|2010-02-28|2016-06-14|Microsoft Technology Licensing, Llc|System and method for delivering content to a group of see-through near eye display eyepieces|
US9182596B2|2010-02-28|2015-11-10|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light|
US10180572B2|2010-02-28|2019-01-15|Microsoft Technology Licensing, Llc|AR glasses with event and user action control of external applications|
US9285589B2|2010-02-28|2016-03-15|Microsoft Technology Licensing, Llc|AR glasses with event and sensor triggered control of AR eyepiece applications|
US9341843B2|2010-02-28|2016-05-17|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a small scale image source|
US8473287B2|2010-04-19|2013-06-25|Audience, Inc.|Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system|
US8958572B1|2010-04-19|2015-02-17|Audience, Inc.|Adaptive noise cancellation for multi-microphone systems|
US8798290B1|2010-04-21|2014-08-05|Audience, Inc.|Systems and methods for adaptive signal equalization|
JP5575977B2|2010-04-22|2014-08-20|クゥアルコム・インコーポレイテッドＱｕａｌｃｏｍｍＩｎｃｏｒｐｏｒａｔｅｄ|ボイスアクティビティ検出|
US8781137B1|2010-04-27|2014-07-15|Audience, Inc.|Wind noise detection and suppression|
US9378754B1|2010-04-28|2016-06-28|Knowles Electronics, Llc|Adaptive spatial classifier for multi-microphone systems|
US8538035B2|2010-04-29|2013-09-17|Audience, Inc.|Multi-microphone robust noise suppression|
US9558755B1|2010-05-20|2017-01-31|Knowles Electronics, Llc|Noise suppression assisted automatic speech recognition|
US9053697B2|2010-06-01|2015-06-09|Qualcomm Incorporated|Systems, methods, devices, apparatus, and computer program products for audio equalization|
US8447596B2|2010-07-12|2013-05-21|Audience, Inc.|Monaural noise suppression based on computational auditory scene analysis|
JP5732937B2|2010-09-08|2015-06-10|ヤマハ株式会社|サウンドマスキング装置|
US8855341B2|2010-10-25|2014-10-07|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals|
US9031256B2|2010-10-25|2015-05-12|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control|
US20120128168A1|2010-11-18|2012-05-24|Texas Instruments Incorporated|Method and apparatus for noise and echo cancellation for two microphone system subject to cross-talk|
TWI412023B|2010-12-14|2013-10-11|Univ Nat Chiao Tung|可消除噪音且增進語音品質之麥克風陣列架構及其方法|
EP2661905B1|2011-01-05|2020-08-12|Koninklijke Philips N.V.|An audio system and method of operation therefor|
US8989402B2|2011-01-19|2015-03-24|Broadcom Corporation|Use of sensors for noise suppression in a mobile communication device|
US9173025B2|2012-02-08|2015-10-27|Dolby Laboratories Licensing Corporation|Combined suppression of noise, echo, and out-of-location signals|
US8712076B2|2012-02-08|2014-04-29|Dolby Laboratories Licensing Corporation|Post-processing including median filtering of noise suppression gains|
WO2012107561A1|2011-02-10|2012-08-16|Dolby International Ab|Spatial adaptation in multi-microphone sound capture|
US8929564B2|2011-03-03|2015-01-06|Microsoft Corporation|Noise adaptive beamforming for microphone arrays|
US8942382B2|2011-03-22|2015-01-27|Mh Acoustics Llc|Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling|
FR2976111B1|2011-06-01|2013-07-05|Parrot|Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"|
US9666206B2|2011-08-24|2017-05-30|Texas Instruments Incorporated|Method, system and computer program product for attenuating noise in multiple time frames|
US20130054233A1|2011-08-24|2013-02-28|Texas Instruments Incorporated|Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels|
TWI459381B|2011-09-14|2014-11-01|Ind Tech Res Inst|語音增強方法|
US9966088B2|2011-09-23|2018-05-08|Adobe Systems Incorporated|Online source separation|
US8712769B2|2011-12-19|2014-04-29|Continental Automotive Systems, Inc.|Apparatus and method for noise removal by spectral smoothing|
WO2013093569A1|2011-12-23|2013-06-27|Nokia Corporation|Audio processing for mono signals|
DE102012200745B4|2012-01-19|2014-05-28|Siemens Medical Instruments Pte. Ltd.|Verfahren und Hörvorrichtung zum Schätzen eines Bestandteils der eigenen Stimme|
CN104488025A|2012-03-16|2015-04-01|纽昂斯通讯公司|用户专用的自动语音识别|
CN102646418B|2012-03-29|2014-07-23|北京华夏电通科技股份有限公司|一种远程音频交互的多路声学回音消除方法及系统|
US9282405B2|2012-04-24|2016-03-08|Polycom, Inc.|Automatic microphone muting of undesired noises by microphone arrays|
IN2014MN02221A|2012-05-07|2015-07-17|Adaptive Spectrum & Signal||
US9161149B2|2012-05-24|2015-10-13|Qualcomm Incorporated|Three-dimensional sound compression and over-the-air transmission during a call|
US9881616B2|2012-06-06|2018-01-30|Qualcomm Incorporated|Method and systems having improved speech recognition|
US9640194B1|2012-10-04|2017-05-02|Knowles Electronics, Llc|Noise suppression for speech processing based on machine-learning mask estimation|
CN102969000B|2012-12-04|2014-10-22|中国科学院自动化研究所|一种多通道语音增强方法|
US9833189B2|2012-12-17|2017-12-05|Koninklijke Philips N.V.|Sleep apnea diagnosis system and method of generating information using non-obtrusive audio analysis|
US20140184796A1|2012-12-27|2014-07-03|Motorola Solutions, Inc.|Method and apparatus for remotely controlling a microphone|
US9692379B2|2012-12-31|2017-06-27|Spreadtrum CommunicationsCo., Ltd.|Adaptive audio capturing|
CN104010265A|2013-02-22|2014-08-27|杜比实验室特许公司|音频空间渲染设备及方法|
US20140278380A1|2013-03-14|2014-09-18|Dolby Laboratories Licensing Corporation|Spectral and Spatial Modification of Noise Captured During Teleconferencing|
US9467777B2|2013-03-15|2016-10-11|Cirrus Logic, Inc.|Interface for a digital microphone array|
CN105230044A|2013-03-20|2016-01-06|诺基亚技术有限公司|空间音频装置|
KR102094392B1|2013-04-02|2020-03-27|삼성전자주식회사|복수의 마이크로폰들을 구비하는 사용자 기기 및 그 동작 방법|
US9357080B2|2013-06-04|2016-05-31|Broadcom Corporation|Spatial quiescence protection for multi-channel acoustic echo cancellation|
JP2015052466A|2013-09-05|2015-03-19|株式会社デンソー|車両用装置及び音声切換制御プログラム|
CN104424953B|2013-09-11|2019-11-01|华为技术有限公司|语音信号处理方法与装置|
WO2015047308A1|2013-09-27|2015-04-02|Nuance Communications, Inc.|Methods and apparatus for robust speaker activity detection|
US9392353B2|2013-10-18|2016-07-12|Plantronics, Inc.|Headset interview mode|
US10536773B2|2013-10-30|2020-01-14|Cerence Operating Company|Methods and apparatus for selective microphone signal combining|
ITTO20130901A1|2013-11-05|2015-05-06|St Microelectronics Srl|Interfaccia di espansione dell'intervallo dinamico di un segnale di ingresso, in particolare di un segnale audio di un trasduttore acustico a due strutture di rilevamento, e relativo metodo|
GB2520029A|2013-11-06|2015-05-13|Nokia Technologies Oy|Detection of a microphone|
JP6432597B2|2014-03-17|2018-12-05|日本電気株式会社|信号処理装置、信号処理方法、および信号処理プログラム|
WO2015139769A1|2014-03-21|2015-09-24|Huawei Technologies Co., Ltd.|Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program|
CN105096961B|2014-05-06|2019-02-01|华为技术有限公司|语音分离方法和装置|
US10149047B2|2014-06-18|2018-12-04|Cirrus Logic Inc.|Multi-aural MMSE analysis techniques for clarifying audio signals|
US20150381333A1|2014-06-26|2015-12-31|Harris Corporation|Novel approach for enabling mixed mode behavior using microphone placement on radio terminal hardware|
US10062374B2|2014-07-18|2018-08-28|Nuance Communications, Inc.|Methods and apparatus for training a transformation component|
WO2016016387A1|2014-07-31|2016-02-04|Koninklijke Kpn N.V.|Noise suppression system and method|
CN104134440B|2014-07-31|2018-05-08|百度在线网络技术（北京）有限公司|用于便携式终端的语音检测方法和语音检测装置|
CN106797512B|2014-08-28|2019-10-25|美商楼氏电子有限公司|多源噪声抑制的方法、系统和非瞬时计算机可读存储介质|
US9978388B2|2014-09-12|2018-05-22|Knowles Electronics, Llc|Systems and methods for restoration of speech components|
DE112016000287T5|2015-01-07|2017-10-05|Knowles Electronics, Llc|Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung|
DE112016000545B4|2015-01-30|2019-08-22|Knowles Electronics, Llc|Kontextabhängiges schalten von mikrofonen|
CN104952459B|2015-04-29|2018-05-15|大连理工大学|一种基于分布式一致性和mvdr波束形成的分布式语音增强方法|
US9565493B2|2015-04-30|2017-02-07|Shure Acquisition Holdings, Inc.|Array microphone system and method of assembling the same|
US9736578B2|2015-06-07|2017-08-15|Apple Inc.|Microphone-based orientation sensors and related techniques|
US9558731B2|2015-06-15|2017-01-31|Blackberry Limited|Headphones using multiplexed microphone signals to enable active noise cancellation|
US9734845B1|2015-06-26|2017-08-15|Amazon Technologies, Inc.|Mitigating effects of electronic audio sources in expression detection|
WO2017007848A1|2015-07-06|2017-01-12|Dolby Laboratories Licensing Corporation|Estimation of reverberant energy component from active audio source|
US10389393B2|2015-08-31|2019-08-20|Sony Corporation|Reception device, receiving method, and program|
US9875081B2|2015-09-21|2018-01-23|Amazon Technologies, Inc.|Device selection for providing a response|
US10186276B2|2015-09-25|2019-01-22|Qualcomm Incorporated|Adaptive noise suppression for super wideband music|
CN105529034A|2015-12-23|2016-04-27|北京奇虎科技有限公司|一种基于混响的语音识别方法和装置|
CN105825865B|2016-03-10|2019-09-27|福州瑞芯微电子股份有限公司|噪声环境下的回声消除方法及系统|
US10249305B2|2016-05-19|2019-04-02|Microsoft Technology Licensing, Llc|Permutation invariant training for talker-independent multi-talker speech separation|
CN107564512A|2016-06-30|2018-01-09|展讯通信（上海）有限公司|语音活动侦测方法及装置|
US10045110B2|2016-07-06|2018-08-07|Bragi GmbH|Selective sound field environment processing system and method|
CN106328156B|2016-08-22|2020-02-18|华南理工大学|一种音视频信息融合的麦克风阵列语音增强系统及方法|
CN106548783A|2016-12-09|2017-03-29|西安Tcl软件开发有限公司|语音增强方法、装置及智能音箱、智能电视|
US10367948B2|2017-01-13|2019-07-30|Shure Acquisition Holdings, Inc.|Post-mixing acoustic echo cancellation systems and methods|
US10554822B1|2017-02-28|2020-02-04|SoliCall Ltd.|Noise removal in call centers|
KR101811635B1|2017-04-27|2018-01-25|경상대학교산학협력단|스테레오 채널 잡음 제거 장치 및 방법|
EP3422736B1|2017-06-30|2020-07-29|GN Audio A/S|Pop noise reduction in headsets having multiple microphones|
US10482904B1|2017-08-15|2019-11-19|Amazon Technologies, Inc.|Context driven device arbitration|
WO2019060251A1|2017-09-20|2019-03-28|Knowles Electronics, Llc|Cost effective microphone array design for spatial filtering|
US10657981B1|2018-01-19|2020-05-19|Amazon Technologies, Inc.|Acoustic echo cancellation with loudspeaker canceling beamformer|
US10755728B1|2018-02-27|2020-08-25|Amazon Technologies, Inc.|Multichannel noise cancellation using frequency domain spectrum masking|
CN108766456B|2018-05-22|2020-01-07|出门问问信息科技有限公司|一种语音处理方法及装置|
CN109767783A|2019-02-15|2019-05-17|深圳市汇顶科技股份有限公司|语音增强方法、装置、设备及存储介质|

法律状态:
2011-12-08| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111208 |
2012-07-25| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
2012-10-25| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121024 |
2012-11-01| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121031 |
2013-01-25| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130124 |
2013-07-31| A02| Decision of refusal|Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130730 |
2013-12-03| A524| Written submission of copy of amendment under section 19 (pct)|Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20131202 |
2013-12-18| A911| Transfer of reconsideration by examiner before appeal (zenchi)|Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131217 |
2014-01-09| TRDD| Decision of grant or rejection written|
2014-01-15| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
2014-02-20| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140212 |
2014-02-21| R150| Certificate of patent or registration of utility model|Ref document number: 5479364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2017-02-07| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2018-02-06| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2019-02-21| LAPS| Cancellation because of no payment of annual fees|

优先权:
申请号 | 申请日 | 专利标题

[返回顶部]

相关专利
Sulfonates, polymers, resist compositions and patterning process Washing machine Washing machine Device for fixture finishing and tension adjusting of membrane Structure for Equipping Band in a Plane Cathode Ray Tube Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an

国家/地区