专利摘要:
複数の空間分離フィルタの中の選択された1つによって生成される信号を出力することを含む、Mチャネル入力信号を処理するためのシステム、方法、および装置について説明する。ノイズの多い環境から音響信号を分離することへの適用例について説明し、マルチマイクロホンハンドヘルドデバイスに実装できる構成についても説明する。
公开号:JP2011508533A
申请号:JP2010539833
申请日:2008-12-18
公开日:2011-03-10
发明作者:チャン、クワク−ルン;トマン、ジェレミー;パーク、ヒュン・ジン;ビッサー、エリック
申请人:クゥアルコム・インコーポレイテッドQualcomm Incorporated;
IPC主号:H04M1-00
专利说明:

[0001] 米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明白に組み込まれる、2007年12月19日に出願された「SYSTEMAND METHODFOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENTIN HANDSETS」と題する仮出願第61/015,084号、2007年12月26日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第61/016,792号、2008年6月30日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第61/077,147号、2008年7月9日に出願された「SYSTEMS, METHODS, ANDAPPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する仮出願第61/079,359号の優先権を主張する。]
技術分野

[0002] 本開示は、スピーチ処理に関する。]
背景技術

[0003] 情報信号は、ノイズの避けられない環境で捕捉され得る。したがって、所望の情報ソースからの信号と1つまたは複数の干渉ソースからの信号とを含むいくつかのソース信号の重ね合わせおよび線形結合の中から情報信号を区別することが望ましい。そのような問題は、ボイス通信(たとえば、電話)のための様々な音響アプリケーションにおいて発生する可能性がある。]
[0004] そのような混合から信号を分離する1つの手法は、混合環境の逆を近似する逆混合行列を作成することである。しかしながら、現実的な捕捉環境は、しばしば、時間遅延、マルチパス、反射、位相差、エコー、および/または残響などの影響を含む。そのような影響は、旧来の線形モデリング方法で問題を引き起こす可能性があり、周波数依存の可能性もあるソース信号の畳み込み混合を生成する。そのような混合から1つまたは複数の所望の信号を分離するための信号処理方法を開発することが望ましい。]
[0005] 人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキットまたは他の通信デバイスによって提供される。人が話すと、通信デバイスのマクロホンがその人のボイスの音声を受信し、それを電子信号に変換する。マイクロホンはまた、様々なノイズソースからも音声信号を受信する可能性があり、したがって、電子信号はノイズ成分をも含む可能性がある。マイクロホンは人の口からある距離に位置し、環境は多数の制御不能なノイズソースを有する可能性があるので、ノイズ成分は信号の大きな成分となることがある。そのような大きなノイズは、不満足な通信経験および/または通信デバイスの非効率的な動作を引き起こす可能性がある。]
[0006] 音響環境はしばしばノイズが多いので、所望の情報信号を確実に検出し、これに反応することが困難になる。1つの特定の例では、ノイズの多い環境でスピーチ信号を生成し、スピーチ処理方法を使用して環境ノイズからスピーチ信号を分離する。ノイズは現実の状態ではほとんど常に存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。ノイズは、当該のスピーチ信号を妨害するかまたは劣化させるすべての信号の組合せと定義できる。現実の世界は、単一点ノイズソースを含む複数のノイズソースにあふれており、これらは、しばしば複数の音声に入って残響を生じる。所望のスピーチ信号がバックグラウンドノイズから分離され、隔離されない限り、それを確実に効率的に利用することが困難になる可能性がある。バックグラウンドノイズは、一般的な環境によって生成される多数のノイズ信号、他の人々のバックグラウンドの会話によって生成される信号、ならびにそれらの信号の各々から生成される反射および残響を含む。通信がノイズの多い環境で行われる適用例では、所望のスピーチ信号をバックグラウンドノイズから分離することが望ましい。]
[0007] バックグラウンドノイズ信号から所望の音声信号を分離するための既存の方法は、単純なフィルタ処理プロセスを含む。そのような方法は、音声信号のリアルタイム処理のためには十分に単純で高速である場合があるが、様々な音声環境に容易には適応できず、所望のスピーチ信号の大幅な劣化をもたらす可能性がある。たとえば、このプロセスは、所望のスピーチ信号の部分がノイズと分類され、除去されるように、過度に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。代替的に、このプロセスは、音楽または会話などのバックグラウンドノイズの部分が所望の信号と分類され、フィルタ処理済み出力スピーチ信号中に残されるように、不十分に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。]
[0008] PDAおよび携帯電話のようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、車、道路、またはカフェのような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、一般に人が集まる傾向のある場所で遭遇する種類のノイズ成分を伴って、かなりの量のボイス通信が行われていることを意味する。(たとえば、競合する話し手、音楽、バブル、空港のノイズを含む)この種のノイズの特性は、一般に非定常であり、ユーザ自身の周波数特性に近く、したがって、旧来の単一マイクロホンまたは固定ビームフォーミングタイプの方法を使用してそのようなノイズをモデル化することが難しい場合がある。そのようなノイズはまた、電話で会話しているユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス音声認識ベースのデータ照会を使用しており、これらのシステムの精度は干渉ノイズによって著しく妨げられる可能性がある。したがって、たとえば、ノイズの多い環境でのハンドセットの使用をサポートするために、複数マイクロホンベースの高度な信号処理が望ましい。]
[0009] 一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法は、入力信号に第1の空間処理フィルタを適用することと、入力信号に第2の空間処理フィルタを適用することとを含む。ただし、Mは1よりも大きい整数である。本方法は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記1回目に判断することに応答して、出力信号として第1の空間処理済み信号に基づく信号を生成することとを含む。本方法は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記2回目に判断することに応答して、出力信号として第2の空間処理済み信号に基づく信号を生成することとを含む。本方法では、第1および第2の空間処理済み信号は、入力信号に基づく。]
[0010] そのような方法の例についても説明する。1つのそのような例では、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法は、第1の空間フィルタ処理済み出力信号を生成するために入力信号に第1の空間処理フィルタを適用することと、第2の空間フィルタ処理済み出力信号を生成するために入力信号に第2の空間処理フィルタを適用することとを含む。ただし、Mは1よりも大きい整数である。本方法は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記1回目に判断することに応答して、出力信号として第1の空間処理済み信号を生成することとを含む。本方法は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記2回目に判断することに応答して、出力信号として第2の空間処理済み信号を生成することとを含む。]
[0011] 別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置は、入力信号に対して第1の空間処理演算を実行するための手段と、入力信号に対して第2の空間処理演算を実行するための手段とを含む。ただし、Mは1よりも大きい整数である。本装置は、1回目に、第1の空間処理演算を実行するための手段が第2の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、1回目に判断するための前記手段からの指示に応答して、出力信号として第1の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置は、1回目に続いて2回目に、第2の空間処理演算を実行するための手段が第1の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、2回目に判断するための前記手段からの指示に応答して、出力信号として第2の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置では、第1および第2の空間処理済み信号は、入力信号に基づく。]
[0012] 別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置は、入力信号をフィルタ処理するように構成された第1の空間処理フィルタと、入力信号をフィルタ処理するように構成された第2の空間処理フィルタとを含む。ただし、Mは1よりも大きい整数である。本装置は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器を含む。本装置は、1回目の指示に応答して、出力信号として第1の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールを含む。本装置では、状態推定器は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成され、遷移制御モジュールは、2回目の指示に応答して、出力信号として第2の空間処理済み信号に基づく信号を生成するように構成される。本装置では、第1および第2の空間処理済み信号は、入力信号に基づく。]
[0013] 別の一般的な構成によれば、プロセッサによって実行されると、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法をプロセッサに実行させる命令を備えるコンピュータ可読媒体は、プロセッサによって実行されると、入力信号に対して第1の空間処理演算をプロセッサに実行させる命令と、プロセッサによって実行されると、入力信号に対して第2の空間処理演算をプロセッサに実行させる命令とを含む。ただし、Mは1よりも大きい整数である。本媒体は、プロセッサによって実行されると、1回目に、第1の空間処理演算が第2の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、1回目の前記指示に応答して、出力信号として第1の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。本媒体は、プロセッサによって実行されると、1回目に続いて2回目に、第2の空間処理演算が第1の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、2回目の前記指示に応答して、出力信号として第1の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。この例では、第1および第2の空間処理済み信号は、入力信号に基づく。]
図面の簡単な説明

[0014] 装置A100の実装形態を含むハンドセットH100の動作構成を示す図。
ハンドセットH100の別の動作構成を示す図。
ハンドセットH100の可能な配向の範囲を示す図。
図1Aに示すハンドセットH100の動作構成のための動作配向を示す図。
図1Aに示すハンドセットH100の動作構成のための動作配向を示す図。
図1Bに示すハンドセットH100の動作構成のための動作配向を示す図。
図1Bに示すハンドセットH100の動作構成のための動作配向を示す図。
ハンドセットH100の3つの異なる配向状態に対応するエリアを示す図。
ハンドセットH100の発生源エリアの追加の例を示す図。
ハンドセットH100の発生源エリアの追加の例を示す図。
ハンドセットH100の発生源エリアの追加の例を示す図。
ハンドセットH100の実装形態H110を示す図。
ハンドセットH110の2つの追加の図。
一般的構成による装置A200のブロック図。
ヘッドセット63の2つの異なる配向状態を示す図。
装置A200の2チャネルの実装形態A210のブロック図。
フィルタバンク120の2チャネルの実装形態130を含む装置A210の実装形態A220を示すブロック図。
スイッチング機構350の実装形態352のブロック図。
スイッチング機構352および360の実装形態362のブロック図。
状態推定器400の実装形態402を示す図。
状態推定器400の実装形態404を示す図。
状態推定器400の実装形態406を示す図。
状態推定器400の実装形態408を示す図。
装置A220の実装形態222のブロック図。
状態推定器412の実装形態414の一例を示す図。
装置A210の実装形態A214のブロック図。
装置A222の実装形態A224のブロック図。
装置A210の実装形態A216のブロック図。
遷移制御モジュール500の実装520のブロック図。
遷移制御モジュール500の実装550のブロック図。
ミキサ70a〜70mのj番目の1つの実装72jのブロック図。
ミキサバンク700の2チャネルの実装710のブロック図。
装置A210の実装形態A218のブロック図。
装置A220の実装形態A228のブロック図。
装置A228の実装形態A229のブロック図。
装置A210の実装形態A210Aのブロック図。
装置A220の実装形態A224Aのブロック図。
装置A220の実装形態A232のブロック図。
装置A220の実装形態A234のブロック図。
装置A220の実装形態A236のブロック図。
推定状態S50へのインジケータ関数値のマッピングを示す図。
推定状態S50へのインジケータ関数値の異なるマッピングを示す図。
装置A200の実装形態A310のブロック図。
装置A200の実装形態A320のブロック図。
装置A200の実装形態A330のブロック図。
減衰方式の一例を示す図。
装置A210の実装形態A210Bのブロック図。
エコーキャンセラEC10の実装形態EC12のブロック図。
エコーキャンセラEC20の実装形態EC22のブロック図。
設計および使用手順のフローチャート。
方法M10のフローチャート。
トレーニングデータを記録するように構成された音響無響室の例を示す図。
ハンズフリーカーキット83の一例を示す図。
図37に示すカーキットの適用の一例を示す図。
マイクロホンの線形アレイを有する書込み機器(たとえば、ペン)またはスタイラス79の一例を示す図。
設計段階で2点ソースノイズフィールドに置かれたハンドセットを示す図。
1対のフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10のブロック図。
直接フィルタD110およびD120を含むフィルタ構造FS10の実装形態FS20のブロック図。
一般的構成による装置A100のブロック図。
装置A100の実装形態A110のブロック図。
装置A100の実装形態A120のブロック図。
方法M100のフローチャート。
装置F100のブロック図。
装置A100またはA200の実装形態を含む通信デバイスC100のブロック図。] 図1A 図1B 図37
実施例

[0015] 本開示は、ノイズの多い環境から音響信号を分離するためのシステム、方法、および装置に関する。そのような構成は、音響信号の混合から音響信号を分離することを含むことができる。分離動作は、固定のフィルタ処理ステージ(すなわち、固定の係数値で構成されたフィルタを有する処理ステージ)を使用して、音響信号の入力混合から所望の成分を隔離することによって実行できる。マルチマイクロホンハンドヘルド通信デバイスに実装できる構成についても説明する。そのような構成は、通信デバイスが遭遇する、干渉ソース、音響エコー、および/または空間分布バックグラウンドノイズを備える可能性があるノイズ環境に対処するのに好適である場合がある。]
[0016] 本開示は、1つまたは複数のブラインドソース分離(BSS)、ビームフォーミング、および/またはBSS/ビームフォーミングの方法の組合せを使用して、通信デバイスのマイクロホンアレイを使用して記録されるトレーニングデータを処理することによって、フィルタ係数値の1つのセット(またはフィルタ係数値の複数のセット)を生成するためのシステム、方法、および装置についても説明する。トレーニングデータは、アレイに対する様々なユーザおよびノイズソースの位置、ならびに(たとえば、通信デバイスの1つまたは複数のスピーカからの)音響エコーに基づくことができる。次いで、上述のように分離すべき音響信号の入力混合を得るために、このマイクロホンアレイまたは同じ構成を有する別のマイクロホンアレイを使用することができる。]
[0017] 本開示は、生成されたフィルタ係数値の1つまたは複数のセットが固定のフィルタ処理ステージ(または「フィルタバンク」)に提供されるシステム、方法、および装置についても説明する。そのような構成は、固定のフィルタ処理ステージで生成されたフィルタ係数値のセットの中(および場合によっては後続の処理ステージのための他のパラメータセットの中)から、ユーザに対する通信デバイスの現在特定されている配向に基づいて選択するスイッチング動作を含むことができる。]
[0018] 本開示は、別の分離された信号を生成するために、上述のように固定のフィルタ処理ステージの出力に基づいて空間処理された(または「分離された」)信号が、適応(または部分適応)BSS、ビームフォーミング、またはBSS/ビームフォーミングを組み合わせたフィルタ処理ステージを使用してフィルタ処理されるシステム、方法、および装置についても説明する。これらの分離された信号の各々は、出力チャネルの少なくとも1つが分布バックグラウンドノイズと所望の信号とを含み、他の出力チャネルの少なくとも1つが干渉ソース信号と分布バックグラウンドノイズとを含むように、2つ以上の出力チャネルを含むことができる。本開示は、所望の信号を搬送している出力チャネル中のノイズを、別の出力チャネルによって提供されるノイズ基準に基づいて低減する、後処理ステージ(たとえば、ノイズ低減フィルタ)を含むシステム、方法および装置についても説明する。]
[0019] 本開示は、スイッチング動作による1つまたは複数の分離またはノイズ低減段のための、パラメータのチューニング、初期条件およびフィルタセットの選択、エコー除去、および/または固定のフィルタ係数値のセット間の遷移処理を含むために実装できる構成についても説明する。システムパラメータのチューニングは、全体的なノイズ低減およびエコー消去パフォーマンスを最適化するために、ベースバンドチップまたはチップセットの性質および設定、および/またはネットワーク効果に依存することができる。]
[0020] 文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも表すのに使用される。文脈によって特に制限されない限り、「計算」という用語は、本明細書で、値のセットから計算すること、評価すること、および/または選択することなど、その通常の意味のすべてを示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも表すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(ii)「と等しい」(たとえば、「AはBと等しい」)というケースを含む、その通常の意味のすべてを意味するのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のすべてを意味するのに使用される。]
[0021] 別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定のコンテキストによって示されるように、方法、装置、またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、また特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。]
[0022] 2つ以上のマイクロホンを有する携帯ボイス通信用のデバイスを製造することが望ましい。複数のマイクロホンによって捕捉された信号を使用して、空間処理演算をサポートすることができ、その空間処理演算を使用して、より大きいノイズ除去などの知覚品質の向上を可能にすることができる。そのようなデバイスの例は、電話機ハンドセット(たとえば、携帯電話機ハンドセット)および有線またはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)を含む。]
[0023] 図1Aに、第1の動作構成における2マイクロホンハンドセットH100(たとえば、クラムシェルタイプセルラー電話ハンドセット)を示す。ハンドセットH100は第1のマイクロホンMC10と第2のマイクロホンMC20とを含む。この例では、ハンドセットH100はまた第1のスピーカSP10と第2のスピーカSP20とを含む。] 図1A
[0024] ハンドセットH100が第1の動作構成にあるとき、第1のスピーカSP10はアクティブであり、第2のスピーカSP20は使用不能にされるか、さもなければ無音にされる。この構成では、スピーチ強調および/またはノイズ低減のための空間処理技法をサポートするために、第1のマイクロホンMC10と第2のマイクロホンMC20の両方がアクティブのままであることが望ましい。図2に、この動作構成の可能な配向の範囲内にある2つを示す。配向のこの範囲内で、第1のスピーカSP10がユーザの耳に近く、第1のマイクロホンMC10がユーザの口に近くなるように、ハンドセットH100はユーザの頭部に保持される。図2に示すように、第1のマイクロホンMC10とユーザ口との間の距離は変化する。図2はまた、指向性および/または拡散性の遠端信号およびノイズに応答して第1のスピーカSP10によって生成される、エコーなどの生じうる干渉音声信号を示す。図3Aおよび図3Bに、(たとえば、スピーカホンまたはプッシュツートークモードにおける)ユーザがハンドセットH100のこの動作構成を使用することができる2つの他の可能な配向を示す。ハンドセットH100のそのような動作構成においてスピーカホンまたはプッシュツートークモードがアクティブであるとき、第2のスピーカSP20はアクティブであり、場合によっては第1のスピーカSP10は使用不能にされるか、さもなければ無音にされることが望ましい。] 図2 図3A 図3B
[0025] 図1Bに、ハンドセットH100の第2の動作構成を示す。この構成では、第1のマイクロホンMC10はふさがれ、第2のスピーカSP20はアクティブであり、第1のスピーカSP10は使用不能にされるか、さもなければ無音にされる。この場合も、この構成では、(空間処理技法をサポートするために)第1のマイクロホンMC10と第2のマイクロホンMC20の両方がアクティブであることが望ましい。図4Aおよび図4Bに、ユーザがハンドセットH100のこの動作構成を使用することができる2つの異なる可能な動作配向を示す。ハンドセットH100は、その(1つまたは複数の)状態がデバイスの現在の動作構成を示す1つまたは複数のスイッチを含むことができる。] 図1B 図4A 図4B
[0026] 上記の図に示すように、セルラー電話ハンドセットは、デバイスのマイクロホンとユーザの口との間の異なる空間関係にそれぞれ関連する様々な異なる可能な位置での使用をサポートすることができる。たとえば、ハンドセットH100は、図2に示す従来の電話動作モードよりも広い範囲の位置変化を必要とすることが予想される、全二重スピーカホンモードおよび/または半二重プッシュツートーク(PTT)モードなどの機能をサポートすることが望ましい。これらの位置変化に応答して空間処理フィルタを適合させるという問題は、複雑すぎて、フィルタ収束をリアルタイムで得ることができないことがある。さらに、時間がたつにつれていくつかの異なる方向から到着するスピーチ信号とノイズ信号とを適切に分離するという問題は、複雑すぎて、単一の空間処理フィルタが解決することができないことがある。そのようなハンドセットは、2つ以上の空間処理フィルタを有するフィルタバンクを含むことが望ましい。そのような場合、ハンドセットは、所望の音源(たとえば、ユーザの口)に対するデバイスの現在の配向に従ってこのバンクから空間処理フィルタを選択することが望ましい。] 図2
[0027] 図5に、所望の音源(たとえば、ユーザの口)に対するハンドセットH100の3つの異なる配向状態に対応するエリアを示す。所望のサウンド(たとえば、ユーザの声)がエリアA1の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアA1に対して指向性であり、他の方向から来るサウンドを減衰させる傾向があるフィルタを使用することが望ましい。同様に、所望のサウンド(たとえば、ユーザの声)がエリアA2の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアA2に対して指向性であり、他の方向から来るサウンドを減衰させる傾向がある異なるフィルタを使用することが望ましい。同様に、所望のサウンド(たとえば、ユーザの声)がエリアA3の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、最初の2つのフィルタのいずれをも使用しないことが望ましい。たとえば、そのような場合、ハンドセットは第3のフィルタを使用することが望ましい。代替的に、そのような場合、ただ1つのマイクロホン(たとえば、第1のマイクロホンMC10)がアクティブになるように、または現在アクティブなマイクロホンがシングルチャネルにミックスダウンされるように、ハンドセットは、シングルチャネルモードに入るか、場合によっては空間処理演算を中断することが望ましい。] 図5
[0028] 図5に示すエリア境界は、視覚的な説明のためのものにすぎず、様々な配向状態に関連するエリア間の実際の境界を示すものではないことに留意されたい。図6A〜図6Cに、1つの空間分離フィルタが別の空間分離フィルタよりも良好に動作することが予想される発生源エリアの3つのさらなる例を示す。これらの3つの図は、フィルタのうちの2つ以上が、ハンドセットからある距離だけ離れているソースに対して等しく良好に動作することを示す(そのような配向は「遠距離シナリオ」とも呼ばれる)。この距離は、主に、デバイスのマイクロホン間の距離(一般にハンドセットに対して1.5〜4.5センチメートルであり、ヘッドセットに対してさらに短くなることもある)に依存する。図6Cに、2つのエリアが重複しており、したがって2つの対応するフィルタが、重複エリア中に配置された所望のソースに対して等しく良好に動作することが予想される一例を示す。] 図5 図6A 図6B 図6C
[0029] 通信デバイス(たとえば、ハンドセットH100)のマイクロホンの各々は、全方向性、双方向性、または単方向性である(たとえば、カージオイドの)応答を有することができる。使用できる様々なタイプのマイクロホンは、圧電型マイクロホン、ダイナミックマイクロホン、およびエレクトレットマイクロホンを含む。そのようなデバイスは、3つ以上のマイクロホンを有するように実装することもできる。たとえば、図7Aに、第3のマイクロホンMC30を含むハンドセットH100の実装形態H110を示す。図7Bに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットH110の2つの他の図を示す。] 図7A 図7B
[0030] 図8に、本明細書で開示するハンドセットH100またはH110などの通信デバイス内に実装できる一般的構成による装置A200のブロック図を示す。装置A200は、Mチャネル入力信号S10を受信するように構成されたフィルタバンク100を含み、ただし、Mは1よりも大きい整数であり、Mチャネルの各々は、M個のマイクロホン(たとえば、ハンドセットH100またはH110のマイクロホン)のうちの対応する1つのマイクロホンの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、8kHzから16kHzの範囲にわたる。] 図8
[0031] フィルタバンク100はn個の空間分離フィルタF10−1〜F10−nを含み(ただし、nは1よりも大きい整数)、それらの空間分離フィルタの各々は、Mチャネル入力信号S40をフィルタ処理して、対応する空間処理済みのMチャネル信号を生成するように構成される。空間分離フィルタF10−1〜F10−nの各々は、1つまたは複数の指向性干渉ソースおよび/または拡散ノイズ成分など、信号の1つまたは複数の他の成分からMチャネル入力信号の1つまたは複数の指向性所望音声成分を分離するように構成される。図8の例では、フィルタF10−1は、フィルタ処理済みチャネルS2011〜S20m1を含むMチャネル信号を生成し、フィルタF10−2は、フィルタ処理済みチャネルS2012〜S20m2を含むMチャネル信号を生成し、以下同様である。フィルタF10−1〜F10−nの各々は係数値の1つまたは複数の行列によって特徴づけられ、係数値の行列は、BSS、ビームフォーミング、またはBS/ビームフォーミングの方法(たとえば、ICAまたはIVA方法、または本明細書で説明するその変形体)の組合せを使用して計算することができ、また本明細書で説明するようにトレーニングすることもできる。場合によっては、係数値の行列は係数値のベクトルのみ(すなわち、1次元の行列)とすることができる。装置A200はまた、各々フィルタF10−1〜F10−nからMチャネルフィルタ処理済み信号を受信し、これらのフィルタのうちのどれが1つまたは複数の他の成分から入力信号S10の少なくとも1つの所望の成分を現在最も良く分離するかを判断し、Mチャネル出力信号S40を生成するように構成されたスイッチング機構350を含む。] 図8
[0032] M個のマイクロホンを有するように実装されたイヤホンまたは他のヘッドセットは、異なる動作構成を有し、装置A200の実装形態を含むことができる別種のポータブル通信デバイスである。そのようなヘッドセットは有線またはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、(たとえば、ワシントン州Bellevue、Bluetooth Special Interest Group社によって公表されたBluetoothプロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話通信をサポートするように構成できる。図9に、ユーザの耳65に使用するために取り付けられるそのようなヘッドセット63の異なる動作構成の範囲66の図を示す。ヘッドセット63は、使用中にユーザの口64に対して異なって配向できる第1の(たとえば、縦形)マイクロホンと第2の(たとえば、直角)マイクロホンとのアレイ67を含む。] 図9
[0033] 説明が過度に複雑になることを避けるために、開示する構成の一部の機能は、本明細書では装置A200の2チャネルおよび/または2フィルタの実装形態に関して説明しているが、そのような実装形態に関して説明するどんな機能もMチャネルおよび/またはnフィルタの実装形態に一般化でき、そのような一般化は明確に企図され、開示されることを理解されたい。]
[0034] 図10に、装置A200の2チャネル(たとえば、ステレオ)の実装形態A210のブロック図を示す。装置A210は、n個の空間分離フィルタF14−1〜F14−nを含むフィルタバンク100の実装形態120を含む。これらの空間分離フィルタの各々は、2つの入力チャネルS10−1およびS10−2をフィルタ処理して、2つのフィルタ処理済みチャネル(たとえば、スピーチチャネルおよびノイズチャネル)上で対応する空間処理済み信号を生成するように構成されたフィルタF10−1〜F10−nのうちの1つに対応する2チャネルの実装形態である。フィルタF14−1〜F14−nの各々は、信号の1つまたは複数のノイズ成分から入力信号S10の指向性所望音声成分を分離するように構成される。図10の例では、フィルタF14−1はスピーチチャネルS2011とノイズチャネルS2021とを含む2チャネル信号を生成し、フィルタF14−2はスピーチチャネルS2012とノイズチャネルS2022とを含む2チャネル信号を生成し、以下同様である。装置A210はまた、フィルタF14−1〜F14−nの各々から2つのフィルタ処理済みチャネルを受信し、これらのフィルタのうちどれが入力信号S10の所望の成分とノイズ成分を現在最も良く分離するかを判断し、2つの出力チャネルS40−1およびS40−2の選択されたセットを生成するように構成されたスイッチング機構350の実装形態360を含む。] 図10
[0035] 図11に、フィルタバンク120の2フィルタの実装形態130を含む装置A210の特定の実装形態A220を示すブロック図を示す。フィルタF14−1およびF14−2は、本明細書で説明するように調整するおよび/または設計することができる。フィルタバンク130はまた、フィルタF14−1およびF14−2が、互いに実質的に同じであるが、順序が異なる係数値を有するように実装できる。(この文脈では、「実質的に」という用語は、1パーセント、5パーセント、または10パーセント内までの誤差を表す。)1つのそのような例では、フィルタF14−1およびF14−2は、互いに実質的に同じであるが、順序が異なる係数値を有する。(特定の例では、フィルタF14−1はv係数値a1〜avのベクトルを有し、フィルタF14−2は逆順av〜a1で実質的に同じ値のv成分ベクトルを有する。)別のそのような例では、フィルタF14−1は係数値A1〜Avのv列の行列を有し(各列は、入力チャネルの各々に対するフィルタ処理操作を表す)、フィルタF14−2は、異なる順序の実質的に同じ列を有するv列の行列を有する。(特定の例では、フィルタF14−1の係数値の行列は、フィルタF14−2の係数値の行列を得るために中央垂直軸に関して反転される)。そのような場合、フィルタF14−1およびF14−2は異なる(たとえば、ほぼ相補的な)空間分離性能を有することが予想される。たとえば、1つのフィルタは、所望の音源が図5のA1エリアなどのエリア中にあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができ、他のフィルタは、所望の音源が図5のエリアA2などの反対側エリア中のあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができる。代替的に、フィルタバンク130は、フィルタF14−1とF14−2が構造的に類似し、フィルタF14−2の係数値の各々が、フィルタF14−1の対応する係数値の加法逆元に実質的に等しくなる(すなわち、1パーセント、5パーセント、または10パーセント内までの誤差で、大きさが同じで方向が反対になる)ように実装できる。] 図11 図5
[0036] ハンドセットまたはヘッドセットの典型的な使用は、ただ1つの所望の音源、すなわちユーザの口を必要とする。そのような場合、2チャネル空間分離フィルタのみを含むフィルタバンク120の実装形態の使用が適切である。オーディオおよび/またはテレビ会議のために通信デバイス中に装置A200の実装形態を含めることも明確に企図され、開示される。オーディオおよび/またはテレビ会議用のデバイスでは、デバイスの典型的な使用は、複数の所望の音源(たとえば、様々な参加者の口)を必要とする。そのような場合、Rチャネル空間分離フィルタ(ただし、Rは2よりも大きい)を含むフィルタバンク100の実装形態の使用がより適切であることがある。一般に、フィルタバンク100の空間分離フィルタは、各指向性音源用の少なくとも1つのチャネルと拡散ノイズ用の1つのチャネルとを有することが望ましい。場合によっては、任意の指向性干渉ソースの各々に追加のチャネルを与えることが望ましい。]
[0037] 図12に、状態推定器400と遷移制御モジュール500とを含むスイッチング機構350の実装形態352のブロック図を示す。状態推定器400からの推定配向状態指示(または「推定状態」)S50に応答して、遷移制御モジュール500は、フィルタ処理済みチャネルS2011−S20m1〜S201n−S20mnのn個のセットの中から選択して、M個の出力チャネルS40−1〜S40−mのセットを生成するように構成される。図13に、状態推定器400の実装形態401と遷移制御モジュール500の実装形態501とを含み、Mの値が2に等しい、スイッチング機構352の特定の実装形態362のブロック図を示す。] 図12 図13
[0038] 状態推定器400は、1つまたは複数の入力チャネルS10−1〜S10−m、1つまたは複数のフィルタ処理済みチャネルS2011−S20mn、あるいは入力およびフィルタ処理済みチャネルの組合せに基づいて推定状態指示S50を計算するように実装できる。図14Aに、n個のスピーチチャネルS2011−S201nとn個のノイズチャネルS202a−S202nとを受信するように構成された状態推定器401の実装形態402を示す。一例では、状態推定器402は、1≦i≦nに対して式max[E(Si)−E(Ni)]に従って推定状態指示S50を計算するように構成される。ここで、E(Si)はスピーチチャネルS201iのエネルギーを示し、E(Ni)はノイズチャネルS202iのエネルギーを示す。別の例では、状態推定器402は、式max[E(Si)−E(Ni)+Ci]に従って推定状態指示S50を計算するように構成される。ここで、CiはフィルタF10−iに関連する選好定数を示す。通信デバイスの動作構成および/または動作モードの変化に応答して、選好定数Ciのうちの1つまたは複数の各々に異なる値を割り当てるように状態推定器400を構成することが望ましい。] 図14A
[0039] 状態推定器402は、対応するチャネルによって搬送される信号の連続するサンプルのブロック(「フレーム」とも呼ばれる)の2乗サンプル値の合計としてエネルギー値E(Si)およびE(Ni)の各実例を計算するように構成できる。典型的なフレーム長は、約5または10ミリ秒から約40または50ミリ秒にわたり、フレームは重複していても重複していなくてもよい。1つの操作によって処理されるフレームは、異なる操作によって処理されるより大きいフレームのセグメント(すなわち、「サブフレーム」)とすることもできる。1つの特定の例では、フィルタ処理済みチャネルS2011〜S202nによって搬送される信号は、10ミリ秒の重複しないフレームのシーケンスに分割され、状態推定器402は、フィルタ処理済みチャネルS2011およびS2012の各々の各フレームのエネルギー値E(Si)の実例を計算し、フィルタ処理済みチャネルS2021およびS2022の各々の各フレームのエネルギー値E(Ni)の実例を計算するように構成される。状態推定器402の別の例は、1≦i≦nに対して式min(corr(Si,Ni))(またはmin(corr(Si,Ni))+Ci)に従って推定状態指示S50を計算するように構成される。ここで、corr(A,B)はAとBの相関を示す。この場合、相関の各実例は、上述のように対応するフレームにわたって計算できる。]
[0040] 図14Bに、n個の入力チャネルS10−1−S10−mとn個のノイズチャネルS2021−S202nとを受信するように構成された状態推定器401の実装形態404を示す。一例では、状態推定器404は、1≦i≦nおよび1≦j≦nに対して式max[E(Ij)−E(Ni)](またはmax[E(Ij)−E(Ni)+Ci])に従って推定状態指示S50を計算するように構成され、ただし、E(Ij)は入力チャネルS10−jのエネルギーを示す。別の例では、状態推定器404は、1≦i≦nに対して式max[E(I)−E(Ni)](またはmax[E(I)−E(Ni)+Ci])に従って推定状態指示S50を計算するように構成される。ここで、E(I)は、入力チャネルS10−1〜S10−mのうちから選択された1つのIのエネルギーを示す。この場合、チャネルIは、所望のスピーチ信号を搬送する可能性がある入力チャネルである。チャネルIは、デバイス内の対応するマイクロホンの物理的位置に基づいて選択できる。代替的に、チャネルIは、入力チャネルの2つ以上(場合によってはすべて)の信号対雑音比の比較に基づいて選択できる。] 図14B
[0041] 図14Cに、n個のスピーチチャネルS2011−S201nを受信するように構成された状態推定器401の実装形態406を示す。状態推定器406は、スピーチ測定(たとえば、スピーチ特性の測定)の最高値を有するスピーチチャネルに対応する状態を選択するように構成される。一例では、状態推定器406は、スピーチチャネルS2011−S201nの相対自己相関特性に基づいて推定状態指示S50を計算するように構成される。この場合、予想される人間のピッチ遅延値の範囲内で自己相関ピークを有する信号を現在搬送しているチャネルが、ゼロ遅延のみにおいて自己相関ピークを有する信号を現在搬送しているチャネルよりも好ましいことがある。別の例では、状態推定器406は、スピーチチャネルS2011−S201nの相対尖度(kurtosis)(すなわち、4次モーメント)特性に基づいて推定状態指示S50を計算するように構成される。この場合、より高い尖度を有する(すなわち、より非ガウシアンである)信号を現在搬送しているチャネルは、より低い尖度を有する(すなわち、よりガウシアンである)信号を現在搬送しているチャネルよりも好ましいことがある。] 図14C
[0042] 図14Dに、n個の入力チャネルS10−1−S10−mを受信するように構成された状態推定器401の実装形態408を示す。この場合、フィルタセットF10−1からF10−nの各々は、到達時間差(TDOA)値の異なる範囲に関連する。状態推定器408は、(たとえば、入力チャネル、入力/出力相関、および/または相対遅延入力の和と差の相関に基づく方法を使用して)入力チャネル間のTDOAを推定し、関連するフィルタセットに対応する状態を選択するように構成される。入力信号の和と差の測定に基づいて遅延推定値を計算する前に入力チャネルの低域フィルタリングを実施することは、そのようなフィルタリングが遅延推定値を調整し、および/または安定化させるのに役立つので、望ましい。状態推定器408は、マイクロホン利得の正確な較正にあまり依存せず、および/または状態推定器400の他の実装形態よりも較正誤差に対してロバストにすることができる。] 図14D
[0043] 状態推定器400の入力パラメータ値を平滑化し、その後(たとえば、上述のように)それらの入力パラメータ値を使用して推定状態計算を実施するように状態推定器400を構成することが望ましい。1つの特定の例では、状態推定器402は、スピーチチャネルS2011−S201nおよびノイズチャネルS2021−S202nの各々のエネルギーを計算し、次いで[Ec=αEp+(1−α)En]などの第1の式に従ってこれらのエネルギーを平滑化するように構成され、ただし、Ecは現在の平滑化されたエネルギー値を示し、Epは前の平滑化されたエネルギー値を示し、Enは現在の計算されたエネルギー値を示し、αは平滑化係数を示し、この値は、0(平滑化なし)と、0.9(最大平滑化)などの1未満の値との間で固定または適応型とすることができる。この例では、そのような平滑化を、計算されたエネルギー値に適用して、値E(Si)およびE(Ni)を得る。他の例では、そのような線形平滑化(および/または非線形平滑化操作)を、図14A〜図14Dを参照しながら説明したように計算されたエネルギー値に適用して、値E(Si)、E(Ni)、E(I)、およびE(Ij)のうちの1つまたは複数を得る。代替および/または追加として、状態推定器400に供給される(たとえば、スピーチ、ノイズ、および/または入力チャネル上で搬送される)信号のうちの任意の1つまたは複数を選択および/または事前調整することは、そのような前処理が大きい干渉ソースの存在下で誤った状態推定を避けるのに役立つので、望ましい。] 図14A 図14B 図14C 図14D
[0044] 図15に、(A)2つのフィルタからのチャネルを処理するように構成された状態推定器402の実装形態412と、(B)遷移制御モジュール501の対応する実装形態510とを有するスイッチング機構370の実装形態372を含む装置A220の実装形態A222の一例を示す。図16に、状態推定器412の実装形態414の一例を示す。この例では、分離測定計算器550aは信号S2011とS2021との間のエネルギー差を計算し、分離測定計算器550bは信号S2012とS2022との間のエネルギー差を計算し、コンパレータ560は、それらの結果を比較して、チャネル間の最大分離(たとえば、最大エネルギー差)を作り出すフィルタに対応する配向状態を指示する。それぞれのエネルギー差を計算する際、分離測定計算器550aと550bのいずれの一方(または両方)は、上述したEc=αEp+(1−α)Enなどの式に従って時間とともに計算された差を平滑化するように構成できる。コンパレータ560はまた、比較する前に上述の対応するフィルタ選好定数をエネルギー差の一方または両方に加算するように構成できる。これらの原理は、(たとえば、2よりも大きいMの値に対して)状態推定器402の他の実装形態に拡張し、状態推定器404および406を類似の方法で実装することができる。また、状態推定器400は、実装形態402、404、406、および408を参照しながら説明した技術のうちの2つ以上の組合せに基づいて推定状態S50を生成するように構成できることに留意されたい。] 図15 図16
[0045] 入力チャネルが所望のスピーチ成分を含まない間隔中に(たとえば、ノイズのみ間隔中に)フィルタ出力の間のスイッチングを抑止または不能にすることが望ましい。たとえば、所望の音声成分がアクティブであるときのみ、状態推定器400が推定配向状態を更新することが望ましい。状態推定器400のそのような実装形態は、通信デバイスのユーザが話していない間隔中ではなく、スピーチ間隔中にのみ推定配向状態を更新するように構成できる。]
[0046] 図17に、ボイスアクティビティ検出器(または「VAD」)20とスイッチング機構360の実装形態364とを含む装置A210の実装形態A214を示す。ボイスアクティビティ検出器20は、スピーチアクティビティが入力チャネルS10−1(たとえば、第1のマイクロホンMC10に対応するチャネル)上で検出されたかどうかをその状態によって指示する更新制御信号S70を生成するように構成され、スイッチング機構364は、更新制御信号S70の状態に従って制御される。スイッチング機構364は、スピーチが検出されない間隔(たとえば、フレーム)中に推定状態S50の更新を抑止するように構成できる。] 図17
[0047] ボイスアクティビティ検出器20は、フレームエネルギー、信号対雑音比(SNR)、周期性、ゼロ交差レート、スピーチおよび/または残差の自己相関、ならびに第1の反射係数など、1つまたは複数のファクタに基づいてその入力信号のフレームをスピーチまたはノイズとして分類する(たとえば、2値ボイス検出指示信号の状態を制御する)ように構成できる。そのような分類は、そのようなファクタの値または大きさとしきい値の比較、および/またはそのようなレートの変化の大きさとしきい値の比較を含むことができる。代替または追加として、そのような分類は、1つの周波数帯域におけるエネルギーなどのそのようなファクタの値もしくは大きさまたはそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。ボイスアクティビティ検出器20は、一般に、更新制御信号S70をバイナリ値ボイス検出指示信号として生成するように構成されるが、連続および/または多値信号を生成する構成も可能である。]
[0048] 図18に、VAD20とスイッチング機構372の実装形態374とを含む装置220の実装形態A224のブロック図を示す。この例では、更新制御信号S70は、入力チャネルS10−1上にスピーチアクティビティが検出されたかどうかに従って状態推定器412の実装形態416を制御する(たとえば、推定状態S50の値が変化することを可能または不能にする)ように構成される。図19に、VAD20の実例20−1および20−2を含む装置A210の実装形態A216を示し、これらの実例は同じとすることができるが、同じでなくてもよい。装置A216の場合、スイッチング機構360の実装形態366の状態推定器は、スピーチアクティビティがいずれかの入力チャネル上で検出された場合は使用可能にされ、他の場合は使用不能にされる。] 図18 図19
[0049] 通信デバイスとユーザの口との間の距離が増大するにつれて、スピーチフレームを非スピーチフレームと区別するVAD20の能力が(たとえば、SNRの減少により)低下することがある。しかしながら、上記のように、スピーチ間隔中にのみ推定配向状態を更新するように状態推定器400を制御することが望ましい。したがって、(たとえば、遠距離シナリオにおいて所望のスピーカ検出アクティビティを改善するために)高度な信頼性を有するシングルチャネルVADを使用してVAD20(またはVAD20−1と20−2の一方または両方)を実装することが望ましい。たとえば、そのような検出器は、複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD判定のメモリに基づいてボイスアクティビティ検出を実施するように実装することが望ましい。装置A212の別の実装では、VAD20の実例20−1および20−2の代わりに、上記のようにバイナリ値とすることができる)更新制御信号を生成するデュアルチャネルVADを使用する。]
[0050] 状態推定器400は、通信デバイスの現在の配向状態を推定するための2つ以上の機能を使用するように構成できる。たとえば、状態推定器400は、図14A〜図14Dを参照しながら上述した基準のうち2つまたはそれ以上の組合せを使用するように構成できる。状態推定器400はまた、(たとえば、通信デバイスの加速度計からの情報に基づく)位置情報、(たとえば、通信デバイスの1つまたは複数の状態、あるいは1つまたは複数のスイッチによって示される)動作構成、および/または(たとえば、プッシュツートーク、スピーカホン、またはビデオ再生もしくは記録などのモードが現在選択されているかどうかの)動作モードなど、通信デバイスの現在の状態に関係する他の情報を使用するように構成できる。たとえば、状態推定器400は、どのマイクロホンが現在アクティブであるかを示す(たとえば、現在の動作構成に基づく)情報を使用するように構成できる。] 図14A 図14B 図14C 図14D
[0051] 装置A200はまた、通信デバイスのいくつかの動作構成またはモードでは、デバイスがその構成またはモードにある間は十分な分離を行うので状態推定の継続が不必要になるように、空間分離フィルタのうちの対応する1つを仮定するように構成できる。たとえば、ビデオディスプレイモードが選択されているとき、推定状態指示S50を(たとえば、ユーザがビデオスクリーンに面する配向状態に関係する)特定の対応する値に限定することが望ましい。入力信号S10からの情報に基づく状態推定のプロセスは必ず多少の遅延を含むので、通信デバイスの現在の状態に関係するそのような情報の使用により、状態推定プロセスを早め、および/または1つまたは複数の後続の処理ステージのアクティブ化および/またはそれらの処理ステージに対するパラメータ変化などの推定状態S50の変化に応答する動作の遅延を低減するのを助けることができる。]
[0052] 通信デバイスのいくつかの動作構成または動作モードは、特に広範囲のユーザデバイス配向をサポートすることができる。たとえば、プッシュツートークまたはスピーカホンモードなどの動作モードで使用されるとき、通信デバイスをユーザの口から比較的遠い距離に保持することができる。これらの配向のいくつかでは、ユーザの口は各マイクロホンからほぼ等距離になり、現在の配向状態の確実な推定がより困難になることがある。(そのような配向は、たとえば、図6Cに示す様々な配向状態に関連するエリア間の重複領域に対応する。)そのような場合、配向の小さい変化が推定状態S50の不必要な変化をもたらすことがある。] 図6C
[0053] (たとえば、ヒステリシスまたは慣性を取り入れることによって)不必要な変化を抑止するように状態推定器400を構成することが望ましい。たとえば、コンパレータ560は、(A)最大分離測定と、(B)現在の状態に対応する分離測定との間の差がしきい値を超過する(代替的に、そのしきい値以上である)場合にのみ推定状態指示S50を更新するように構成できる。]
[0054] 図20に、遷移制御モジュール500の実装520のブロック図を示す。遷移制御モジュール520はM個の選択器(たとえば、デマルチプレクサ)のセットを含む。1≦j≦Mに対して、各選択器jは、推定状態S50の値に従ってフィルタ処理済みチャネルS20j1〜S20jnのうちの1つを出力チャネルS40−jとして出力する。] 図20
[0055] 遷移制御モジュール520の使用により、ある空間分離フィルタの出力から別の空間分離フィルタの出力への出力信号S40の突然の遷移を生じることがある。通信デバイスが現在2つ以上の配向状態間の空間境界の近くにある状況では、遷移制御モジュール520の使用により、あるフィルタ出力から別のフィルタ出力への頻繁な遷移(「ジッタ(jitter)」とも呼ばれる)を生じることもある。様々なフィルタの出力は大幅に異なることがあるので、これらの遷移は、所望のスピーチ信号の一時的減衰または他の不連続性など、出力信号S40中に好ましくない乱れを生じることがある。あるフィルタ出力から別のフィルタ出力への変更の間に遅延期間(「ハングオーバ(hangover)」とも呼ばれる)を付与することによってそのような乱れを低減することが望ましい。たとえば、遅延間隔(たとえば、5または10個の連続するフレーム)にわたって同じ宛先状態が一貫して示されたときのみに推定状態指示S50を更新するように状態推定器400を構成することが望ましい。状態推定器400のそのような実装形態は、すべての状態遷移に対して同じ遅延間隔を使用するように、あるいは特定のソースおよび/または潜在的な宛先状態に従って異なる遅延間隔を使用するように構成できる。]
[0056] 出力信号S40におけるフィルタ出力間の突然の遷移は知覚的に好ましくなく、遷移制御モジュール520によって与えられる遷移よりもフィルタ出力間でより漸進的な遷移を得ることが望ましい。そのような場合、スイッチング機構350が、時間がたつにつれてある空間分離フィルタの出力から別の空間分離フィルタの出力に漸進的にフェードさせることが望ましい。たとえば、上述のように遅延間隔を付与することの代替または追加として、スイッチング機構350は、いくつかのフレームのマージ間隔(たとえば、10個の20ミリ秒フレーム)にわたってあるフィルタの出力から別のフィルタの出力への線形平滑化を実施するように構成できる。]
[0057] 図21に、遷移制御モジュール500の実装550のブロック図を示す。モジュール520のデマルチプレクサのアレイの代わりに、遷移制御モジュール550はm個のミキサ70a〜70mのミキサバンク700を含む。遷移制御モジュール550はまた、遷移制御信号S60を生成するように構成されたハングオーバ論理回路600を含む。1≦j≦Mに対して、各ミキサ70jは、遷移制御信号S60に従ってフィルタ処理済みチャネルS20j1〜S20jnを混合して、対応する出力チャネルS40−jを生成するように構成される。] 図21
[0058] 図22に、ミキサ70jの実装72jのブロック図を示す(ただし、1≦j≦M)。この例では、遷移制御信号S60は、それぞれのフィルタ処理済みチャネルS20j1〜S20jnに重み付けするためにミキサ72jによって適用される並列のn個の値と、重み付けされた信号の和を計算して出力チャネルS40−jを生成する加算器60jとを含む。] 図22
[0059] 図23に、ミキサバンク700の2チャネル実装710を含む遷移制御モジュール550の実装555のブロック図を示す。1つのそのような例では、ハングオーバ論理回路600の2チャネル実装610は、所定数のフレーム(すなわち、マージ間隔)にわたって0から1に変化する重みファクタωを計算し、ωと(1−ω)値を遷移制御信号60として(推定状態S50によって決定された順序で)出力するように構成される。ミキサバンク710のミキサ74aおよび74bは、それぞれωFn+(1−ω)Fcなどの式に従ってこれらの重みファクタを適用するように構成され、ただし、Fnはミキサの遷移先であるフィルタ処理済みチャネルを示し、Fcはミキサの遷移元であるフィルタ処理済みチャネルを示す。] 図23
[0060] 推定状態S50の異なる遷移に対して異なる遅延および/またはマージ間隔を適用するようにハングオーバ論理回路600を構成することが望ましい。たとえば、推定状態S50の一部の遷移は、実際には他の遷移よりも起こる可能性が低いことがある。比較的可能性が低い状態遷移の一例は、ユーザがハンドセットを完全に(すなわち、第1のマイクロホンがユーザの口に向く配向から、第1のマイクロホンがユーザの口の反対方向に向く配向に)反転させたことを示す遷移である。見込みのより少ない遷移にはより長い遅延および/またはマージ期間を使用するようにハングオーバ論理回路600を構成することが望ましい。そのような構成は、推定状態指示S50のスプリアス過渡状態を抑制するに役立つ。また、ハングオーバ論理回路600は、本明細書で論じる位置情報、動作構成、および/または動作モードなど、通信デバイスの現在および/または以前の状態に関係する他の情報に従って遅延および/またはマージ間隔を選択するように構成することが望ましい。]
[0061] 図24に、装置A210の実装形態A218のブロック図を示す。この例では、スイッチング機構360の実装形態368は、フィルタ処理済みチャネルのn個のペアならびに入力チャネルのペアの中から選択してスピーチチャネルS40−1およびノイズチャネルS40−2を生成するように構成される。一例では、スイッチング機構368は、デュアルチャネルモードまたはシングルチャネルモードで動作するように構成される。デュアルチャネルモードでは、スイッチング機構368は、フィルタ処理済みチャネルのn個のペアの中から選択してスピーチチャネルS40−1およびノイズチャネルS40−2を生成するように構成される。シングルチャネルモードでは、スイッチング機構368は、入力チャネルS10−1を選択してスピーチチャネルS40−1を生成するように構成される。シングルチャネルモードの代替実装形態では、スイッチング機構368は、2つの入力チャネルの中から選択してスピーチチャネルS40−1を生成するように構成される。そのような場合、2つの入力チャネル間の選択は、最大のSNR、(たとえば、1つまたは複数の統計メトリックによって示される)最大のスピーチ尤度、通信デバイスの現在の動作構成、および/または所望の信号が生じたと判断される方向など、1つまたは複数の基準に基づくことができる。] 図24
[0062] 図25に、スイッチング機構370の実装形態378が、シングルチャネルモードにあるときに入力チャネルのうちの1つ(たとえば、第1のマイクロホンに関連するチャネル)を受信し、このチャネルをスピーチ信号S40−1として出力するように構成された装置A220の関連実装形態A228のブロック図を示す。スイッチング機構は、推定配向状態がフィルタバンク中のn個のフィルタのいずれにも対応しないとき、シングルチャネルモードを選択するように構成できる。たとえば、フィルタバンク120の2フィルタの実装形態130および図5に示す可能な配向状態の3つ組では、スイッチング機構は、推定状態S50がエリアA3に対応するとき、シングルチャネルモードを選択するように構成できる。設計上の観点から、シングルチャネルモードは、信頼できる空間処理結果を生じる(または、代替的に、生じることが予想される)フィルタがフィルタバンク中に全く発見されない場合を含むことができる。たとえば、スイッチング機構は、空間分離フィルタのいずれかが所望の音声成分を対応するフィルタ処理済みチャネルに分離したと状態推定器が確実に判断できないときは、シングルチャネルモードを選択するように構成できる。1つのそのような例では、コンパレータ560は、分離測定の差が最小値を超過しない場合に対してシングルチャネルモードの選択を指示するように構成される。] 図25 図5
[0063] 同じ構造のそれぞれの実例を使用してフィルタバンク100のフィルタのすべてを実装する場合、この構造の別の実例を使用してシングルチャネルモードを実装すると便利である。図26に、装置A228のそのような実装形態A229のブロック図を示す。パススルーフィルタF14−3は、空間処理なしに入力チャネルS10−1およびS10−2をパスするように構成された同じ構造の別の実例を使用して実装される。たとえば、フィルタバンク100のフィルタは、一般にクロスフィルタフィードフォワードおよび/またはフィードバック構造を使用して実装される。そのような場合、パススルーフィルタは、クロスフィルタのすべての係数値が0である構造を使用して実装できる。さらなる一例では、パススルーフィルタF14−3は、入力チャネルS10−1のみがパスされるように入力チャネルS10−2を遮断するように実装される。装置A229はまた、(たとえば、推定状態指示S50に基づいて)他のフィルタ処理済みチャネルS2011、S2012、S2021、およびS2022と同じ方法でパススルーフィルタF14−3によって生成されたチャネルへ、およびそのチャネルから遷移するように構成されたスイッチング機構378の実装形態379を含む。] 図26
[0064] 無相関ノイズは、空間処理システムのパフォーマンスを劣化させる。たとえば、ホワイトノイズ利得により、無相関ノイズの増幅が空間処理フィルタ中で発生することがある。無相関ノイズは、マイクロホンまたはセンサのすべてよりも少ない(たとえば、1つの)マイクロホンまたはセンサに特有であり、マイクロホンおよび/またはセンサもしくは回路ノイズへの直接的な風、(たとえば、ユーザの爪の)ひっかき、呼気または吹込みによるノイズを含むことができる。そのようなノイズは、特に低周波で現れる傾向がある。無相関ノイズが検出されたとき空間分離フィルタをオフにするかまたはバイパスし(たとえば、シングルチャネルモードに移行し)、および/または高域通過フィルタを用いて影響を受けている(1つまたは複数の)入力チャネルから無相関ノイズを除去するように装置A200を実装することが望ましい。]
[0065] 図27に、入力チャネル間で無相関であるノイズを検出するように構成された無相関ノイズ検出器30を含む装置A210の実装形態A210Aのブロック図を示す。無相関ノイズ検出器30は、無相関ノイズの検出および/またはそのような検出への応答の開示に限定した目的のために、参照により本明細書に組み込まれる、「SYSTEMS, METHODS, ANDAPPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する2008年8月29日に出願の米国特許出願第12/201,528号に開示された構成のいずれかに従って実装できる。この例では、装置A210Aは、無相関ノイズ検出器30が(たとえば、バイナリ値とすることができる検出指示S80によって)無相関ノイズの存在を示すとき、上述のシングルチャネルモードに入るように構成されたスイッチング機構368の実装形態368Aを含む。シングルチャネルモードの使用の代替(または追加)として、装置A210Aは、1つまたは複数のチャネルで無相関ノイズが検出されたときにのみフィルタをアクティブ化するように、入力チャネルのうちの1つまたは複数に調節可能な高域通過フィルタを使用して無相関ノイズを除去するように構成できる。] 図27
[0066] ボイス通信(たとえば、電話通信)のためのトランシーバ適用例では、「近端(near-end)」という用語は、(たとえば、マイクロホンからの)オーディオとして受信され、通信デバイスによって送信される信号を示すために使用され、「遠端」という用語は、通信デバイスによって受信され、(たとえば、デバイスの1つまたは複数のラウドスピーカを介した)オーディオとして再生される信号を示すために使用される。遠端信号アクティビティに応答して装置A200の実装形態の動作を変更することが望ましい。たとえば、特に全二重スピーカホンモード中またはヘッドセットでは、デバイスのラウドスピーカによって再生された遠端信号アクティビティは、デバイスのマイクロホンによってピックアップされて、入力信号S10上に現れて、最終的に配向状態推定器を混乱させることがある。そのような場合、遠端信号アクティビティの期間中に推定状態への更新を中断することが望ましい。図28に、(たとえば、通信デバイスの受信機部から受信された)遠端オーディオ信号S15に対するボイスアクティビティ検出器(VAD)20の実例70を含む装置A224の実装形態A224Aのブロック図を示す。ハンドセットの場合、全二重スピーカホンモード中に、および/または第2のスピーカSP20がアクティブであるときにVAD70をアクティブ化することができ、VAD70が生成する更新制御信号S75を使用して、VADが遠端スピーチアクティビティを指示するときに状態推定器の出力に対する変更を不能にするようにスイッチング機構を制御することができる。図28は、VAD20およびVAD70のうちの少なくとも一方がスピーチアクティビティを指示するとき推定状態S50の更新を中断するように構成されたスイッチング機構374の特定の実装形態374Aを示す。ヘッドセットの場合、通常動作中に(たとえば、デバイスの第1のスピーカが無音にされなければ)VAD70をアクティブ化することができる。] 図28
[0067] 空間分離フィルタF10−1〜F10−nのうちの1つまたは複数は、M個よりも少ないチャネルを有する信号を処理するように構成することが望ましい。たとえば、Mが2よりも大きい場合でさえ、入力チャネルのペアのみを処理するように空間分離フィルタのうちの1つまたは複数(場合によってはすべて)を構成することが望ましい。そのような構成を求める1つの考えられる理由は、M個のマイクロホンのうちの1つまたは複数の障害に耐性がある装置A200の実装形態を得るためである。別の考えられる理由は、通信デバイスのいくつかの動作構成では、M個のマイクロホンのうちの1つまたは複数を非アクティブ化するか、さもなければ無視するように装置A200を構成することができることである。]
[0068] 図29および図30に、Mが3に等しく、フィルタF14−1、F14−2、およびF14−3の各々が入力チャネルのペアを処理するように構成された装置A200の2つの実装形態を示す。図29は、フィルタF14−1、F14−2、およびF14−3の各々が、3つの入力チャネルS10−1、S10−2、およびS10−3の異なるペアを処理するように構成された装置A232のブロック図を示す。図30は、フィルタF14−1およびF14−2が入力チャネルS10−1およびS10−2を処理するように構成され、フィルタF14−3が入力チャネルS10−1およびS10−3を処理するように構成された装置A234のブロック図を示す。図31に、フィルタF14−1〜F14−6の各々が入力チャネルのペアを処理するように構成された装置A200の実装形態A236のブロック図を示す。] 図29 図30 図31
[0069] 装置A234において、スイッチング機構360は、入力チャネルS10−3に対応するマイクロホンが無音にされているかまたは障害のある動作構成のためにフィルタF14−1およびF14−2の中の一方を選択し、他のためにはフィルタF14−1およびF14−3の中の一方を選択するように構成できる。装置A236において入力チャネルS10−1〜S10−3の特定のペアが(たとえば、現在の動作構成に基づいて、または他の入力チャネルに関連するマイクロホンの故障に応答して)選択されている場合、スイッチング機構360は、入力チャネルのそのペアを受信するフィルタF14−1〜F14−6に対応する2つの状態の中からのみ選択するように構成できる。]
[0070] 通信装置のいくつかの動作モードでは、3つ以上の入力チャネルの中のペアの選択は、少なくとも部分的にヒューリスティックスに基づいて実行できる。たとえば、図2に示す従来の電話モードでは、電話機は、一般に、(入力チャネルのペアの固定的選択が適切となるように)変動が限定された制約付き方法で保持される。しかしながら、図3Aおよび図3B、または図4Aおよび図4Bに示すスピーカホンモードでは、多くの保持パターンが可能であり、したがって、すべての予想される使用配向における十分な分離を得るためには入力チャネルのペアの動的な選択が望ましい。] 図2 図3A 図3B 図4A 図4B
[0071] 通信デバイスの寿命期間中に、マイクロホン要素のうちの1つまたは複数が損傷するか、さもなければ故障することがある。上記のように、装置A200はマイクロホンのうちの1つまたは複数の故障に耐性があることが望ましい。スイッチング機構360は、それぞれ入力チャネルの異なるサブセットに対応する複数の状態推定方式を用いて構成できる。たとえば、様々な予想される障害シナリオの各々に対して(たとえば、あらゆる可能な障害シナリオに対して)状態推定ロジックを設けることが望ましい。]
[0072] 状態推定器400は、インジケータ関数の値を可能な配向状態のセットにマッピングすることによって推定状態指示S50を生成するように実装することが望ましい。たとえば、装置A200の2フィルタの実装形態A220では、分離測定を単一のインジケータに圧縮し、そのインジケータの値を、可能な配向状態のセットのうちの対応する1つにマッピングすることが望ましい。1つのそのような方法は、各フィルタの分離測定を計算し、2つの測定を使用してインジケータ関数を評価し、そのインジケータ関数値を可能な状態のセットにマッピングすることを含む。]
[0073] 図14A〜図14Dを参照しながら上述したものを含むいかなる分離測定でも使用することができる(たとえば、エネルギー差、相関、TDOA)。一例では、フィルタバンク130のそれぞれの空間分離フィルタF14−1およびF14−2に対する分離測定Z1およびZ2の各々は、以下のように、フィルタの出力のエネルギーの差として計算され、各チャネルのエネルギーは、20ミリ秒フレームにわたる2乗サンプルの合計として計算できる:Z1=e11−e12、Z2=e21−e22。ここで、e11、e12、e21、e22はそれぞれ、対応するフレームにわたるチャネルS2011、S2021、S2012、およびS2022のエネルギーを示す。次いでインジケータ関数を、たとえば、Z1−Z2のように2つの分離測定の差として計算することができる。] 図14A 図14B 図14C 図14D
[0074] インジケータ関数を評価する前に、対応するフィルタ入力チャネルのうちの1つまたは複数に従って各分離測定をスケーリングすることが望ましい。たとえば、対応するフレームにわたる以下の式のうちの1つの値の合計などのファクタに従って測定Z1およびZ2の各々をスケーリングすることが望ましい:|x1|、|x2|、|x1|+|x2|、|x1+x2|、|x1x2|。ここで、x1、x2はそれぞれ入力チャネルS10−1およびS10−2の値を示す。]
[0075] 分離測定に対して異なるスケールファクタを使用することが望ましい。1つのそのような例では、フィルタF14−1は、チャネルS10−1に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応し、フィルタF14−2は、チャネルS10−2に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応する。この場合、フレームにわたる|x1|の合計に基づくファクタに従って分離測定Z1をスケーリングし、フレームにわたる|x2|の合計に基づくファクタに従って分離測定Z2をスケーリングすることが望ましい。この例では、分離測定Z1は]
[0076] のような式に従って計算し、分離測定Z2は]
[0077] のような式に従って計算できる。]
[0078] スケールファクタは、他の方向ではなく一方向においてより強く分離測定の値に影響を及ぼすことが望ましい。たとえば、最大差に基づく分離測定の場合、スケールファクタは、入力ボリュームが小さいときに分離測定の値を過度に増大させることなく、大きい入力チャネルボリュームに応答して分離測定の値を低減させることが望ましい。(最小差に基づく分離測定の場合は、反対の効果が望ましい。)1つのそのような例では、分離測定Z1およびZ2は、以下のような式に従って計算される:]
[0079] 、およびTsはしきい値である。]
[0080] 図32Aに、インジケータ関数値(たとえば、Z1−Z2)を3つの可能な配向状態のセットにマッピングする一例を示す。この値が第1のしきい値T1未満である場合、(第1のフィルタに対応する)状態1が選択される。この値が第2のしきい値T2を上回る場合、(第2のフィルタに対応する)状態3が選択される。この値がそれらのしきい値の間にある場合、(いずれのフィルタにも対応しない、すなわち、シングルチャネルモードの)状態3が選択される。典型的な場合、しきい値T1とT2は反対の極性を有する。図32Bに、遷移がどちらの方向に進んでいるかに応じて状態間の遷移を制御するのに異なるしきい値T1A、T1BおよびT2A、T2Bを使用するマッピングの別の例を示す。そのようなマッピングを使用して、配向の小さい変化によるジッタを低減し、および/または重複エリアにおける不必要な状態遷移を少なくすることができる。] 図32A 図32B
[0081] 上述のインジケータ関数方式は、たとえば、ペアの選択された状態を得るようにチャネルの各ペアを処理し、次いで全体的に最も多い得票を有する状態を選択することによって装置A200の3チャネル(またはMチャネル)の実装形態に拡張することもできる。]
[0082] 上記のように、フィルタバンク130は、フィルタF14−2の係数値行列がフィルタF14−1の対応する係数値行列に関して反転されるように実装できる。この特定の場合、上述のインジケータ関数値は]
[0083] のような式に従って計算できる。ここで、β1は前述の値を有する。]
[0084] 図33Aに、出力信号S40の追加の空間処理(たとえば、スピーチ成分とノイズ成分のさらなる分離)を実行してさらなる出力信号S42を生成するように構成された適応フィルタ450と装置A210を組み合わせる装置A200の実装形態A310のブロック図を示す。これらの成分フィルタの各々が、フィルタバンク120中のフィルタのうちの1つに対応し推定状態指示S50に従って選択できるように、適応フィルタ450は、複数の適応フィルタを含むように実装することが望ましい。たとえば、適応フィルタ450のそのような実装は、成分フィルタのうちの1つの出力を信号S42として選択し、および/またはマージ間隔中に成分フィルタのうちの2つ以上の出力を混合して、推定状態指示S50に従って信号S42を得るように構成された遷移制御モジュール500に類似する選択機構または混合機構を含むことができる。] 図33A
[0085] 適応フィルタ450(あるいは、その成分フィルタのうちの1つまたは複数、場合によってはすべて)は、本明細書で説明するように1つまたは複数のBS、ビームフォーミング、および/または結合BS/ビームフォーミング方法に従って、あるいは特定の適用例に適した任意の他の方法に従って構成できる。初期条件のセットをもつ適応フィルタ450を構成することが望ましい。たとえば、成分フィルタのうちの少なくとも1つが0以外の初期状態を有することが望ましい。そのような状態は、フィルタバンク120の対応するフィルタを使用してトレーニング信号のセットをフィルタ処理することによって得られるフィルタ処理済み信号への収束の状態に成分フィルタをトレーニングすることによって計算できる。典型的な生成適用例では、成分フィルタとフィルタバンク120の対応するフィルタとの参照実例を使用して初期状態(すなわち、フィルタ係数の初期値のセット)を生成し、次いでその初期状態は、適応フィルタ450の成分フィルタに記憶される。初期状況の生成はまた、「SYSTEMS, METHODS, ANDAPPARATUS FOR SIGNALSEPARATION」と題する2008年8月25日に出願の米国特許出願第12/197,924号の段落[00130]〜[00134](「For a configuration that includes」で開始し「during online operation」で終了する)に記載されており、それらの段落は、フィルタトレーニングの開示に限定した目的のために、参照により本明細書に組み込まれる。トレーニングを介したフィルタ状態の生成についても以下でより詳細に説明する。]
[0086] 装置A200はまた、空間処理済み信号のスペクトル処理を実行するように構成された1つまたは複数のステージを含むように実装できる。図33Bに、装置A210をノイズ低減フィルタ460と組み合わせる装置A200の実装形態A320のブロック図を示す。ノイズ低減フィルタ460は、ノイズチャネルS40−2上の信号をノイズ基準として適用して、スピーチ信号S40−1中のノイズを低減し、対応するフィルタ処理済みスピーチ信号S45を生成するように構成される。ノイズ低減フィルタ460は、フィルタ係数値が、分離されたチャネルからの信号およびノイズ電力情報に基づくウィーナーフィルタとして実装できる。そのような場合、ノイズ低減フィルタ460は、ノイズ基準(あるいは出力チャネルS40が3つ以上のチャネルを有するより一般的な場合は、1つまたは複数のノイズ基準)に基づいてノイズスペクトルを推定するように構成できる。代替的に、ノイズ低減フィルタ460は、1つまたは複数のノイズ基準からのスペクトルに基づいてスピーチ信号に対してスペクトル減算演算を実行するように実装できる。代替的に、ノイズ低減フィルタ460は、ノイズ共分散が1つまたは複数のノイズ基準に基づくカルマンフィルタとして実装できる。] 図33B
[0087] ノイズ低減フィルタ460は、非スピーチ間隔のみの間にスペクトルおよびまたは共分散などのノイズ特性を推定するように構成することが望ましい。そのような場合、ノイズ低減フィルタ460は、ボイスアクティビティ検出(VAD)動作を含むかまたは装置もしくはデバイス内で他の方法によって実施されるそのような動作の結果を使用して、スピーチ間隔中にノイズ特性の推定を不能にする(代替的に、ノイズのみ間隔中のみでそのような推定を可能にする)ように構成できる。図33Cに、適応フィルタ450とノイズ低減フィルタ460の両方を含む装置A310およびA320の実装形態A330のブロック図を示す。この場合、ノイズ低減フィルタ460は、ノイズチャネルS42−2上の信号をノイズ基準として適用して、スピーチ信号S42−1中のノイズを低減して、フィルタ処理済みスピーチ信号S45を生成するように構成される。] 図33C
[0088] 装置A200の実装形態は、通信デバイスの他の要素が出力信号S40またはS45に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。この場合、(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分内に含めることができる)シングルチャネルノイズ低減モジュールの実装など、装置A200とデバイスの任意の他のノイズ低減要素との間に起こりうる相互作用をなくすことが望ましい。]
[0089] そのような場合、残差バックグラウンドノイズの量および/または品質を調整することが望ましい。たとえば、装置A200のマルチチャネルフィルタは、シングルチャネルノイズ低減モジュールの予想されるノイズ入力レベルに対して、あまりにアグレッシブなことがある。出力信号S40中に残っているノイズの振幅および/またはスペクトルシグナチャに応じて、シングルチャネルノイズ低減モジュールはより多くのひずみ(たとえば、急激に変化する残差、音楽ノイズ)を発生させることがある。そのような場合、結合ノイズ低減方式の出力に応答して何らかのフィルタ処理済み快適ノイズを出力信号S40に加え、および/または1つまたは複数のパラメータ設定を調整することが望ましい。]
[0090] シングルチャネルノイズ低減法は、一般に、ノイズ低減演算をサポートするのに使用される参照情報を提供するのにノイズおよびボイスデータの多少延長された期間の獲得を必要とする。この獲得期間は、可観測性ノイズ除去において遅延を生じさせる傾向がある。そのような方法と比較して、ここで提示するマルチチャネル方法は、バックグラウンドノイズからのユーザボイスの分離により、比較的即時のノイズ低減を行うことができる。したがって、シングルチャネルノイズ低減モジュールの動的機能に関してマルチチャネル処理ステージのアグレッシブネス設定の適用のタイミングを最適化することが望ましい。]
[0091] 推定状態指示S50の変更に応答して、後続の処理ステージにおいてパラメータ変更を実施することが望ましい。また、装置A200は、特有のパラメータ変更および/または推定配向状態に関連できるタイミングキューおよび/またはハングオーバ論理回路における変更を始動することが望ましい。たとえば、一定の延長された推定期間は、状態推定知識の信頼度を十分なものにするのに役立つので、推定状態指示S50の変更後に少しの期間だけアグレッシブな後処理ステージを遅延させることが望ましい。]
[0092] 配向状態が変化すると、現在のノイズ基準は後続の空間および/またはスペクトル処理演算にはもはや適切でなくなることがあり、状態遷移中にこれらのステージをよりアグレッシブでないようにすることが望ましい。たとえば、遷移位相中にスイッチング機構350が現在のノイズチャネル出力を減衰させることが望ましい。ハングオーバ論理回路600は、そのような演算を実施するように実装できる。1つのそのような例では、ハングオーバ論理回路600は、現在の推定状態と以前の推定状態との間の不一致を検出し、そのような検出に応答して現在のノイズチャネル出力(たとえば、装置A210のチャネルS40−2)を減衰させるように構成される。(漸進的または即時とすることができる)そのような減衰は、大幅なものに(たとえば、75または80パーセントなど、50または60パーセントから80または90パーセントまでの範囲内の量だけに)することができる。また、新しいスピーチおよびノイズチャネルへの(たとえば、両方とも通常ボリュームの)遷移を、本明細書で(たとえば、遷移制御モジュール550を参照しながら)説明したように実施することができる。図34に、チャネルペアS2011とS2012からチャネルペアS2021とS2022に遷移中の減衰方式の一例における、スピーチチャネルS2011、S2021およびノイズチャネルS2012、S2022の時間の変化に伴う相対的な利得レベルを示す。] 図34
[0093] また、推定状態指示S50に従って1つまたは複数の下流の演算を制御することが望ましい。たとえば、推定状態指示S50に従って初期条件の対応するセットを(たとえば、図33Aおよび図33Cに示す)下流の適応フィルタに適用することが望ましい。そのような場合、上述のように推定状態指示S50に従って適応フィルタ450の成分フィルタを選択し、成分フィルタをその初期状態にリセットすることが望ましい。初期条件のあるセットから別のセットへの、またはある成分フィルタから別の成分フィルタへの遷移中は、ハングオーバ論理回路600を参照しながら上述したのと類似する方法で現在のノイズチャネル出力(たとえば、S42−2)を減衰させることが望ましい。また、装置A200のシングルチャネル動作中は、下流の適応空間処理フィルタなどの(たとえば、図33A〜図33Cに示す)デバイスの他の空間処理演算を不能にすることが望ましい。] 図33A 図33B 図33C
[0094] いくつかの方向に対するシステムノイズ低減性能の若干の感度が(たとえば、通信デバイス上のマイクロホン配置により)発生することがある。特定の適用例に適したマイクロホンの構成を選択することによって、および/またはノイズ間隔の選択的マスキングを使用することによって、そのような感度を下げることが望ましい。そのようなマスキングは、(たとえば、本明細書で説明したVADを使用して)ノイズのみ時間間隔を選択的に減衰させることによって、または後続のシングルチャネルノイズ低減モジュールが残差ノイズ乱れを除去するのを可能にするために快適ノイズを加えることによって達成できる。]
[0095] 図35Aに、遠端オーディオ信号S15に基づいて入力信号S10からエコーを消去するように構成されたエコーキャンセラEC10を含む装置A200の実装形態A210Bのブロック図を示す。この例では、エコーキャンセラEC10は、フィルタバンク120によって入力として受信されたエコー消去済み信号S10aを生成する。装置A200はまた、遠端オーディオ信号S15に基づいて出力信号S40からエコーを消去するように構成されたエコーキャンセラEC10の実例を含むように実装できる。いずれの場合も、スピーカホンモードでの通信デバイスの動作中および/またはPTTモードでの通信デバイスの動作中はエコーキャンセラEC10を使用不能にすることが望ましい。] 図35A
[0096] 図35Bに、シングルチャネルエコーキャンセラEC20の2つの実例EC20aおよびEC20bを含むエコーキャンセラEC10の実装形態EC12のブロック図を示す。この例では、エコーキャンセラEC20の各実例は、入力チャネルI1、I2のセットのうちの一方を処理して出力チャネルO1、O2のセットのうちの対応する1つを生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技術(たとえば、最小2乗平均技術)に従ってエコーキャンセラEC20の様々な実例をそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第12/197,924号の段落[00139]−[00141](「An apparatus」で開始し「B500」で終了する)で論じられており、それらの段落は、装置の他の要素の設計、実装、および/または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。] 図35B
[0097] 図35Cに、遠端信号S15をフィルタ処理するように構成されたフィルタCE10と、処理中の入力チャネルとフィルタ処理済み遠端信号を組み合わせるように構成された加算器CE20とを含むエコーキャンセラEC20の実装形態EC22のブロック図を示す。フィルタCE10のフィルタ係数値は固定および/または適応型とすることができる。遠端オーディオ信号を再生するように通信デバイスの参照実例によって記録されたマルチチャネル信号のセットを使用して(たとえば、以下でより詳細に説明するように)フィルタCE10の参照実例をトレーニングすることが望ましい。] 図35C
[0098] 装置A210Bの実装形態は、通信デバイスの他の要素(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分)が出力信号S40に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。エコーキャンセラを装置A200の実装形態中に含めるように設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ(たとえば、MSMチップまたはチップセットのエコー消去モジュール)との間の起こりうる相乗効果を考慮に入れることが望ましい。]
[0099] 図36に、本明細書で説明する装置A200(または以下で説明する装置A100)の実装形態を含むデバイスの設計および使用中に従われる手順のフローチャートを示す。設計段階では、トレーニングデータを使用して固定フィルタセット(たとえば、フィルタバンク100のフィルタのフィルタ係数値)を決定し、対応するユーザハンドセット状態を、電流配向状態の(たとえば、本明細書で説明するスイッチング機構による)オンライン推定と、電流状況に適した固定フィルタセットの選択とを可能にするように特徴づける。トレーニングデータは、通信デバイス(たとえば、ハンドセットまたはヘッドセット)の参照実例を使用して様々なユーザデバイス音響シナリオにおいて記録される、ノイズの多いスピーチサンプルのセットである。(無響室において実行される)そのような記録の前に、(周波数とともに変化する)参照デバイスのM個のマイクロホンの利得の比が所望の範囲内にあることを確認するために較正を実行することが望ましい。参照デバイスを使用して固定フィルタセットが決定されると、本明細書で説明する装置の実装形態を含む通信デバイスのプロダクション実例に、それらの固定フィルタセットがコピーされる。] 図36
[0100] 図37に、フィルタバンク100の空間分離フィルタの1つまたは複数を特徴づける係数値を得るために使用できる設計方法M10のフローチャートを示す。方法M10は、マルチチャネルトレーニング信号のセットを記録するタスクT10と、トレーニング信号のセットをサブセットに分割するタスクT20とを含む。方法M10はまた、タスクT30とT40とを含む。サブセットの各々について、タスクT30は、収束のために対応する空間分離フィルタをトレーニングする。タスクT40は、トレーニングされたフィルタの分離性能を評価する。タスクT20、T30、およびT40は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。タスクT40において容認できる結果が得られるまで、方法M10のタスクの1つまたは複数を繰り返す。方法M10の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、空間分離フィルタの設計、トレーニング、および/または評価に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, ANDAPPARATUS FOR SIGNALSEPARATION」と題する米国特許出願第12/197,924号に記載されている。] 図37
[0101] タスクT10は、少なくともK個のマイクロホンのアレイを使用して、Kチャネルトレーニング信号のセットを記録する。ここで、Kは、少なくともMに等しい整数である。トレーニング信号の各々は、スピーチ成分とノイズ成分の両方を含み、各トレーニング信号は、P個のシナリオの1つの下で記録される。ここで、Pは、2に等しい場合があるが、一般に1よりも大きい任意の整数である。以下で説明するように、P個のシナリオの各々は、様々な空間特徴(たとえば、様々なハンドセットまたはヘッドセット配向)および/または様々なスペクトル特徴(たとえば、様々な特性を有する音源の捕捉)を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、P個のシナリオのうちの異なる1つの下でそれぞれ記録される少なくともP個のトレーニング信号を含む。]
[0102] Kチャネルトレーニング信号のセットの各々は、少なくとも1つの情報ソースおよび少なくとも1つの干渉ソースに応答してK個のマイクロホンのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、ノイズの多い環境でのスピーチの記録であることが望ましい。K個のチャネルの各々は、K個のマイクロホンのうちの対応する1つの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、8kHzから16kHzにわたる。]
[0103] 本明細書で説明する装置A200の他の要素を含んでいる同じ通信デバイスを使用してタスクT10を実行することが可能である。しかしながら、より一般的には、タスクT10は、通信デバイス(たとえば、ハンドセットまたはヘッドセット)の参照実例を使用して実行されるであろう。方法M10によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様の通信デバイスの他の実例(たとえば、各そのようなプロダクション実例のフラッシュメモリ)にロードされる。]
[0104] そのような場合、通信デバイス(「参照デバイス」)の参照実例は、K個のマイクロホンのアレイを含む。参照デバイスのマイクロホンは、通信デバイスのプロダクション実例(「プロダクションデバイス」)の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロホンは、プロダクションデバイスのモデルと同じ1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、1つまたは複数の低位の(すなわち、音響的に重要でない)態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置A200の要素を含む必要はない。]
[0105] 同じK個のマイクロホンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の1つを記録するために使用されるK個のマイクロホンのセットは、トレーニング信号のもう1つを記録するために使用されるK個のマイクロホンのセットとは(マイクロホンの1つまたは複数において)異なることが望ましい。たとえば、マイクロホンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロホンアレイの異なる実例を使用することが望ましい。1つのそのような場合には、Kチャネルトレーニング信号のセットは、参照デバイスの少なくとも2つの異なる実例を使用して記録された信号を含む。]
[0106] P個のシナリオの各々は、少なくとも1つの情報ソースと少なくとも1つの干渉ソースとを含む。一般に、各情報ソースは、スピーチ信号または楽音信号を再生するラウドスピーカであり、各干渉ソースは、別のスピーチ信号または典型的な予想される環境からの周囲のバックグラウンドサウンド、またはノイズ信号などの干渉側音響信号を再生するラウドスピーカである。使用できるラウドスピーカの様々なタイプには、動電型(たとえば、ボイスコイル)スピーカ、圧電型スピーカ、静電型スピーカ、リボンスピーカ、平面磁気スピーカなどがある。1つのシナリオまたは適用例において情報ソースとして働くソースは、異なるシナリオまたは適用例において干渉ソースとして働くことができる。P個のシナリオの各々におけるK個のマイクロホンからの入力データの記録は、Kチャネルテープレコーダ、Kチャネルサウンドの記録または捕捉機能をもつコンピュータ、あるいは(たとえば、サンプリング解像度のオーダー内で)同時にK個のマイクロホンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。]
[0107] 音響無響室は、Kチャネルトレーニング信号のセットを記録するために使用できる。図38に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、Head and Torso Simulator(HATS、デンマーク、Naerum、Bruel&Kjaer製)は、干渉ソース(すなわち、4つのラウドスピーカ)の内向きアレイ内に配置される。HATSの頭部は、代表的な人間の頭部と音響的に同様であり、スピーチ信号を再生するために口部にラウドスピーカを含む。干渉ソースのアレイは、図示のようにHATSを囲む拡散ノイズフィールドを生成するように駆動できる。1つのそのような例では、ラウドスピーカのアレイは、HATS耳参照ポイントまたは口参照ポイントにおいて75〜78dBの音圧レベルでノイズ信号を再生するように構成される。他の場合には、1つまたは複数のそのような干渉ソースは、様々な空間分布を有するノイズフィールド(たとえば、指向性ノイズフィールド)を生成するように駆動できる。] 図38
[0108] 使用できるノイズ信号のタイプは、(たとえば、ニュージャージー州Piscataway、米国電気電子学会(IEEE)によって公表されたIEEE規格269−2001、「Draft Standard Methodsfor Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように)ホワイトノイズ、ピンクノイズ、グレーノイズ、Hothノイズを含む。使用できる他のタイプのノイズ信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。]
[0109] P個のシナリオは、少なくとも1つの空間および/またはスペクトル特徴に関して互いに異なる。ソースおよびマイクロホンの空間構成は、少なくとも以下の方法、すなわち、他の1つまたは複数のソースに対するソースの配置および/または配向と、他の1つまたは複数のマイクロホンに対するマイクロホンの配置および/または配向と、マイクロホンに対するソースの配置および/または配向と、ソースに対するマイクロホンの配置および/または配向とのうちの任意の1つまたは複数でシナリオごとに異なることができる。P個のシナリオの中の少なくとも2つは、セットの中のマイクロホンまたはソースの少なくとも1つが、1つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロホンおよびソースのセットに対応することができる。たとえば、P個のシナリオの中の少なくとも2つは、ユーザの口などの情報ソースに対する、K個のマイクロホンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約(たとえば、デバイス上のマイクロホンのロケーション)、デバイスの予測される使用パターン(たとえば、典型的な予想されるユーザの保持姿勢)、および/または異なるマイクロホン位置および/またはアクティブ化(たとえば、3つ以上のマイクロホンの中の異なるペアをアクティブにすること)を含むことができる。]
[0110] シナリオごとに異なることがあるスペクトル特徴は、少なくとも1つのソース信号のスペクトル成分(たとえば、異なるボイスからのスピーチ、異なる色のノイズ)と、マイクロホンの1つまたは複数の周波数応答とを少なくとも含む。上述の1つの特定の例では、シナリオの少なくとも2つは、マイクロホンの少なくとも1つに関して異なる(言い換えれば、1つのシナリオにおいて使用されるマイクロホンの少なくとも1つの代わりに、他のシナリオでは別のマイクロホンを使用するか、または全く使用しない)。そのような変動は、マイクロホンの周波数応答および/または位相応答の変化の予想される範囲にわたってロバストであり、および/またはマイクロホンの障害に対してロバストであるソリューションをサポートするために望ましい。]
[0111] 別の特定の例では、シナリオの少なくとも2つは、バックグラウンドノイズを含み、バックグラウンドノイズのシグナチャ(すなわち、周波数および/または時間にわたるノイズの統計値)に関して異なる。そのような場合、干渉ソースは、P個のシナリオの1つでは、1つの色(たとえば、白、ピンク、またはHoth)またはタイプ(たとえば、道路のノイズ、バブルのノイズ、または車のノイズの再生)のノイズを放出し、P個のシナリオのもう1つでは、別の色またはタイプのノイズ(たとえば、1つのシナリオではバブルのノイズ、および別のシナリオでは道路および/または車のノイズ)を放出するように構成することができる。]
[0112] P個のシナリオの少なくとも2つは、実質的に異なるスペクトル成分を有する信号を生成する情報ソースを含むことができる。スピーチ適用例では、たとえば、2つの異なるシナリオにおける情報信号は、互いに10パーセント、20パーセント、30パーセント、さらには50パーセント以上異なる平均ピッチ(すなわち、シナリオの長さにわたる)を有する2つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の1つまたは複数のソースの出力振幅に対するソースの出力振幅である。シナリオごとに異なることがある別の特徴は、他の1つまたは複数のマイクロホンの利得感度に対するマイクロホンの利得感度である。]
[0113] 以下で説明するように、Kチャネルトレーニング信号のセットは、タスクT30においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約1/2または1秒〜約5または10秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべきサウンドファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、10、30、45、60、75、90、100、および120秒を含む。]
[0114] 近距離シナリオ(たとえば、通信デバイスがユーザの口の近くに保持されるとき)では、遠距離シナリオ(たとえば、デバイスがユーザの口から遠くに保持されるとき)とは異なる振幅と遅延との関係が、マイクロホン出力間に存在することがある。P個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。以下に示すように、タスクT30は、異なるフィルタをトレーニングするために、近距離および遠距離シナリオからのトレーニング信号を使用するように構成できる。]
[0115] P個の音響シナリオの各々では、(ITU−T勧告P.50、国際電気通信連合、スイス、ジュネーブ、1993年3月に記載されているように)ユーザの口の人工スピーチ、および/または(「IEEE Transactions on Audio and Electroacoustics」、第17巻、227〜46ページ、1969年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように)Harvard Sentenceの1つまたは複数などの標準化された語彙を発しているボイスから複製することによって、情報信号をK個のマイクロホンに供給することができる。1つのそのような例では、スピーチは、89dBの音圧レベルでHATSの口部ラウドスピーカから再生される。P個のシナリオの少なくとも2つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、P個のシナリオの少なくとも2つは、(たとえば、異なるマイクロホンに応答した変動に対してロバストである収束ソリューションをサポートするために)参照デバイスの異なる実例を使用することができる。]
[0116] 適用例の1つの特定のセットでは、K個のマイクロホンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロホンである。図1Aおよび図1Bは、そのようなデバイスの2つの異なる動作構成を示し、図2〜図4Bは、これらの構成のための様々な異なる配向状態を示す。2つ以上のそのような配向状態を、P個のシナリオのうちの異なるシナリオにおいて使用することができる。たとえば、Kチャネルトレーニング信号の1つは、これらの2つの配向の一方においてマイクロホンによって生成される信号に基づき、Kチャネルトレーニング信号のもう1つは、これらの2つの配向の他方においてマイクロホンによって生成される信号に基づくことが望ましい。] 図1A 図1B 図2 図3A 図3B 図4A 図4B
[0117] (たとえば、各構成について収束フィルタ状態の別々のセットを得るために)デバイスの異なる動作構成の各々に対して方法M10の別々の実例を実行することも可能である。そのような場合、装置A200は、実行時に収束フィルタ状態の様々なセット(すなわち、フィルタバンク100の異なる実例)の中で選択するように構成できる。たとえば、装置A200は、デバイスが開いているか閉じているかを指示するスイッチの状態に対応するフィルタ状態のセットを選択するように構成できる。]
[0118] 適用例の別の特定のセットでは、K個のマイクロホンは、有線またはワイヤレスイヤホンあるいは他のヘッドセットのマイクロホンである。図9は、本明細書で説明する、そのようなヘッドセットの一例63を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例を参照しながら説明したように情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。図9にヘッドセット取り付け可変性66によって示すように、P個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離性能に悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のKチャネルトレーニング信号の1つは、ヘッドセットが、取り付け角度の予想される範囲の1つの極値またはその近くの角度で耳65に取り付けられるシナリオに基づき、Kチャネルトレーニング信号のもう1つは、ヘッドセットが、取り付け角度の予想される範囲の他の極値またはその近くの角度で耳65に取り付けられるシナリオに基づくことが望ましい。P個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する1つまたは複数の配向を含むことができる。] 図9
[0119] 適用例のさらなるセットでは、K個のマイクロホンは、ハンズフリー車キットに設けられたマイクロホンである。図39に、ラウドスピーカ85がマイクロホンアレイ84に対して直角に配設された、そのような通信デバイス83の一例を示す。そのようなデバイスのためのP個の音響シナリオは、上記でハンドセット適用例を参照しながら説明したように、情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。たとえば、図40に示すように、2つ以上のP個のシナリオは、マイクロホンアレイに対する所望のスピーカの配置において異なることができる。P個のシナリオの1つまたは複数はまた、ラウドスピーカ85から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および/または周波数的に異なるシグナチャ(たとえば、実質的に異なるピッチ周波数)を有する音楽および/またはボイスなど、ラウドスピーカ85から再生される干渉信号を含むことができる。そのような場合、方法M10は、所望のスピーチ信号から干渉信号を分離する少なくとも1つのフィルタ状態を生成することが望ましい。P個のシナリオの1つまたは複数はまた、上述のように拡散または指向性ノイズフィールドなどの干渉を含むことができる。] 図39 図40
[0120] 適用例のさらなるセットでは、K個のマイクロホンは、ペン、スタイラス、または他の描画デバイス内に設けられたマイクロホンである。図41に、先端から到着し、先端と描画面81との間の接触によって起こるスクラッチノイズ82に対してマイクロホン80が縦形構成で配設された、そのようなデバイス79の一例を示す。そのような通信デバイスのためのP個のシナリオは、上記で適用例を参照しながら説明したように情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。追加または代替として、異なるシナリオは、スクラッチノイズ82の異なる実例(たとえば、時間および/または周波数に関して異なるシグナチャを有する)を誘発するために、異なる表面上でデバイス79の先端を引くことを含むことができる。上述のようにハンドセットまたはヘッドセット適用例に比較して、そのような適用例では、方法M10は、情報ソース(すなわち、ユーザのボイス)ではなく干渉ソース(すなわち、スクラッチノイズ)を分離するフィルタ状態のセットを生成することが望ましい。そのような場合、分離された干渉は、後の処理ステージで所望の信号から除去できる(たとえば、本明細書で説明するようにノイズ基準として適用できる)。] 図41
[0121] 方法M10によって生成される収束フィルタソリューションのセットの空間分離特性(たとえば、様々なビームパターンの形状および配向)は、タスクT10においてトレーニング信号を収集するために使用されるマイクロホンの相対特性に敏感であることがある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのK個のマイクロホンの利得を互いに対して較正することが望ましい。また、プロダクション中および/またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロホンの利得を互いに対して較正することが望ましい。]
[0122] 個々のマイクロホン素子が音響的にうまく特徴づけられたとしても、素子を通信デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロホン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロホンアレイを通信デバイスに設置した後に、マイクロホンアレイのそのような較正を実行することが望ましい。]
[0123] マイクロホンのアレイの較正は特殊なノイズフィールド内で実行でき、通信デバイスは、そのノイズフィールド内に特定の方法で配向される。図42に、両方のマイクロホン(それぞれ全方向または単方向とすることができる)が同じSPLレベルに等しく露出されるように、2点のソースノイズフィールドに置かれた2つのマイクロホンハンドセットの例を示す。プロダクションデバイス(たとえば、ハンドセット)の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、マルチマイクロホンデバイスの較正に限定した目的のために、参照により本明細書に組み込まれる、2008年6月30日に出願された、「SYSTEMS, METHODS, ANDAPPARATUS FORCALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第61/077,144号に記載されている。参照デバイスのマイクロホンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および/またはマイクロホン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロホンを較正することも望ましい。] 図42
[0124] プロダクションデバイスのマイクロホンと参照デバイスのマイクロホンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室において実験室手順を使用して参照デバイスを較正すること、および工場の現場で(たとえば、上記で組み込まれる米国特許出願第61/077,144号に記載されているように)ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得マッチング手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、マイクロホン較正の技法および/または実装の説明に限定された目的のために、参照により本明細書に組み込まれる、2008年6月2日に出願された、「SYSTEMAND METHODFOR AUTOMATIC GAIN MATCHING OF A PAIR OFMICROPHONES」と題する米国仮特許出願第61/058,132号に記載されている。]
[0125] プロダクションデバイスのマイクロホンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構造は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント(たとえば、ユーザ選択)時に、1つまたは複数のマイクロホン周波数特性および/または感度(たとえば、マイクロホン利得間の比)を一致させるように構成された較正ルーチンを通信デバイス内に含むことが望ましい。そのような手順の例は、上記で組み込まれる米国仮特許出願第61/058,132号に記載されている。]
[0126] P個のシナリオの1つまたは複数は、指向性干渉ソースを与えるために、(たとえば、標準化された語彙を発する人工スピーチおよび/またはボイスによって)通信デバイスの1つまたは複数のラウドスピーカを駆動することを含むことができる。1つまたは複数のそのようなシナリオを含むことは、遠端オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの1つまたは複数のラウドスピーカは、プロダクションデバイスのモデルと同じ、1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図1Aに示す動作構成では、そのようなシナリオは第1のスピーカSP10を駆動することを含むことができ、図1Bに示す動作構成では、そのようなシナリオは第2のスピーカSP20を駆動することを含むことができる。シナリオは、たとえば、図38に示す干渉ソースのアレイによって生成される拡散ノイズフィールドの追加または代替として、そのような干渉ソースを含むことができる。] 図1A 図1B 図38
[0127] 代替または追加として、方法M10の実例は、上述のようにエコーキャンセラEC10のための1つまたは複数の収束フィルタセットを得るために実行できる。エコーキャンセラがフィルタバンク100の上流にある場合には、トレーニング信号の記録中にエコーキャンセラのトレーニングされたフィルタをフィルタバンク100に対して使用できる。エコーキャンセラがフィルタバンク100の下流にある場合には、トレーニング信号の記録中にフィルタバンク100のトレーニングされたフィルタをエコーキャンセラに対して使用できる。]
[0128] 無響室内に配置されたHATSを、タスクT10においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカを所望のスピーチ生成ソースの代わりに使用することができる。そのような場合、(たとえば、可聴周波数の所望の範囲にわたるフィルタ係数行列をより良く調整するために)少なくともある量のバックグラウンドノイズを使用することが望ましい。デバイスの使用より前および/または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロホンから口までの典型的な距離など、通信デバイスのユーザの特徴に基づいて、および/または予想される使用環境に基づいて個人化できる。一連の予め設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。]
[0129] タスクT20は、トレーニング信号のQ個のサブセットを得るためにトレーニング信号のセットの各々を分類し、Qは、タスクT30においてトレーニングすべきフィルタの数に等しい整数である。分類を各トレーニング信号のすべてのK個のチャネルに基づいて実行することができ、または分類を各トレーニング信号のK個のチャネルのすべてよりも少数のチャネルに限定することができる。KがMよりも大きい場合、たとえば、分類を各トレーニング信号のM個のチャネルの同じセット(すなわち、トレーニング信号を記録するために使用されたアレイのM個のマイクロホンの特定のセットから開始したチャネルのみ)に限定することが望ましい。]
[0130] 分類基準は先験的知識および/または発見的方法を含むことができる。1つのそのような例では、タスクT20は、トレーニング信号が記録されたシナリオに基づいて、各トレーニング信号を特定のサブセットに割り当てる。タスクT20では、近距離シナリオからのトレーニング信号を、遠距離シナリオからのトレーニング信号とは異なる1つまたは複数のサブセットに分類することが望ましい。別の例では、タスクT20は、トレーニング信号の2つ以上のチャネルの相対エネルギーに基づいてトレーニング信号を特定のサブセットに割り当てる。]
[0131] 代替または追加として、分類基準は、トレーニング信号を空間的に処理するために1つまたは複数の空間分離フィルタを使用することによって得られる結果を含むことができる。そのような1つまたは複数のフィルタは、タスクT30の前の反復によって生成される対応する1つまたは複数の収束フィルタ状態に従って構成できる。代替または追加として、1つまたは複数のそのようなフィルタは、本明細書で説明するようにビームフォーミングまたは結合BSS/ビームフォーミング方法に従って構成できる。たとえば、タスクT20では、Q個の空間分離フィルタのどれが信号のスピーチおよびノイズ成分の最良の分離を生成すると考えられるかに基づいて(たとえば、図14A〜図14Dを参照しながら上記で説明した基準に従って)、各トレーニング信号を分類することが望ましい。] 図14A 図14B 図14C 図14D
[0132] タスクT20がトレーニング信号のすべてをQ個のサブセットに分類することができない場合、Qの値を増加させることが望ましい。代替的に、分類タスクT20の別の反復を実行する前に、トレーニング信号の新しいセットを得るため、分類基準の1つまたは複数を変更するため、および/または各トレーニング信号のM個のチャネルの異なるセットを選択するために、異なるマイクロホン配置について記録タスクT10を繰り返すことが望ましい。タスクT20は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。]
[0133] タスクT30は、Q個のトレーニングサブセットの各々を使用して、それぞれのソース分離アルゴリズムに従って対応する適応フィルタ構造をトレーニングする(すなわち、対応する収束フィルタソリューションを計算する)。Q個のフィルタ構造の各々は、フィードフォワードおよび/またはフィードバック係数を含むことができ、有限インパルス応答(FIR)または無限インパルス応答(IIR)設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第12/197,924号に記載されている。タスクT30は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。]
[0134] 「ソース分離アルゴリズム(source separation algorithms)」という用語は、独立成分分析(ICA)、および独立ベクトル分析(IVA)などの関連する方法など、ブラインドソース分離アルゴリズムを含む。ブラインドソース分離(BSS)アルゴリズムは、ソース信号の混合のみに基づいて、(1つまたは複数の情報ソースおよび1つまたは複数の干渉ソースからの信号を含むことがある)個々のソース信号を分離する方法である。「ブラインド(blind)」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および/または干渉信号の1つまたは複数の統計値に関する仮定を含む。スピーチ適用例では、たとえば、当該のスピーチ信号は、通常、スーパーガウス分布(たとえば、高い尖度)を有すると仮定される。]
[0135] 典型的なソース分離アルゴリズムは、混合信号のセットを処理して、(A)信号とノイズの両方を有する結合チャネルと、(B)少なくとも1つのノイズ優位チャネルとを含む分離されたチャネルのセットを生成するように構成される。結合チャネルはまた、入力チャネルに比較して増加した信号対雑音比(SNR)を有することがある。タスクT30では、得られた出力信号において指向性成分のエネルギーが出力チャネルの1つに集中するように、指向性成分を有する入力信号をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。]
[0136] BSSアルゴリズムの種類は、多変量ブラインドデコンボリューションアルゴリズムを含む。ソース分離アルゴリズムはまた、たとえば、マイクロホンアレイの軸に対する、ソース信号の1つまたは複数の各々の知られている方向などの他の先験的情報によって制限された、ICAおよびIVAなど、BSSアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマ(beamformers)と区別される。]
[0137] 本明細書に示すように、フィルタバンク100の空間分離フィルタの各々および/または適応フィルタ450の各々は、BSS、ビームフォーミング、または結合BSS/ビームフォーミング方法を使用して構成できる。BSS方法は、ICA、IVA、制約付きICA、または制約付きIVAのうちの少なくとも1つの実装形態を含むことができる。独立成分分析は、互いからおそらく独立している混合ソース信号(成分)を分離するための技法である。その簡略形態では、独立成分分析は、混合信号上の重みの「逆混合」行列を演算し、たとえば行列を混合信号で乗算して、分離された信号を生成する。重みは、初期値を割り当てられ、次いで、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ICAなどの方法は、ノイズソースからのスピーチ信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析(「IVA」)は関連する技法であり、ソース信号は、単一の可変ソース信号ではなくベクトルソース信号である。これらの技法は、各信号のソースに関する情報を必要としないので、「ブラインドソース分離」方法として知られる。ブラインドソース分離問題は、複数の独立ソースから来る混合信号を分離するアイデアに関連する。]
[0138] (たとえば、フィルタバンク100、または適応フィルタ450の)Q個の空間分離フィルタの各々は、係数値が、ソース分離アルゴリズムから導出される学習規則を使用してタスクT30によって計算される、対応する適応フィルタ構造に基づく。図43Aに、2つのフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10の2チャネル例のブロック図を示し、図43Bに、2つの直接フィルタD110およびD120をも含むフィルタ構造FS10の実装形態FS20のブロック図を示す。そのような構造をトレーニングするためにタスクT30によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする(たとえば、フィルタの出力チャネルの少なくとも1つによって含まれる情報量を最大にする)ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報(infomaxとしても知られる)、最大の尤度、および最大非ガウス性(たとえば、最大の尖度)がある。そのような適応構造、およびICAまたはIVA適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、2006年3月9日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第2006/0053002A1号、2006年3月1日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第60/777,920号、2006年3月1日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第60/777,900号、および「Systems and Methodsfor Blind Source Signal Separation」と題する国際特許公開第WO2007/100330A1号(Kimら)に記載されている。適応フィルタ構造、およびタスクT30においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第12/197,924号に記載されている。] 図43A 図43B
[0139] Q個のフィルタの1つまたは複数(場合によってはすべて)は同じ適応構造に基づくことができ、そのような各フィルタは異なる学習規則に従ってトレーニングされる。代替的に、Q個のフィルタのすべては異なる適応フィルタ構造に基づくことができる。図43Aに示すフィードバック構造FS10をトレーニングするために使用できる学習規則の一例は、次のように表される。] 図43A
[0140] ここで、tは、時間サンプル指数を示し、h12(t)は、時間tにおけるフィルタC110の係数値を示し、h21(t)は、時間tにおけるフィルタC120の係数値を示し、記号]
[0141] は、時間領域畳み込み演算を示し、Δh12kは、出力値y1(t)およびy2(t)の計算に続くフィルタC110のk番目の係数値の変化を示し、Δh21kは、出力値y1(t)およびy2(t)の計算に続くフィルタC120のk番目の係数値の変化を示す。アクティブ化関数fを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。スピーチ適用例のためのアクティブ化信号fに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。]
[0142] ICAおよびIVA技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第1に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第2に、入力チャネルの数が大きい場合、IVA学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第3に、IVAのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられたスピーチ認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。]
[0143] 線形マイクロホンアレイ処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロホンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロホンの1つは、所望のソース(たとえば、ユーザの口)に直接配向され、他のマイクロホンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、ソースとセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。フィルタバンク100のフィルタの1つまたは複数は、データ従属またはデータ独立ビームフォーマ設計(たとえば、超指向性ビームフォーマ、最小2乗ビームフォーマ、または統計学的最適ビームフォーマ設計)に従って構成できる。データ独立ビームフォーマ設計の場合、(たとえば、ノイズ相関行列を同調させることによって)所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。]
[0144] 「一般化サイドローブ消去」(GSC)と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第47巻、第10号、2677〜2684ページ、1999年10月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望のソース信号をフィルタ除去することを目的とする。GSC原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第30巻、第1号、27〜34ページ、1982年1月に記載されている。]
权利要求:

請求項1
Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法であって、前記入力信号に第1の空間処理フィルタを適用することと、前記入力信号に第2の空間処理フィルタを適用することと、1回目に、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、前記1回目に前記判断することに応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成することと、前記1回目に続いて2回目に、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、前記2回目に前記判断することに応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成することとを備え、前記第1および第2の空間処理済み信号が前記入力信号に基づく、方法。
請求項2
前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項1に記載の方法。
請求項3
前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項1に記載の方法。
請求項4
前記第1の空間処理フィルタの複数の前記係数値が、第1の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づき、前記第2の空間処理フィルタの複数の前記係数値が、前記第1の複数のシナリオとは異なる第2の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項1に記載の方法。
請求項5
前記入力信号に前記第1の空間処理フィルタを前記適用することが前記第1の空間処理済み信号を生成し、前記入力信号に前記第2の空間処理フィルタを前記適用することが前記第2の空間処理済み信号を生成する、請求項1に記載の方法。
請求項6
前記出力信号として第1の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第1の空間処理済み信号を生成することを備え、前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第2の空間処理済み信号を生成することを備える、請求項5に記載の方法。
請求項7
前記第1の空間処理フィルタが係数値の第1の行列によって特徴づけられ、前記第2の空間処理フィルタが係数値の第2の行列によって特徴づけられ、前記第2の行列が、前記第1の行列を中央垂直軸に関して反転した結果に少なくとも実質的に等しい、請求項1に記載の方法。
請求項8
前記方法が、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、前記出力信号として第1の空間処理済み信号に基づく信号を前記生成することが、前記第1の遅延間隔の後に開始される、請求項1に記載の方法。
請求項9
前記方法が、前記2回目の直後の第2の遅延間隔にわたって、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、前記第2の遅延間隔の後に実行され、前記第2の遅延間隔が前記第1の遅延間隔より長い、請求項8に記載の方法。
請求項10
前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移することを含み、前記遷移することが、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成することを含む、請求項1に記載の方法。
請求項11
前記方法が、前記入力信号に第3の空間処理フィルタを適用することと、2回目に続いて3回目に、第3の空間処理フィルタが第1の空間処理フィルタよりも良好に、かつ、第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記3回目に前記判断することに応答して、出力信号として第3の空間処理済み信号に基づく信号を生成することとを備え、前記第3の空間処理済み信号が前記入力信号に基づく、請求項1に記載の方法。
請求項12
前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移することを含み、前記出力信号として第3の空間処理済み信号に基づく信号を前記生成することが、第2のマージ間隔にわたって、前記出力信号を前記第2の空間処理済み信号に基づく前記信号から前記第3の空間処理済み信号に基づく信号に前記遷移することを含み、前記第2のマージ間隔が前記第1のマージ間隔より長い、請求項11に記載の方法。
請求項13
前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、1回目に前記判断することが、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することを含む、請求項1に記載の方法。
請求項14
前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、1回目に前記判断することが、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値より小さいことを検出することを含む、請求項1に記載の方法。
請求項15
前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、1回目に前記判断することが、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することを含む、請求項1に記載の方法。
請求項16
前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、1回目に前記判断することが、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することを含む、請求項1に記載の方法。
請求項17
前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、1回目に前記判断することが、前記入力信号の2つのチャネル間の到着時間差を計算することを含む、請求項1に記載の方法。
請求項18
前記方法が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用することを備える、請求項1に記載の方法。
請求項19
Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置であって、前記入力信号に対して第1の空間処理演算を実行するための手段と、前記入力信号に対して第2の空間処理演算を実行するための手段と、1回目に、第1の空間処理演算を実行するための前記手段が第2の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、1回目に判断するための前記手段からの指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成するための手段と、前記1回目に続いて2回目に、第2の空間処理演算を実行するための前記手段が第1の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、2回目に判断するための前記手段からの指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成するための手段と、を備え、前記第1および第2の空間処理済み信号が前記入力信号に基づく、装置。
請求項20
(A)第1の空間処理演算を実行するための前記手段と、(B)第2の空間処理演算を実行するための前記手段と、の中の少なくとも1つの複数の前記係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、請求項19に記載の装置。
請求項21
前記入力信号に対して前記第1の空間処理演算を実行するための前記手段が、前記第1の空間処理済み信号を生成するように構成され、前記入力信号に対して前記第2の空間処理演算を実行するための前記手段が、前記第2の空間処理済み信号を生成するように構成され、前記出力信号として第1の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第1の空間処理済み信号を生成するように構成され、前記出力信号として第2の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第2の空間処理済み信号を生成するように構成された、請求項19に記載の装置。
請求項22
前記装置が、前記1回目の直後の第1の遅延間隔にわたって、第1の空間処理演算を実行するための前記手段が第2の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するための手段を備え、前記出力信号として第1の空間処理済み信号に基づく前記信号を生成するための前記手段が、前記第1の遅延間隔の後に前記信号を生成し始めるように構成された、請求項19に記載の装置。
請求項23
前記出力信号として第2の空間処理済み信号に基づく信号を生成するための前記手段が、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移するための手段を含み、遷移するための前記手段が、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成するように構成された、請求項19に記載の装置。
請求項24
前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、前記1回目に判断するための手段が、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出するための手段を含む、請求項19に記載の装置。
請求項25
前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、前記入力信号に対して前記第2の空間処理演算を実行するための手段が第2のフィルタ処理済み信号を生成し、1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出するための手段を含む、請求項19に記載の装置。
請求項26
前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出するための手段を含む、請求項19に記載の装置。
請求項27
前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出するための手段を含む、請求項19に記載の装置。
請求項28
前記装置が、前記入力信号が基づくMチャネル信号を生成するように構成されたマイクロホンアレイを備える、請求項19に記載の装置。
請求項29
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用するための手段を備える、請求項19に記載の装置。
請求項30
Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置であって、前記入力信号をフィルタ処理するように構成された第1の空間処理フィルタと、前記入力信号をフィルタ処理するように構成された第2の空間処理フィルタと、1回目に、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器と、1回目の前記指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールとを備え、前記状態推定器が、前記1回目に続いて2回目に、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成され、前記遷移制御モジュールが2回目の前記指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成するように構成され、前記第1および第2の空間処理済み信号が前記入力信号に基づく、装置。
請求項31
前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項30に記載の装置。
請求項32
前記第1の空間処理フィルタが前記入力信号に応答して前記第1の空間処理済み信号を生成するように構成され、前記第2の空間処理フィルタが前記入力信号に応答して前記第2の空間処理済み信号を生成するように構成され、前記遷移制御モジュールが、前記出力信号として第1の空間処理済み信号を生成することによって、前記出力信号として前記第1の空間処理済み信号に基づく信号を生成するように構成され、前記遷移制御モジュールが、前記出力信号として第2の空間処理済み信号を前記生成することによって、前記出力信号として前記第2の空間処理済み信号に基づく信号を生成するように構成された、請求項30に記載の装置。
請求項33
前記状態推定器が、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するように構成され、前記遷移制御モジュールが、前記第1の遅延間隔中に前記出力信号として前記第2の空間処理済み信号に基づく信号を生成するように構成され、前記遷移制御モジュールが、前記第1の遅延間隔の後に前記出力信号として前記第1の空間処理済み信号に基づく前記信号を生成するように構成された、請求項30に記載の装置。
請求項34
前記遷移制御モジュールが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から第2の空間処理済み信号に基づく信号に遷移することによって、前記出力信号として前記第2の空間処理済み信号に基づく前記信号を生成するように構成され、前記第1のマージ間隔中に、前記状態遷移モジュールが前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成するように構成された、請求項30に記載の装置。
請求項35
前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記1回目に、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項30に記載の装置。
請求項36
前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項30に記載の装置。
請求項37
前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項30に記載の装置。
請求項38
前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、請求項30に記載の装置。
請求項39
前記装置が、前記入力信号が基づくMチャネル信号を生成するように構成されたマイクロホンアレイを備える、請求項30に記載の装置
請求項40
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用するように構成されたノイズ低減フィルタを備える、請求項30に記載の装置。
請求項41
プロセッサによって実行されると、前記プロセッサに、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、Mが1よりも大きい整数であり、前記命令が、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させ、前記入力信号に対して第2の空間処理演算を実行させ、1回目に、前記第1の空間処理演算が前記第2の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、1回目の前記指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成させ、前記1回目に続いて2回目に、前記第2の空間処理演算が前記第1の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、2回目の前記指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成させ、前記第1および第2の空間処理済み信号が前記入力信号に基づく、コンピュータ可読媒体。
請求項42
前記第1および第2の空間処理演算のうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束したフィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、請求項41に記載のコンピュータ可読媒体。
請求項43
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第1の空間処理演算を実行させる前記命令が、前記プロセッサに前記第1の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第2の空間処理演算を実行させる前記命令が、前記プロセッサに前記第2の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに前記出力信号として第1の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第1の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに前記出力信号として第2の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第2の空間処理済み信号を生成させる、請求項41に記載のコンピュータ可読媒体。
請求項44
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理演算が前記第2の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断させる命令を備え、プロセッサによって実行されると、前記プロセッサに前記出力信号として第1の空間処理済み信号に基づく前記信号を生成させる前記命令が、前記プロセッサに前記第1の遅延間隔の後に前記信号を生成し始めさせる、請求項41に記載のコンピュータ可読媒体。
請求項45
プロセッサによって実行されると、前記プロセッサに前記出力信号として第2の空間処理済み信号に基づく信号を生成させる前記命令が、プロセッサによって実行されると、前記プロセッサに第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移させる命令を含み、プロセッサによって実行されると、前記プロセッサに遷移させる前記命令が、プロセッサによって実行されると、前記プロセッサに、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成させる命令を含む、請求項41に記載のコンピュータ可読媒体。
請求項46
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出させる命令を含む、請求項41に記載のコンピュータ可読媒体。
請求項47
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出させる命令を含む、請求項41に記載のコンピュータ可読媒体。
請求項48
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出させる命令を含む、請求項41に記載のコンピュータ可読媒体。
請求項49
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出させる命令を含む、請求項41に記載のコンピュータ可読媒体。
請求項50
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用させる命令を備える、請求項41に記載のコンピュータ可読媒体。
类似技术:
公开号 | 公开日 | 专利标题
US9697826B2|2017-07-04|Processing multi-channel audio waveforms
US9672821B2|2017-06-06|Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US10032461B2|2018-07-24|Method and apparatus for generating a speech signal
US10446167B2|2019-10-15|User-specific noise suppression for voice quality improvements
US9711135B2|2017-07-18|Electronic devices and methods for compensating for environmental noise in text-to-speech applications
Gannot et al.2017|A consolidated perspective on multimicrophone speech enhancement and source separation
JP6009619B2|2016-10-19|System, method, apparatus, and computer readable medium for spatially selected speech enhancement
EP2974367B1|2018-07-04|Apparatus and method for beamforming to obtain voice and noise signals
JP6400566B2|2018-10-03|ユーザインターフェースを表示するためのシステムおよび方法
US9525938B2|2016-12-20|User voice location estimation for adjusting portable device beamforming settings
Sainath et al.2015|Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveforms
Wölfel et al.2009|Distant speech recognition
US9031256B2|2015-05-12|Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
Kumatani et al.2012|Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors
Cauchi et al.2015|Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech
EP2353159B1|2013-03-27|Audio source proximity estimation using sensor array for noise reduction
JP5596048B2|2014-09-24|System, method, apparatus and computer program product for enhanced active noise cancellation
CN204857179U|2015-12-09|语音活动检测器
KR100499124B1|2005-07-04|직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
US10482899B2|2019-11-19|Coordination of beamformers for noise estimation and noise suppression
CN102625946B|2013-08-14|用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN102077274B|2013-08-21|多麦克风语音活动检测器
Seltzer2003|Microphone array processing for robust speech recognition
CN103180900B|2015-08-12|用于话音活动检测的系统、方法和设备
US8340309B2|2012-12-25|Noise suppressing multi-microphone headset
同族专利:
公开号 | 公开日
KR20100105700A|2010-09-29|
CN101903948A|2010-12-01|
CN101903948B|2013-11-06|
TW200939210A|2009-09-16|
JP5479364B2|2014-04-23|
KR101172180B1|2012-08-07|
US8175291B2|2012-05-08|
US20090164212A1|2009-06-25|
EP2229678A1|2010-09-22|
WO2009086017A1|2009-07-09|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
WO2006012578A2|2004-07-22|2006-02-02|Softmax, Inc.|Separation of target acoustic signals in a multi-transducer arrangement|
US20070244698A1|2006-04-18|2007-10-18|Dugger Jeffery D|Response-select null steering circuit|
JP2007295085A|2006-04-21|2007-11-08|Kobe Steel Ltd|音源分離装置及び音源分離方法|JP2013078118A|2011-09-15|2013-04-25|Jvc Kenwood Corp|ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法|
JP2013543987A|2010-10-22|2013-12-09|クゥアルコム・インコーポレイテッドQualcommIncorporated|遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体|
JP2013545136A|2010-10-25|2013-12-19|クゥアルコム・インコーポレイテッドQualcommIncorporated|音声アクティビティ検出のための、システム、方法、および装置|
JP2015213328A|2010-10-25|2015-11-26|クゥアルコム・インコーポレイテッドQualcomm Incorporated|マルチマイクロフォンを用いた3次元サウンド獲得及び再生|US4649505A|1984-07-02|1987-03-10|General Electric Company|Two-input crosstalk-resistant adaptive noise canceller|
US4912767A|1988-03-14|1990-03-27|International Business Machines Corporation|Distributed noise cancellation system|
US5327178A|1991-06-17|1994-07-05|Mcmanigal Scott P|Stereo speakers mounted on head|
US5208786A|1991-08-28|1993-05-04|Massachusetts Institute Of Technology|Multi-channel signal separation|
JPH05316587A|1992-05-08|1993-11-26|Sony Corp|マイクロホン装置|
US5251263A|1992-05-22|1993-10-05|Andrea Electronics Corporation|Adaptive noise cancellation and speech enhancement system and apparatus therefor|
US5732143A|1992-10-29|1998-03-24|Andrea Electronics Corp.|Noise cancellation apparatus|
US5383164A|1993-06-10|1995-01-17|The Salk Institute For Biological Studies|Adaptive system for broadband multisignal discrimination in a channel with reverberation|
US5375174A|1993-07-28|1994-12-20|Noise Cancellation Technologies, Inc.|Remote siren headset|
JP3146804B2|1993-11-05|2001-03-19|松下電器産業株式会社|アレイマイクロホンおよびその感度補正装置|
US5706402A|1994-11-29|1998-01-06|The Salk Institute For Biological Studies|Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy|
US6002776A|1995-09-18|1999-12-14|Interval Research Corporation|Directional acoustic signal processor and method therefor|
US5770841A|1995-09-29|1998-06-23|United Parcel Service Of America, Inc.|System and method for reading package information|
US5675659A|1995-12-12|1997-10-07|Motorola|Methods and apparatus for blind separation of delayed and filtered sources|
US6130949A|1996-09-18|2000-10-10|Nippon Telegraph And Telephone Corporation|Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor|
US6108415A|1996-10-17|2000-08-22|Andrea Electronics Corporation|Noise cancelling acoustical improvement to a communications device|
US5999567A|1996-10-31|1999-12-07|Motorola, Inc.|Method for recovering a source signal from a composite signal and apparatus therefor|
US7072476B2|1997-02-18|2006-07-04|Matech, Inc.|Audio headset|
FR2759824A1|1997-02-18|1998-08-21|Philips Electronics Nv|Systeme de separation de sources non stationnaires|
US6496581B1|1997-09-11|2002-12-17|Digisonix, Inc.|Coupled acoustic echo cancellation system|
US6898612B1|1998-11-12|2005-05-24|Sarnoff Corporation|Method and system for on-line blind source separation|
US6167417A|1998-04-08|2000-12-26|Sarnoff Corporation|Convolutive blind source separation using a multiple decorrelation method|
DE19822021C2|1998-05-15|2000-12-14|Siemens Audiologische Technik|Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich|
US6654468B1|1998-08-25|2003-11-25|Knowles Electronics, Llc|Apparatus and method for matching the response of microphones in magnitude and phase|
DE19849739C2|1998-10-28|2001-05-31|Siemens Audiologische Technik|Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät|
US6606506B1|1998-11-19|2003-08-12|Albert C. Jones|Personal entertainment and communication device|
US6343268B1|1998-12-01|2002-01-29|Siemens Corporation Research, Inc.|Estimator of independent sources from degenerate mixtures|
DE19859174C1|1998-12-21|2000-05-04|Max Planck Gesellschaft|Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale|
US6381570B2|1999-02-12|2002-04-30|Telogy Networks, Inc.|Adaptive two-threshold method for discriminating noise from speech in a communication signal|
WO2000057671A2|1999-03-19|2000-09-28|Siemens Aktiengesellschaft|Verfahren und einrichtung zum aufnehmen und bearbeiten von audiosignalen in einer störschallerfüllten umgebung|
US6526148B1|1999-05-18|2003-02-25|Siemens Corporate Research, Inc.|Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals|
US6424960B1|1999-10-14|2002-07-23|The Salk Institute For Biological Studies|Unsupervised adaptation and classification of multiple classes and sources in blind signal separation|
US6594367B1|1999-10-25|2003-07-15|Andrea Electronics Corporation|Super directional beamforming design and implementation|
US6549630B1|2000-02-04|2003-04-15|Plantronics, Inc.|Signal expander with discrimination between close and distant acoustic source|
DE10195933T1|2000-03-14|2003-04-30|Audia Technology Inc|Adaptiver Mikrophonabgleich in einem Richtsystem mit mehreren Mikrophonen|
US20010038699A1|2000-03-20|2001-11-08|Audia Technology, Inc.|Automatic directional processing control for multi-microphone system|
US8903737B2|2000-04-25|2014-12-02|Accenture Global Service Limited|Method and system for a wireless universal mobile product interface|
US6879952B2|2000-04-26|2005-04-12|Microsoft Corporation|Sound source separation using convolutional mixing and a priori sound source knowledge|
US7027607B2|2000-09-22|2006-04-11|Gn Resound A/S|Hearing aid with adaptive microphone matching|
US7471798B2|2000-09-29|2008-12-30|Knowles Electronics, Llc|Microphone array having a second order directional pattern|
EP1356706A2|2000-09-29|2003-10-29|Knowles Electronics, LLC|Second order microphone array|
JP4028680B2|2000-11-01|2007-12-26|インターナショナル・ビジネス・マシーンズ・コーポレーションInternationalBusinessMaschinesCorporation|観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体|
US6462664B1|2000-11-20|2002-10-08|Koninklijke Philips Electronics N.V.|Baby monitor, system, and method and control of remote devices|
US7206418B2|2001-02-12|2007-04-17|Fortemedia, Inc.|Noise suppression for a wireless communication device|
EP1380186B1|2001-02-14|2015-08-26|Gentex Corporation|Vehicle accessory microphone|
CA2396832C|2001-05-23|2008-12-16|Phonak Ag|Method of generating an electrical output signal and acoustical/electrical conversion system|
US7123727B2|2001-07-18|2006-10-17|Agere Systems Inc.|Adaptive close-talking differential microphone array|
US8098844B2|2002-02-05|2012-01-17|Mh Acoustics, Llc|Dual-microphone spatial noise suppression|
US20030179888A1|2002-03-05|2003-09-25|Burnett Gregory C.|Voice activity detection devices and methods for use with noise suppression systems|
WO2003107591A1|2002-06-14|2003-12-24|Nokia Corporation|Enhanced error concealment for spatial audio|
EP1540986A1|2002-09-13|2005-06-15|Philips Electronics N.V.|Calibrating a first and a second microphone|
US7383178B2|2002-12-11|2008-06-03|Softmax, Inc.|System and method for speech processing using independent component analysis under stability constraints|
US7142682B2|2002-12-20|2006-11-28|Sonion Mems A/S|Silicon-based transducer for use in hearing instruments and listening devices|
KR100480789B1|2003-01-17|2005-04-06|삼성전자주식회사|피드백 구조를 이용한 적응적 빔 형성방법 및 장치|
EP1453348A1|2003-02-25|2004-09-01|AKG Acoustics GmbH|Selbstkalibrierung von Arraymikrofonen|
DE10310579B4|2003-03-11|2005-06-16|Siemens Audiologische Technik Gmbh|Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen|
KR100486736B1|2003-03-31|2005-05-03|삼성전자주식회사|두개의 센서를 이용한 목적원별 신호 분리방법 및 장치|
US7203323B2|2003-07-25|2007-04-10|Microsoft Corporation|System and process for calibrating a microphone array|
US7424119B2|2003-08-29|2008-09-09|Audio-Technica, U.S., Inc.|Voice matching system for audio transducers|
US7515721B2|2004-02-09|2009-04-07|Microsoft Corporation|Self-descriptive microphone array|
KR100600313B1|2004-02-26|2006-07-14|남승현|다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치|
US7415117B2|2004-03-02|2008-08-19|Microsoft Corporation|System and method for beamforming using a microphone array|
US7688985B2|2004-04-30|2010-03-30|Phonak Ag|Automatic microphone matching|
CN101027571B|2004-09-23|2011-05-04|美商内数位科技公司|使用展频码的盲信号分离|
EP1640971B1|2004-09-23|2008-08-20|Harman Becker Automotive Systems GmbH|Multi-channel adaptive speech signal processing with noise reduction|
US7190308B2|2004-09-23|2007-03-13|Interdigital Technology Corporation|Blind signal separation using signal path selection|
US7826624B2|2004-10-15|2010-11-02|Lifesize Communications, Inc.|Speakerphone self calibration and beam forming|
US7464029B2|2005-07-22|2008-12-09|Qualcomm Incorporated|Robust separation of speech signals in a noisy environment|
JP4701931B2|2005-09-02|2011-06-15|日本電気株式会社|信号処理の方法及び装置並びにコンピュータプログラム|
DE102005047047A1|2005-09-30|2007-04-12|Friedrich-Alexander-Universität Erlangen-Nürnberg|Mikrofonkalibrierung bei einem RGSC-Beamformer|
US7813923B2|2005-10-14|2010-10-12|Microsoft Corporation|Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset|
JP2007156300A|2005-12-08|2007-06-21|Kobe Steel Ltd|音源分離装置、音源分離プログラム及び音源分離方法|
JP4863713B2|2005-12-29|2012-01-25|富士通株式会社|雑音抑制装置、雑音抑制方法、及びコンピュータプログラム|
CN1809105B|2006-01-13|2010-05-12|北京中星微电子有限公司|适用于小型移动通信设备的双麦克语音增强方法及系统|
JP2009529699A|2006-03-01|2009-08-20|ソフトマックス,インコーポレイテッド|分離信号を生成するシステムおよび方法|
US8874439B2|2006-03-01|2014-10-28|The Regents Of The University Of California|Systems and methods for blind source signal separation|
US20080175407A1|2007-01-23|2008-07-24|Fortemedia, Inc.|System and method for calibrating phase and gain mismatches of an array microphone|US8019091B2|2000-07-19|2011-09-13|Aliphcom, Inc.|Voice activity detector-based multiple-microphone acoustic noise suppression|
US8280072B2|2003-03-27|2012-10-02|Aliphcom, Inc.|Microphone array with rear venting|
US9099094B2|2003-03-27|2015-08-04|Aliphcom|Microphone array with rear venting|
US9066186B2|2003-01-30|2015-06-23|Aliphcom|Light-based detection for acoustic applications|
US7099821B2|2003-09-12|2006-08-29|Softmax, Inc.|Separation of target acoustic signals in a multi-transducer arrangement|
US8543390B2|2004-10-26|2013-09-24|Qnx Software Systems Limited|Multi-channel periodic signal enhancement system|
US9185487B2|2006-01-30|2015-11-10|Audience, Inc.|System and method for providing noise suppression utilizing null processing noise subtraction|
US8949120B1|2006-05-25|2015-02-03|Audience, Inc.|Adaptive noise cancelation|
JP2009529699A|2006-03-01|2009-08-20|ソフトマックス,インコーポレイテッド|分離信号を生成するシステムおよび方法|
US8160273B2|2007-02-26|2012-04-17|Erik Visser|Systems, methods, and apparatus for signal separation using data driven techniques|
US20080208538A1|2007-02-26|2008-08-28|Qualcomm Incorporated|Systems, methods, and apparatus for signal separation|
US8068620B2|2007-03-01|2011-11-29|Canon Kabushiki Kaisha|Audio processing apparatus|
CN203242334U|2010-05-03|2013-10-16|艾利佛卡姆公司|用于电子系统的风抑制/替换部件|
WO2009027980A1|2007-08-28|2009-03-05|Yissum Research Development Company Of The Hebrew University Of Jerusalem|Method, device and system for speech recognition|
JP5642339B2|2008-03-11|2014-12-17|トヨタ自動車株式会社|Signal separation device and signal separation method|
US8321214B2|2008-06-02|2012-11-27|Qualcomm Incorporated|Systems, methods, and apparatus for multichannel signal amplitude balancing|
WO2009151578A2|2008-06-09|2009-12-17|The Board Of Trustees Of The University Of Illinois|Method and apparatus for blind signal recovery in noisy, reverberant environments|
US20100057472A1|2008-08-26|2010-03-04|Hanks Zeng|Method and system for frequency compensation in an audio codec|
JP5071346B2|2008-10-24|2012-11-14|ヤマハ株式会社|雑音抑圧装置及び雑音抑圧方法|
KR101178801B1|2008-12-09|2012-08-31|한국전자통신연구원|음원분리 및 음원식별을 이용한 음성인식 장치 및 방법|
US8781818B2|2008-12-23|2014-07-15|Koninklijke Philips N.V.|Speech capturing and speech rendering|
WO2010092913A1|2009-02-13|2010-08-19|日本電気株式会社|多チャンネル音響信号処理方法、そのシステム及びプログラム|
US9064499B2|2009-02-13|2015-06-23|Nec Corporation|Method for processing multichannel acoustic signal, system therefor, and program|
FR2945169B1|2009-04-29|2011-06-03|Commissariat Energie Atomique|METHOD OF IDENTIFYING OFDM SIGNAL|
JP5293817B2|2009-06-19|2013-09-18|富士通株式会社|音声信号処理装置及び音声信号処理方法|
FR2948484B1|2009-07-23|2011-07-29|Parrot|Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile|
KR101587844B1|2009-08-26|2016-01-22|삼성전자주식회사|마이크로폰의 신호 보상 장치 및 그 방법|
US20110058676A1|2009-09-07|2011-03-10|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal|
US20110125497A1|2009-11-20|2011-05-26|Takahiro Unno|Method and System for Voice Activity Detection|
CN102696239B|2009-11-24|2020-08-25|诺基亚技术有限公司|一种设备|
EP2508010B1|2009-11-30|2020-08-26|Nokia Technologies Oy|An apparatus for processing audio signals in dependence of motion and orientation of the apparatus|
US9838784B2|2009-12-02|2017-12-05|Knowles Electronics, Llc|Directional audio capture|
US8718290B2|2010-01-26|2014-05-06|Audience, Inc.|Adaptive noise reduction using level cues|
JP5489778B2|2010-02-25|2014-05-14|キヤノン株式会社|情報処理装置およびその処理方法|
US9091851B2|2010-02-28|2015-07-28|Microsoft Technology Licensing, Llc|Light control in head mounted displays|
US20120249797A1|2010-02-28|2012-10-04|Osterhout Group, Inc.|Head-worn adaptive display|
US9097890B2|2010-02-28|2015-08-04|Microsoft Technology Licensing, Llc|Grating in a light transmissive illumination system for see-through near-eye display glasses|
US9129295B2|2010-02-28|2015-09-08|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear|
US9134534B2|2010-02-28|2015-09-15|Microsoft Technology Licensing, Llc|See-through near-eye display glasses including a modular image source|
US9759917B2|2010-02-28|2017-09-12|Microsoft Technology Licensing, Llc|AR glasses with event and sensor triggered AR eyepiece interface to external devices|
US9223134B2|2010-02-28|2015-12-29|Microsoft Technology Licensing, Llc|Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses|
AU2011220382A1|2010-02-28|2012-10-18|Microsoft Corporation|Local advertising content on an interactive head-mounted eyepiece|
US9229227B2|2010-02-28|2016-01-05|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a light transmissive wedge shaped illumination system|
US9097891B2|2010-02-28|2015-08-04|Microsoft Technology Licensing, Llc|See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment|
US9128281B2|2010-09-14|2015-09-08|Microsoft Technology Licensing, Llc|Eyepiece with uniformly illuminated reflective display|
US9366862B2|2010-02-28|2016-06-14|Microsoft Technology Licensing, Llc|System and method for delivering content to a group of see-through near eye display eyepieces|
US9182596B2|2010-02-28|2015-11-10|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light|
US10180572B2|2010-02-28|2019-01-15|Microsoft Technology Licensing, Llc|AR glasses with event and user action control of external applications|
US9285589B2|2010-02-28|2016-03-15|Microsoft Technology Licensing, Llc|AR glasses with event and sensor triggered control of AR eyepiece applications|
US9341843B2|2010-02-28|2016-05-17|Microsoft Technology Licensing, Llc|See-through near-eye display glasses with a small scale image source|
US8473287B2|2010-04-19|2013-06-25|Audience, Inc.|Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system|
US8958572B1|2010-04-19|2015-02-17|Audience, Inc.|Adaptive noise cancellation for multi-microphone systems|
US8798290B1|2010-04-21|2014-08-05|Audience, Inc.|Systems and methods for adaptive signal equalization|
JP5575977B2|2010-04-22|2014-08-20|クゥアルコム・インコーポレイテッドQualcommIncorporated|ボイスアクティビティ検出|
US8781137B1|2010-04-27|2014-07-15|Audience, Inc.|Wind noise detection and suppression|
US9378754B1|2010-04-28|2016-06-28|Knowles Electronics, Llc|Adaptive spatial classifier for multi-microphone systems|
US8538035B2|2010-04-29|2013-09-17|Audience, Inc.|Multi-microphone robust noise suppression|
US9558755B1|2010-05-20|2017-01-31|Knowles Electronics, Llc|Noise suppression assisted automatic speech recognition|
US9053697B2|2010-06-01|2015-06-09|Qualcomm Incorporated|Systems, methods, devices, apparatus, and computer program products for audio equalization|
US8447596B2|2010-07-12|2013-05-21|Audience, Inc.|Monaural noise suppression based on computational auditory scene analysis|
JP5732937B2|2010-09-08|2015-06-10|ヤマハ株式会社|サウンドマスキング装置|
US8855341B2|2010-10-25|2014-10-07|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals|
US9031256B2|2010-10-25|2015-05-12|Qualcomm Incorporated|Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control|
US20120128168A1|2010-11-18|2012-05-24|Texas Instruments Incorporated|Method and apparatus for noise and echo cancellation for two microphone system subject to cross-talk|
TWI412023B|2010-12-14|2013-10-11|Univ Nat Chiao Tung|可消除噪音且增進語音品質之麥克風陣列架構及其方法|
EP2661905B1|2011-01-05|2020-08-12|Koninklijke Philips N.V.|An audio system and method of operation therefor|
US8989402B2|2011-01-19|2015-03-24|Broadcom Corporation|Use of sensors for noise suppression in a mobile communication device|
US9173025B2|2012-02-08|2015-10-27|Dolby Laboratories Licensing Corporation|Combined suppression of noise, echo, and out-of-location signals|
US8712076B2|2012-02-08|2014-04-29|Dolby Laboratories Licensing Corporation|Post-processing including median filtering of noise suppression gains|
WO2012107561A1|2011-02-10|2012-08-16|Dolby International Ab|Spatial adaptation in multi-microphone sound capture|
US8929564B2|2011-03-03|2015-01-06|Microsoft Corporation|Noise adaptive beamforming for microphone arrays|
US8942382B2|2011-03-22|2015-01-27|Mh Acoustics Llc|Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling|
FR2976111B1|2011-06-01|2013-07-05|Parrot|Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"|
US9666206B2|2011-08-24|2017-05-30|Texas Instruments Incorporated|Method, system and computer program product for attenuating noise in multiple time frames|
US20130054233A1|2011-08-24|2013-02-28|Texas Instruments Incorporated|Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels|
TWI459381B|2011-09-14|2014-11-01|Ind Tech Res Inst|語音增強方法|
US9966088B2|2011-09-23|2018-05-08|Adobe Systems Incorporated|Online source separation|
US8712769B2|2011-12-19|2014-04-29|Continental Automotive Systems, Inc.|Apparatus and method for noise removal by spectral smoothing|
WO2013093569A1|2011-12-23|2013-06-27|Nokia Corporation|Audio processing for mono signals|
DE102012200745B4|2012-01-19|2014-05-28|Siemens Medical Instruments Pte. Ltd.|Verfahren und Hörvorrichtung zum Schätzen eines Bestandteils der eigenen Stimme|
CN104488025A|2012-03-16|2015-04-01|纽昂斯通讯公司|用户专用的自动语音识别|
CN102646418B|2012-03-29|2014-07-23|北京华夏电通科技股份有限公司|一种远程音频交互的多路声学回音消除方法及系统|
US9282405B2|2012-04-24|2016-03-08|Polycom, Inc.|Automatic microphone muting of undesired noises by microphone arrays|
IN2014MN02221A|2012-05-07|2015-07-17|Adaptive Spectrum & Signal||
US9161149B2|2012-05-24|2015-10-13|Qualcomm Incorporated|Three-dimensional sound compression and over-the-air transmission during a call|
US9881616B2|2012-06-06|2018-01-30|Qualcomm Incorporated|Method and systems having improved speech recognition|
US9640194B1|2012-10-04|2017-05-02|Knowles Electronics, Llc|Noise suppression for speech processing based on machine-learning mask estimation|
CN102969000B|2012-12-04|2014-10-22|中国科学院自动化研究所|一种多通道语音增强方法|
US9833189B2|2012-12-17|2017-12-05|Koninklijke Philips N.V.|Sleep apnea diagnosis system and method of generating information using non-obtrusive audio analysis|
US20140184796A1|2012-12-27|2014-07-03|Motorola Solutions, Inc.|Method and apparatus for remotely controlling a microphone|
US9692379B2|2012-12-31|2017-06-27|Spreadtrum CommunicationsCo., Ltd.|Adaptive audio capturing|
CN104010265A|2013-02-22|2014-08-27|杜比实验室特许公司|音频空间渲染设备及方法|
US20140278380A1|2013-03-14|2014-09-18|Dolby Laboratories Licensing Corporation|Spectral and Spatial Modification of Noise Captured During Teleconferencing|
US9467777B2|2013-03-15|2016-10-11|Cirrus Logic, Inc.|Interface for a digital microphone array|
CN105230044A|2013-03-20|2016-01-06|诺基亚技术有限公司|空间音频装置|
KR102094392B1|2013-04-02|2020-03-27|삼성전자주식회사|복수의 마이크로폰들을 구비하는 사용자 기기 및 그 동작 방법|
US9357080B2|2013-06-04|2016-05-31|Broadcom Corporation|Spatial quiescence protection for multi-channel acoustic echo cancellation|
JP2015052466A|2013-09-05|2015-03-19|株式会社デンソー|車両用装置及び音声切換制御プログラム|
CN104424953B|2013-09-11|2019-11-01|华为技术有限公司|语音信号处理方法与装置|
WO2015047308A1|2013-09-27|2015-04-02|Nuance Communications, Inc.|Methods and apparatus for robust speaker activity detection|
US9392353B2|2013-10-18|2016-07-12|Plantronics, Inc.|Headset interview mode|
US10536773B2|2013-10-30|2020-01-14|Cerence Operating Company|Methods and apparatus for selective microphone signal combining|
ITTO20130901A1|2013-11-05|2015-05-06|St Microelectronics Srl|Interfaccia di espansione dell'intervallo dinamico di un segnale di ingresso, in particolare di un segnale audio di un trasduttore acustico a due strutture di rilevamento, e relativo metodo|
GB2520029A|2013-11-06|2015-05-13|Nokia Technologies Oy|Detection of a microphone|
JP6432597B2|2014-03-17|2018-12-05|日本電気株式会社|信号処理装置、信号処理方法、および信号処理プログラム|
WO2015139769A1|2014-03-21|2015-09-24|Huawei Technologies Co., Ltd.|Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program|
CN105096961B|2014-05-06|2019-02-01|华为技术有限公司|语音分离方法和装置|
US10149047B2|2014-06-18|2018-12-04|Cirrus Logic Inc.|Multi-aural MMSE analysis techniques for clarifying audio signals|
US20150381333A1|2014-06-26|2015-12-31|Harris Corporation|Novel approach for enabling mixed mode behavior using microphone placement on radio terminal hardware|
US10062374B2|2014-07-18|2018-08-28|Nuance Communications, Inc.|Methods and apparatus for training a transformation component|
WO2016016387A1|2014-07-31|2016-02-04|Koninklijke Kpn N.V.|Noise suppression system and method|
CN104134440B|2014-07-31|2018-05-08|百度在线网络技术(北京)有限公司|用于便携式终端的语音检测方法和语音检测装置|
CN106797512B|2014-08-28|2019-10-25|美商楼氏电子有限公司|多源噪声抑制的方法、系统和非瞬时计算机可读存储介质|
US9978388B2|2014-09-12|2018-05-22|Knowles Electronics, Llc|Systems and methods for restoration of speech components|
DE112016000287T5|2015-01-07|2017-10-05|Knowles Electronics, Llc|Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung|
DE112016000545B4|2015-01-30|2019-08-22|Knowles Electronics, Llc|Kontextabhängiges schalten von mikrofonen|
CN104952459B|2015-04-29|2018-05-15|大连理工大学|一种基于分布式一致性和mvdr波束形成的分布式语音增强方法|
US9565493B2|2015-04-30|2017-02-07|Shure Acquisition Holdings, Inc.|Array microphone system and method of assembling the same|
US9736578B2|2015-06-07|2017-08-15|Apple Inc.|Microphone-based orientation sensors and related techniques|
US9558731B2|2015-06-15|2017-01-31|Blackberry Limited|Headphones using multiplexed microphone signals to enable active noise cancellation|
US9734845B1|2015-06-26|2017-08-15|Amazon Technologies, Inc.|Mitigating effects of electronic audio sources in expression detection|
WO2017007848A1|2015-07-06|2017-01-12|Dolby Laboratories Licensing Corporation|Estimation of reverberant energy component from active audio source|
US10389393B2|2015-08-31|2019-08-20|Sony Corporation|Reception device, receiving method, and program|
US9875081B2|2015-09-21|2018-01-23|Amazon Technologies, Inc.|Device selection for providing a response|
US10186276B2|2015-09-25|2019-01-22|Qualcomm Incorporated|Adaptive noise suppression for super wideband music|
CN105529034A|2015-12-23|2016-04-27|北京奇虎科技有限公司|一种基于混响的语音识别方法和装置|
CN105825865B|2016-03-10|2019-09-27|福州瑞芯微电子股份有限公司|噪声环境下的回声消除方法及系统|
US10249305B2|2016-05-19|2019-04-02|Microsoft Technology Licensing, Llc|Permutation invariant training for talker-independent multi-talker speech separation|
CN107564512A|2016-06-30|2018-01-09|展讯通信(上海)有限公司|语音活动侦测方法及装置|
US10045110B2|2016-07-06|2018-08-07|Bragi GmbH|Selective sound field environment processing system and method|
CN106328156B|2016-08-22|2020-02-18|华南理工大学|一种音视频信息融合的麦克风阵列语音增强系统及方法|
CN106548783A|2016-12-09|2017-03-29|西安Tcl软件开发有限公司|语音增强方法、装置及智能音箱、智能电视|
US10367948B2|2017-01-13|2019-07-30|Shure Acquisition Holdings, Inc.|Post-mixing acoustic echo cancellation systems and methods|
US10554822B1|2017-02-28|2020-02-04|SoliCall Ltd.|Noise removal in call centers|
KR101811635B1|2017-04-27|2018-01-25|경상대학교산학협력단|스테레오 채널 잡음 제거 장치 및 방법|
EP3422736B1|2017-06-30|2020-07-29|GN Audio A/S|Pop noise reduction in headsets having multiple microphones|
US10482904B1|2017-08-15|2019-11-19|Amazon Technologies, Inc.|Context driven device arbitration|
WO2019060251A1|2017-09-20|2019-03-28|Knowles Electronics, Llc|Cost effective microphone array design for spatial filtering|
US10657981B1|2018-01-19|2020-05-19|Amazon Technologies, Inc.|Acoustic echo cancellation with loudspeaker canceling beamformer|
US10755728B1|2018-02-27|2020-08-25|Amazon Technologies, Inc.|Multichannel noise cancellation using frequency domain spectrum masking|
CN108766456B|2018-05-22|2020-01-07|出门问问信息科技有限公司|一种语音处理方法及装置|
CN109767783A|2019-02-15|2019-05-17|深圳市汇顶科技股份有限公司|语音增强方法、装置、设备及存储介质|
法律状态:
2011-12-08| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111208 |
2012-07-25| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
2012-10-25| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121024 |
2012-11-01| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121031 |
2013-01-25| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130124 |
2013-07-31| A02| Decision of refusal|Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130730 |
2013-12-03| A524| Written submission of copy of amendment under section 19 (pct)|Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20131202 |
2013-12-18| A911| Transfer of reconsideration by examiner before appeal (zenchi)|Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131217 |
2014-01-09| TRDD| Decision of grant or rejection written|
2014-01-15| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
2014-02-20| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140212 |
2014-02-21| R150| Certificate of patent or registration of utility model|Ref document number: 5479364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2017-02-07| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2018-02-06| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2019-02-21| LAPS| Cancellation because of no payment of annual fees|
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]