Sprachsignalverarbeitungstechnologie für Mikrofonarrays
Mit der zunehmenden Verbreitung künstlicher Intelligenz im täglichen Leben steht auch die Entwicklung der Sprachanalyse im Fokus. Traditionelle Nahfeld-Sprache kann die Anforderungen der Menschen nicht mehr erfüllen. Menschen möchten intelligente Geräte über größere Entfernungen und in komplexeren Umgebungen per Sprachsteuerung bedienen. Daher ist die Array-Technologie der Kern der Fernfeld-Sprachtechnologie.
Bedeutung von Mikrofonarrays für künstliche Intelligenz:
Räumliche Selektivität: Durch räumliche Ortungstechniken wie elektronisches Array-Scanning kann die effektive Position der Schallquelle erfasst werden. Intelligente Geräte erhalten präzise Positionsinformationen der Schallquelle, was unsere Sprache intelligenter macht. Algorithmen ermöglichen eine hochwertige Sprachsignalqualität.
Mikrofonarrays können automatisch die Schallquellenposition erkennen und Sprecher verfolgen. Sie bieten zudem den Vorteil, mehrere Schallquellen zu erfassen und bewegliche Schallquellen zu verfolgen. Egal wo Sie sich befinden, das intelligente Gerät wird Ihre Sprachqualität in Ihrer Position und Richtung verbessern.
Mikrofonarrays fügen eine räumliche Verarbeitung hinzu. Die dreidimensionale Verarbeitung (Raum, Zeit, Frequenz) mehrerer Signale gleicht die Unzulänglichkeiten eines einzelnen Signals bei Rauschunterdrückung, Echounterdrückung, Nachhallunterdrückung, Schallquellenortung und Sprachseparation aus. So können unsere intelligenten Geräte auch in komplexen Umgebungen hochwertige Sprachsignale erfassen und ein besseres intelligentes Spracherlebnis bieten.
Technische Herausforderungen der Mikrofonarray-Technologie:
Die direkte Anwendung traditioneller Array-Signalverarbeitungstechniken auf Mikrofonarray-Verarbeitungssysteme führt oft zu unbefriedigenden Ergebnissen, da die Mikrofonarray-Verarbeitung unterschiedliche Eigenschaften aufweist:
Erstellung des Array-Modells
Mikrofone werden hauptsächlich zur Verarbeitung von Sprachsignalen eingesetzt, haben einen begrenzten Aufnahmebereich und werden meist im Nahfeldmodell verwendet. Herkömmliche Array-Verarbeitungsmethoden wie bei Radar oder Sonar (ebene Wellen, Fernfeldmodell) sind hier nicht anwendbar. Im Nahfeldmodell sind genauere Kugelwellen erforderlich, und die unterschiedliche Amplitudendämpfung aufgrund verschiedener Ausbreitungswege muss berücksichtigt werden.
Breitbandsignalverarbeitung
Übliche Array-Signalverarbeitung erfolgt oft schmalbandig, d.h. die Zeitverzögerung und Phasendifferenz zwischen verschiedenen Elementen manifestieren sich hauptsächlich in der Trägerfrequenz. Sprachsignale sind jedoch nicht moduliert und haben keinen Träger. Das Verhältnis zwischen hohen und niedrigen Frequenzen ist relativ groß. Die Phasenverzögerung zwischen verschiedenen Elementen hängt stark von den Eigenschaften der Schallquelle selbst ab – insbesondere von der Frequenz – weshalb traditionelle Array-Signalverarbeitungsmethoden nicht vollständig anwendbar sind.
Verarbeitung nichtstationärer Signale
Bei der traditionellen Array-Verarbeitung handelt es sich meist um stationäre Signale, während die zu verarbeitenden Signale von Mikrofonarrays oft nichtstationär oder kurzzeitig stationär sind. Daher werden Sprachsignale in Mikrofonarrays typischerweise kurzzeitig im Frequenzbereich verarbeitet. Jeder Frequenzbereich entspricht einer Phasendifferenz. Das Breitbandsignal wird im Frequenzbereich in mehrere Teilbänder aufgeteilt, jedes Teilband wird schmalbandig verarbeitet und dann wieder zu einem Breitbandspektrum zusammengefügt.
Nachhall
Die Schallausbreitung wird stark vom Raum beeinflusst. Aufgrund von Reflexionen und Beugung im Raum enthält das vom Mikrofon empfangene Signal neben dem Direktsignal auch überlagerte Mehrwege-Signale, die das Signal stören. Dies wird als Nachhall bezeichnet. In Innenräumen beeinträchtigt die Verlängerung des Schalls durch Reflexionen an Raumbegrenzungen oder Hindernissen die Verständlichkeit der Sprache erheblich.
Schallquellenortung
Die Schallquellenortungstechnologie findet in der KI breite Anwendung. Mikrofonarrays werden verwendet, um ein räumliches kartesisches Koordinatensystem zu bilden. Basierend auf verschiedenen linearen, planaren oder räumlichen Arrays wird die Position der Schallquelle im Raum bestimmt. Intelligente Geräte können zunächst die Sprachqualität basierend auf der Position der Schallquelle weiter verbessern. Wenn ein intelligentes Gerät Ihre Positionsinformationen erhält, kann es diese mit anderen Sensoren kombinieren, um das intelligente Erlebnis zu erweitern, z.B. indem ein Roboter auf Ihren Ruf hin zu Ihnen kommt oder Videogeräte den Sprecher fokussieren und verfolgen. Bevor wir die Schallquellenortungstechnologie verstehen, müssen wir das Nahfeld- und das Fernfeldmodell kennen.
Nahfeld- und Fernfeldmodell
Der Abstand von Mikrofonarrays beträgt normalerweise 1–3 m. Das Array befindet sich im Nahfeldmodell, wobei die Mikrofone Kugelwellen und nicht ebene Wellen empfangen. Schallwellen werden während der Ausbreitung gedämpft, wobei der Dämpfungsfaktor proportional zur Ausbreitungsdistanz ist. Daher variiert auch die Amplitude der Schallwelle beim Erreichen der Array-Elemente. Im Fernfeldmodell ist der Abstandsunterschied zur Schallquelle relativ gering und kann vernachlässigt werden. Üblicherweise definieren wir 2L²/λ als den kritischen Wert für Nah-/Fernfeld, wobei L die Array-Apertur und λ die Wellenlänge der Schallwelle ist. Daher weist das empfangene Signal an den Array-Elementen nicht nur eine Phasenverzögerung, sondern auch eine Amplitudendämpfung auf.
Schallquellenortungstechnologie
Methoden zur Schallquellenortung umfassen Beamforming, hochauflösende Spektrumschätzung und TDOA (Time Difference of Arrival). Sie transformieren die Beziehung zwischen Schallquelle und Array in räumliche Strahlen, räumliche Spektren bzw. Ankunftszeitdifferenzen und führen die Ortung anhand der entsprechenden Informationen durch.
Elektronisches Array-Scanning
Durch das vom Array erzeugte Strahlbündel wird der Raum gescannt. Die Richtung wird anhand der unterschiedlichen Unterdrückung in verschiedenen Winkeln bestimmt. Durch Steuerung der Wichtungskoeffizienten der einzelnen Elemente wird die Ausrichtungsrichtung des Arrays kontrolliert und gescannt. Die Richtung, in der die Ausgangssignalleistung beim Scannen maximal ist, wird als DOA-Richtung (Direction of Arrival) der Schallquelle angesehen, wodurch die Ortung möglich ist. Das elektronische Array-Scanning hat Grenzen und ist nur für eine einzelne Schallquelle geeignet. Befinden sich mehrere Schallquellen innerhalb desselben Hauptstrahls des Array-Richtdiagramms, können sie nicht unterschieden werden. Die Ortungsgenauigkeit hängt von der Array-Breite ab – bei einer bestimmten Frequenz ist die Strahlbreite umgekehrt proportional zur Array-Apertur. Daher ist die Implementierung von Mikrofonarrays mit großer Apertur in vielen Anwendungen hardwaremäßig schwierig.
Hochauflösende Spektrumschätzung
Methoden wie MUSIC, ESPRIT führen eine Eigenwertzerlegung der Kovarianzmatrix (Korrelationsmatrix) durch und konstruieren ein räumliches Spektrum (Spektrum über die Richtung). Die Richtung, die dem Spektrumspitzenwert entspricht, ist die Richtung der Schallquelle. Sie eignen sich für mehrere Schallquellen, und die Auflösung der Schallquellen ist unabhängig von der Array-Größe, wodurch physikalische Grenzen überwunden werden – daher der Name "hochauflösende Spektrumsmethoden". Diese Methoden können auf die Breitbandverarbeitung erweitert werden, sind jedoch sehr fehleranfällig (z.B. Mikrofon-Toleranzen, Kanalabweichungen) und eignen sich für das Fernfeldmodell. Die Matrixberechnungen sind sehr rechenintensiv.
TDOA (Time Difference of Arrival / Laufzeitdifferenz)
TDOA schätzt zunächst die Zeitdifferenz, mit der der Schall verschiedene Mikrofone erreicht. Über die Zeitdifferenz wird die Entfernungsdifferenz berechnet, und unter Verwendung der Entfernungsdifferenz und der räumlichen geometrischen Position des Mikrofonarrays wird die Position der Schallquelle bestimmt. Es umfasst zwei Schritte: TDOA-Schätzung und TDOA-Ortung.
1. TDOA-Schätzung
Häufig verwendete Methoden sind die Generalized Cross Correlation (GCC) und die LMS-adaptive Filterung.
Generalized Cross Correlation (GCC)
Generalized Cross Correlation (GCC)
Bei TDOA-basierter Schallquellenortung wird hauptsächlich GCC zur Laufzeitschätzung verwendet. Die GCC-Berechnung ist einfach, hat geringe Verzögerung und gute Tracking-Fähigkeit, was sie für Echtzeitanwendungen geeignet macht. Bei mittlerer Rauschintensität und geringem Nachhallrauschen ist die Leistung gut, in lauten, instationären Rauschumgebungen nimmt die Ortungsgenauigkeit ab.
LMS-adaptive Filterung
Sie liefert im konvergierten Zustand einen TDOA-Schätzwert und benötigt keine Vorabinformationen über Rauschen oder Signal, ist jedoch gegenüber Nachhall empfindlich. Diese Methode verwendet die beiden Mikrofonsignale als Zielsignal und Eingangssignal. Das Eingangssignal wird verwendet, um das Zielsignal anzunähern. Durch Anpassen der Filterkoeffizienten wird die TDOA erhalten.
2. TDOA-Ortung
Die TDOA-Schätzung dient der Schallquellenortung. Ein Array mit drei Mikrofonen kann die räumliche Position einer Schallquelle bestimmen. Weitere Mikrofone erhöhen die Datenpräzision. Ortungsmethoden umfassen MLE (Maximum-Likelihood-Schätzung), Minimale Varianz, Sphärische Interpolation und Lineare Schnittpunktverfahren. TDOA ist relativ weit verbreitet, bietet hohe Ortungsgenauigkeit, hat den geringsten Rechenaufwand, gute Echtzeitleistung und kann für Echtzeit-Tracking verwendet werden. Die meisten aktuellen intelligenten Ortungsprodukte verwenden TDOA als Ortungstechnologie.
Beamforming:
Beamforming kann unterteilt werden in konventionelles Beamforming (CBF, Conventional Beam Forming) und adaptives Beamforming (ABF, Adaptive Beam Forming). CBF ist die einfachste nicht-adaptive Strahlformung. Die Ausgänge der Mikrofone werden gewichtet summiert, um den Strahl zu bilden. Beim CBF sind die Gewichtungen der Kanäle fest und dienen dazu, die Nebenkeulenpegel im Richtdiagramm des Arrays zu unterdrücken, um Störungen und Rauschen aus dem Nebenkeulenbereich zu filtern. ABF erweitert CBF durch räumlich adaptive Filterung von Störungen und Rauschen. Beim ABF werden mit verschiedenen Filtern unterschiedliche Algorithmen realisiert, d.h. die Amplitudengewichtung der verschiedenen Kanäle wird basierend auf einem bestimmten Optimalitätskriterium angepasst und optimiert. Beispiele sind LMS, LS, maximales SNR, LCMV (Linear Constrained Minimum Variance, linear eingeschränkte minimale Varianz). Die Anwendung des LCMV-Kriteriums führt zum MVDR-Beamformer (Minimum Variance Distortionless Response, minimal varianter verzerrungsfreier Empfänger). Das LCMV-Kriterium besteht darin, die Verstärkung des Hauptkeulenbereichs konstant zu halten, während die Ausgangsleistung des Arrays minimiert wird. Dies bedeutet, dass die Ausgangsleistung für Störungen plus Rauschen minimiert wird, was auch als maximales SINR-Kriterium (Signal-zu-Interferenz-plus-Rausch-Verhältnis) verstanden werden kann, um das Signal bestmöglich zu empfangen und Rauschen sowie Störungen maximal zu unterdrücken.
CBF – Konventionelles Beamforming
Die verzögerungsbasierte Summationsmethode wird zur Sprachverbesserung eingesetzt. Die empfangenen Signale der Mikrofone werden verzögert, um die Zeitdifferenzen der Schallquelle zu jedem Mikrofon auszugleichen. Dadurch werden die Ausgangssignale in einer bestimmten Richtung phasengleich, was das eintreffende Signal in dieser Richtung maximal verstärkt und die Richtung mit der maximalen Ausgangsleistung im Hauptkeulenbereich festlegt. Es entsteht eine räumliche Filterung, die dem Array Richtungsselektivität verleiht.
CBF + Adaptiver Filter – Erweitertes Beamforming
Kombiniert mit Wiener-Filterung zur Verbesserung der Sprachqualität. Das rauschbehaftete Sprachsignal wird durch Wiener-Filterung in ein auf dem LMS-Kriterium basierendes sauberes Sprachsignal umgewandelt. Die Filterkoeffizienten können kontinuierlich aktualisiert werden. Im Vergleich zum herkömmlichen CBF kann nichtstationäres Rauschen effektiver entfernt werden.
ABF – Adaptives Beamforming
GSLC (Generalized Sidelobe Canceller) ist eine auf ANC (Active Noise Cancelling) basierende Methode. Das rauschbehaftete Signal durchläuft gleichzeitig den Haupt- und den Hilfskanal. Eine Sperrmatrix im Hilfskanal filtert das Sprachsignal heraus und liefert nur mehrkanaliges Rauschen als Referenzsignal. Jeder Kanal erzeugt basierend auf dem Rauschsignal eine optimale Schätzung, um ein Schätzwert für das saubere Sprachsignal zu erhalten.
Zukünftige Entwicklung der Array-Technologie
Die Mikrofonarray-Technologie bietet gegenüber Einzelmikrofonsystemen viele Vorteile und ist zu einem wichtigen Teil der Sprachverbesserung und Sprachsignalverarbeitung geworden. Sprachverbesserung und Schallquellenortung sind unverzichtbare Bestandteile der Array-Technologie und werden in Videokonferenzen, intelligenten Robotern, Hörgeräten, intelligenten Haushaltsgeräten, Kommunikation, intelligentem Spielzeug und Automobilbereichen benötigt. Verschiedene Signalverarbeitungstechniken und Array-Signalverarbeitungstechnologien werden schrittweise in die Sprachverarbeitungssysteme von Mikrofonarrays integriert, weiterentwickelt und breiter eingesetzt. In komplexen Rausch-, Nachhall- und akustischen Umgebungen ermöglicht auch leistungsstarke Hardware die Echtzeitverarbeitung komplexer Algorithmen zur Sprachverbesserung. In Zukunft wird die enge Verknüpfung von Sprache und Bildern einen neuen Durchbruch im Bereich der künstlichen Intelligenz darstellen. Werden es diejenigen sein, die an der Spitze der KI stehen und Spracherkennung, Sprachverständnis, Array-Signalverarbeitung, Fernfeld-Sprache, Bilderkennung, Gesichtserkennung, Iriserkennung und Stimmerkennung gekonnt und organisch kombinieren und die Technologie perfekt mit dem Prinzip der Menschzentriertheit verbinden? Wir werden sehen.
Bedeutung von Mikrofonarrays für künstliche Intelligenz:
Räumliche Selektivität: Durch räumliche Ortungstechniken wie elektronisches Array-Scanning kann die effektive Position der Schallquelle erfasst werden. Intelligente Geräte erhalten präzise Positionsinformationen der Schallquelle, was unsere Sprache intelligenter macht. Algorithmen ermöglichen eine hochwertige Sprachsignalqualität.
Mikrofonarrays können automatisch die Schallquellenposition erkennen und Sprecher verfolgen. Sie bieten zudem den Vorteil, mehrere Schallquellen zu erfassen und bewegliche Schallquellen zu verfolgen. Egal wo Sie sich befinden, das intelligente Gerät wird Ihre Sprachqualität in Ihrer Position und Richtung verbessern.
Mikrofonarrays fügen eine räumliche Verarbeitung hinzu. Die dreidimensionale Verarbeitung (Raum, Zeit, Frequenz) mehrerer Signale gleicht die Unzulänglichkeiten eines einzelnen Signals bei Rauschunterdrückung, Echounterdrückung, Nachhallunterdrückung, Schallquellenortung und Sprachseparation aus. So können unsere intelligenten Geräte auch in komplexen Umgebungen hochwertige Sprachsignale erfassen und ein besseres intelligentes Spracherlebnis bieten.
Technische Herausforderungen der Mikrofonarray-Technologie:
Die direkte Anwendung traditioneller Array-Signalverarbeitungstechniken auf Mikrofonarray-Verarbeitungssysteme führt oft zu unbefriedigenden Ergebnissen, da die Mikrofonarray-Verarbeitung unterschiedliche Eigenschaften aufweist:
Erstellung des Array-Modells
Mikrofone werden hauptsächlich zur Verarbeitung von Sprachsignalen eingesetzt, haben einen begrenzten Aufnahmebereich und werden meist im Nahfeldmodell verwendet. Herkömmliche Array-Verarbeitungsmethoden wie bei Radar oder Sonar (ebene Wellen, Fernfeldmodell) sind hier nicht anwendbar. Im Nahfeldmodell sind genauere Kugelwellen erforderlich, und die unterschiedliche Amplitudendämpfung aufgrund verschiedener Ausbreitungswege muss berücksichtigt werden.
Breitbandsignalverarbeitung
Übliche Array-Signalverarbeitung erfolgt oft schmalbandig, d.h. die Zeitverzögerung und Phasendifferenz zwischen verschiedenen Elementen manifestieren sich hauptsächlich in der Trägerfrequenz. Sprachsignale sind jedoch nicht moduliert und haben keinen Träger. Das Verhältnis zwischen hohen und niedrigen Frequenzen ist relativ groß. Die Phasenverzögerung zwischen verschiedenen Elementen hängt stark von den Eigenschaften der Schallquelle selbst ab – insbesondere von der Frequenz – weshalb traditionelle Array-Signalverarbeitungsmethoden nicht vollständig anwendbar sind.
Verarbeitung nichtstationärer Signale
Bei der traditionellen Array-Verarbeitung handelt es sich meist um stationäre Signale, während die zu verarbeitenden Signale von Mikrofonarrays oft nichtstationär oder kurzzeitig stationär sind. Daher werden Sprachsignale in Mikrofonarrays typischerweise kurzzeitig im Frequenzbereich verarbeitet. Jeder Frequenzbereich entspricht einer Phasendifferenz. Das Breitbandsignal wird im Frequenzbereich in mehrere Teilbänder aufgeteilt, jedes Teilband wird schmalbandig verarbeitet und dann wieder zu einem Breitbandspektrum zusammengefügt.
Nachhall
Die Schallausbreitung wird stark vom Raum beeinflusst. Aufgrund von Reflexionen und Beugung im Raum enthält das vom Mikrofon empfangene Signal neben dem Direktsignal auch überlagerte Mehrwege-Signale, die das Signal stören. Dies wird als Nachhall bezeichnet. In Innenräumen beeinträchtigt die Verlängerung des Schalls durch Reflexionen an Raumbegrenzungen oder Hindernissen die Verständlichkeit der Sprache erheblich.
Schallquellenortung
Die Schallquellenortungstechnologie findet in der KI breite Anwendung. Mikrofonarrays werden verwendet, um ein räumliches kartesisches Koordinatensystem zu bilden. Basierend auf verschiedenen linearen, planaren oder räumlichen Arrays wird die Position der Schallquelle im Raum bestimmt. Intelligente Geräte können zunächst die Sprachqualität basierend auf der Position der Schallquelle weiter verbessern. Wenn ein intelligentes Gerät Ihre Positionsinformationen erhält, kann es diese mit anderen Sensoren kombinieren, um das intelligente Erlebnis zu erweitern, z.B. indem ein Roboter auf Ihren Ruf hin zu Ihnen kommt oder Videogeräte den Sprecher fokussieren und verfolgen. Bevor wir die Schallquellenortungstechnologie verstehen, müssen wir das Nahfeld- und das Fernfeldmodell kennen.
Nahfeld- und Fernfeldmodell
Der Abstand von Mikrofonarrays beträgt normalerweise 1–3 m. Das Array befindet sich im Nahfeldmodell, wobei die Mikrofone Kugelwellen und nicht ebene Wellen empfangen. Schallwellen werden während der Ausbreitung gedämpft, wobei der Dämpfungsfaktor proportional zur Ausbreitungsdistanz ist. Daher variiert auch die Amplitude der Schallwelle beim Erreichen der Array-Elemente. Im Fernfeldmodell ist der Abstandsunterschied zur Schallquelle relativ gering und kann vernachlässigt werden. Üblicherweise definieren wir 2L²/λ als den kritischen Wert für Nah-/Fernfeld, wobei L die Array-Apertur und λ die Wellenlänge der Schallwelle ist. Daher weist das empfangene Signal an den Array-Elementen nicht nur eine Phasenverzögerung, sondern auch eine Amplitudendämpfung auf.
Schallquellenortungstechnologie
Methoden zur Schallquellenortung umfassen Beamforming, hochauflösende Spektrumschätzung und TDOA (Time Difference of Arrival). Sie transformieren die Beziehung zwischen Schallquelle und Array in räumliche Strahlen, räumliche Spektren bzw. Ankunftszeitdifferenzen und führen die Ortung anhand der entsprechenden Informationen durch.
Elektronisches Array-Scanning
Durch das vom Array erzeugte Strahlbündel wird der Raum gescannt. Die Richtung wird anhand der unterschiedlichen Unterdrückung in verschiedenen Winkeln bestimmt. Durch Steuerung der Wichtungskoeffizienten der einzelnen Elemente wird die Ausrichtungsrichtung des Arrays kontrolliert und gescannt. Die Richtung, in der die Ausgangssignalleistung beim Scannen maximal ist, wird als DOA-Richtung (Direction of Arrival) der Schallquelle angesehen, wodurch die Ortung möglich ist. Das elektronische Array-Scanning hat Grenzen und ist nur für eine einzelne Schallquelle geeignet. Befinden sich mehrere Schallquellen innerhalb desselben Hauptstrahls des Array-Richtdiagramms, können sie nicht unterschieden werden. Die Ortungsgenauigkeit hängt von der Array-Breite ab – bei einer bestimmten Frequenz ist die Strahlbreite umgekehrt proportional zur Array-Apertur. Daher ist die Implementierung von Mikrofonarrays mit großer Apertur in vielen Anwendungen hardwaremäßig schwierig.
Hochauflösende Spektrumschätzung
Methoden wie MUSIC, ESPRIT führen eine Eigenwertzerlegung der Kovarianzmatrix (Korrelationsmatrix) durch und konstruieren ein räumliches Spektrum (Spektrum über die Richtung). Die Richtung, die dem Spektrumspitzenwert entspricht, ist die Richtung der Schallquelle. Sie eignen sich für mehrere Schallquellen, und die Auflösung der Schallquellen ist unabhängig von der Array-Größe, wodurch physikalische Grenzen überwunden werden – daher der Name "hochauflösende Spektrumsmethoden". Diese Methoden können auf die Breitbandverarbeitung erweitert werden, sind jedoch sehr fehleranfällig (z.B. Mikrofon-Toleranzen, Kanalabweichungen) und eignen sich für das Fernfeldmodell. Die Matrixberechnungen sind sehr rechenintensiv.
TDOA (Time Difference of Arrival / Laufzeitdifferenz)
TDOA schätzt zunächst die Zeitdifferenz, mit der der Schall verschiedene Mikrofone erreicht. Über die Zeitdifferenz wird die Entfernungsdifferenz berechnet, und unter Verwendung der Entfernungsdifferenz und der räumlichen geometrischen Position des Mikrofonarrays wird die Position der Schallquelle bestimmt. Es umfasst zwei Schritte: TDOA-Schätzung und TDOA-Ortung.
1. TDOA-Schätzung
Häufig verwendete Methoden sind die Generalized Cross Correlation (GCC) und die LMS-adaptive Filterung.
Generalized Cross Correlation (GCC)
Generalized Cross Correlation (GCC)
Bei TDOA-basierter Schallquellenortung wird hauptsächlich GCC zur Laufzeitschätzung verwendet. Die GCC-Berechnung ist einfach, hat geringe Verzögerung und gute Tracking-Fähigkeit, was sie für Echtzeitanwendungen geeignet macht. Bei mittlerer Rauschintensität und geringem Nachhallrauschen ist die Leistung gut, in lauten, instationären Rauschumgebungen nimmt die Ortungsgenauigkeit ab.
LMS-adaptive Filterung
Sie liefert im konvergierten Zustand einen TDOA-Schätzwert und benötigt keine Vorabinformationen über Rauschen oder Signal, ist jedoch gegenüber Nachhall empfindlich. Diese Methode verwendet die beiden Mikrofonsignale als Zielsignal und Eingangssignal. Das Eingangssignal wird verwendet, um das Zielsignal anzunähern. Durch Anpassen der Filterkoeffizienten wird die TDOA erhalten.
2. TDOA-Ortung
Die TDOA-Schätzung dient der Schallquellenortung. Ein Array mit drei Mikrofonen kann die räumliche Position einer Schallquelle bestimmen. Weitere Mikrofone erhöhen die Datenpräzision. Ortungsmethoden umfassen MLE (Maximum-Likelihood-Schätzung), Minimale Varianz, Sphärische Interpolation und Lineare Schnittpunktverfahren. TDOA ist relativ weit verbreitet, bietet hohe Ortungsgenauigkeit, hat den geringsten Rechenaufwand, gute Echtzeitleistung und kann für Echtzeit-Tracking verwendet werden. Die meisten aktuellen intelligenten Ortungsprodukte verwenden TDOA als Ortungstechnologie.
Beamforming:
Beamforming kann unterteilt werden in konventionelles Beamforming (CBF, Conventional Beam Forming) und adaptives Beamforming (ABF, Adaptive Beam Forming). CBF ist die einfachste nicht-adaptive Strahlformung. Die Ausgänge der Mikrofone werden gewichtet summiert, um den Strahl zu bilden. Beim CBF sind die Gewichtungen der Kanäle fest und dienen dazu, die Nebenkeulenpegel im Richtdiagramm des Arrays zu unterdrücken, um Störungen und Rauschen aus dem Nebenkeulenbereich zu filtern. ABF erweitert CBF durch räumlich adaptive Filterung von Störungen und Rauschen. Beim ABF werden mit verschiedenen Filtern unterschiedliche Algorithmen realisiert, d.h. die Amplitudengewichtung der verschiedenen Kanäle wird basierend auf einem bestimmten Optimalitätskriterium angepasst und optimiert. Beispiele sind LMS, LS, maximales SNR, LCMV (Linear Constrained Minimum Variance, linear eingeschränkte minimale Varianz). Die Anwendung des LCMV-Kriteriums führt zum MVDR-Beamformer (Minimum Variance Distortionless Response, minimal varianter verzerrungsfreier Empfänger). Das LCMV-Kriterium besteht darin, die Verstärkung des Hauptkeulenbereichs konstant zu halten, während die Ausgangsleistung des Arrays minimiert wird. Dies bedeutet, dass die Ausgangsleistung für Störungen plus Rauschen minimiert wird, was auch als maximales SINR-Kriterium (Signal-zu-Interferenz-plus-Rausch-Verhältnis) verstanden werden kann, um das Signal bestmöglich zu empfangen und Rauschen sowie Störungen maximal zu unterdrücken.
CBF – Konventionelles Beamforming
Die verzögerungsbasierte Summationsmethode wird zur Sprachverbesserung eingesetzt. Die empfangenen Signale der Mikrofone werden verzögert, um die Zeitdifferenzen der Schallquelle zu jedem Mikrofon auszugleichen. Dadurch werden die Ausgangssignale in einer bestimmten Richtung phasengleich, was das eintreffende Signal in dieser Richtung maximal verstärkt und die Richtung mit der maximalen Ausgangsleistung im Hauptkeulenbereich festlegt. Es entsteht eine räumliche Filterung, die dem Array Richtungsselektivität verleiht.
CBF + Adaptiver Filter – Erweitertes Beamforming
Kombiniert mit Wiener-Filterung zur Verbesserung der Sprachqualität. Das rauschbehaftete Sprachsignal wird durch Wiener-Filterung in ein auf dem LMS-Kriterium basierendes sauberes Sprachsignal umgewandelt. Die Filterkoeffizienten können kontinuierlich aktualisiert werden. Im Vergleich zum herkömmlichen CBF kann nichtstationäres Rauschen effektiver entfernt werden.
ABF – Adaptives Beamforming
GSLC (Generalized Sidelobe Canceller) ist eine auf ANC (Active Noise Cancelling) basierende Methode. Das rauschbehaftete Signal durchläuft gleichzeitig den Haupt- und den Hilfskanal. Eine Sperrmatrix im Hilfskanal filtert das Sprachsignal heraus und liefert nur mehrkanaliges Rauschen als Referenzsignal. Jeder Kanal erzeugt basierend auf dem Rauschsignal eine optimale Schätzung, um ein Schätzwert für das saubere Sprachsignal zu erhalten.
Zukünftige Entwicklung der Array-Technologie
Die Mikrofonarray-Technologie bietet gegenüber Einzelmikrofonsystemen viele Vorteile und ist zu einem wichtigen Teil der Sprachverbesserung und Sprachsignalverarbeitung geworden. Sprachverbesserung und Schallquellenortung sind unverzichtbare Bestandteile der Array-Technologie und werden in Videokonferenzen, intelligenten Robotern, Hörgeräten, intelligenten Haushaltsgeräten, Kommunikation, intelligentem Spielzeug und Automobilbereichen benötigt. Verschiedene Signalverarbeitungstechniken und Array-Signalverarbeitungstechnologien werden schrittweise in die Sprachverarbeitungssysteme von Mikrofonarrays integriert, weiterentwickelt und breiter eingesetzt. In komplexen Rausch-, Nachhall- und akustischen Umgebungen ermöglicht auch leistungsstarke Hardware die Echtzeitverarbeitung komplexer Algorithmen zur Sprachverbesserung. In Zukunft wird die enge Verknüpfung von Sprache und Bildern einen neuen Durchbruch im Bereich der künstlichen Intelligenz darstellen. Werden es diejenigen sein, die an der Spitze der KI stehen und Spracherkennung, Sprachverständnis, Array-Signalverarbeitung, Fernfeld-Sprache, Bilderkennung, Gesichtserkennung, Iriserkennung und Stimmerkennung gekonnt und organisch kombinieren und die Technologie perfekt mit dem Prinzip der Menschzentriertheit verbinden? Wir werden sehen.