Tecnología de procesamiento de señales de voz con matriz de micrófonos
A medida que la inteligencia artificial se acerca cada vez más a la vida de las personas, el desarrollo de la tecnología de voz también ha recibido mucha atención. La voz de campo cercano tradicional ya no puede satisfacer las necesidades de las personas, que desean controlar dispositivos inteligentes por voz a distancias más largas y en entornos más complejos. Por lo tanto, la tecnología de matriz se ha convertido en el núcleo de la tecnología de voz de campo lejano.
El significado de la matriz de micrófonos para la inteligencia artificial:
Selectividad espacial: A través de tecnologías de posicionamiento espacial como matrices de barrido eléctrico, se puede obtener la posición efectiva de la fuente de sonido. Los dispositivos inteligentes, al obtener información precisa de la posición de la fuente de sonido, hacen que nuestra voz sea más inteligente, y mediante algoritmos se obtiene una calidad de señal de voz de alta calidad.
La matriz de micrófonos puede detectar automáticamente la posición de la fuente de sonido, rastrear al hablante, y además tiene la ventaja de obtener múltiples fuentes de sonido y rastrear fuentes de sonido móviles. No importa a dónde vaya, el dispositivo inteligente mejorará la voz en la dirección de su posición.
La matriz de micrófonos agrega procesamiento en el dominio espacial. El procesamiento tridimensional espacial, temporal y frecuencial de múltiples señales compensa las deficiencias de una sola señal en supresión de ruido, supresión de eco, supresión de reverberación, localización de fuentes de sonido y separación de voz, permitiendo que nuestros dispositivos inteligentes obtengan señales de voz de alta calidad incluso en entornos complejos, brindando una mejor experiencia de voz inteligente.
Dificultades técnicas de la tecnología de matriz de micrófonos:
Las técnicas tradicionales de procesamiento de señales de matriz aplicadas directamente a sistemas de procesamiento de matrices de micrófonos a menudo tienen un efecto no ideal. La razón es que el procesamiento de matrices de micrófonos tiene diferentes características:
Establecimiento del modelo de matriz
Los micrófonos se utilizan principalmente para procesar señales de voz, con un rango de captación limitado y principalmente en modelos de campo cercano. Esto hace que los métodos convencionales de procesamiento de matrices, como los modelos de onda plana de campo lejano utilizados en radar, sonar, etc., ya no sean aplicables. En modelos de campo cercano, se requiere una onda esférica más precisa, y se debe considerar la diferente atenuación de amplitud causada por diferentes rutas de propagación.
Procesamiento de señales de banda ancha
El procesamiento de señales de matriz suele ser de banda estrecha, es decir, los diferentes elementos de la matriz experimentan retrasos temporales y diferencias de fase principalmente en la frecuencia portadora. Sin embargo, las señales de voz no están moduladas y no tienen portadora, y la relación entre altas y bajas frecuencias es relativamente grande. El retraso de fase entre diferentes elementos de la matriz está estrechamente relacionado con las características de la fuente de sonido misma (depende de la frecuencia), lo que hace que los métodos tradicionales de procesamiento de señales de matriz ya no sean completamente aplicables.
Procesamiento de señales no estacionarias
En el procesamiento de matrices tradicional, las señales suelen ser estacionarias, mientras que las señales procesadas por matrices de micrófonos suelen ser no estacionarias o estacionarias a corto plazo. Por lo tanto, las matrices de micrófonos generalmente realizan un procesamiento de dominio de frecuencia a corto plazo de la señal. Cada dominio de frecuencia corresponde a una diferencia de fase. La señal de banda ancha se divide en múltiples sub-bandas en el dominio de la frecuencia, cada sub-banda se procesa como banda estrecha y luego se combina en un espectro de banda ancha.
Reverberación
La propagación del sonido se ve muy afectada por el espacio. Debido a la reflexión y difracción espacial, la señal recibida por el micrófono incluye, además de la señal directa, la superposición de señales multicamino, lo que interfiere con la señal, lo que se conoce como reverberación. En entornos interiores, la difracción o reflexión en los límites de la habitación o en obstáculos provoca la persistencia del sonido, lo que afecta enormemente la inteligibilidad del habla.
Localización de la fuente de sonido
La tecnología de localización de fuentes de sonido se utiliza ampliamente en el campo de la inteligencia artificial. Utiliza matrices de micrófonos para formar un sistema de coordenadas cartesianas espaciales y, según diferentes matrices lineales, planas y espaciales, determina la posición de la fuente de sonido en el espacio. Primero, el dispositivo inteligente puede mejorar aún más la voz en función de la posición de la fuente de sonido. Cuando el dispositivo inteligente obtiene su información de posición, puede combinarla con otros sensores para una experiencia inteligente más avanzada, como que un robot escuche su llamado y se acerque, o que un dispositivo de video enfoque y bloquee al hablante, etc. Antes de entender la tecnología de localización de fuentes de sonido, necesitamos comprender los modelos de campo cercano y campo lejano.
Modelos de campo cercano y campo lejano
Generalmente, la distancia de la matriz de micrófonos es de 1 a 3 m, ubicándose en el modelo de campo cercano. La matriz de micrófonos recibe ondas esféricas en lugar de ondas planas. La onda de sonido se atenúa durante la propagación, y el factor de atenuación es proporcional a la distancia recorrida. Por lo tanto, la amplitud de la onda de sonido cuando llega a cada elemento de la matriz también varía. En el modelo de campo lejano, la diferencia de distancia desde la fuente de sonido a los elementos de la matriz es relativamente pequeña y puede ignorarse. Generalmente, definimos 2L²/λ como el valor crítico entre campo cercano y lejano, donde L es la apertura de la matriz y λ es la longitud de onda del sonido. Por lo tanto, la señal recibida por los elementos de la matriz tiene no solo un retraso de fase sino también una atenuación de amplitud.
Tecnología de localización de fuentes de sonido
Los métodos de localización de fuentes de sonido incluyen formación de haz, estimación espectral de súper resolución y TDOA (Diferencia de Tiempo de Llegada), que transforman la relación entre la fuente de sonido y la matriz en haces espaciales, espectros espaciales y diferencias de tiempo de llegada, respectivamente, y localizan mediante la información correspondiente.
Matriz de barrido eléctrico
El haz formado por la matriz escanea el espacio, y la dirección se determina según la diferente supresión en diferentes ángulos. Se controla el coeficiente de ponderación de cada elemento de la matriz para controlar la dirección de salida de la matriz y realizar el escaneo. Cuando el sistema escanea y la potencia de la señal de salida es máxima, la dirección del haz correspondiente se considera la dirección DOA (Dirección de Llegada) de la fuente de sonido, lo que permite la localización. La forma de matriz de barrido eléctrico tiene ciertas limitaciones: solo es aplicable a una única fuente de sonido. Si múltiples fuentes de sonido están dentro del mismo lóbulo principal del diagrama de radiación de la matriz, no se pueden distinguir. Además, la precisión de esta localización está relacionada con el ancho de la matriz: a una frecuencia específica, el ancho del haz es inversamente proporcional a la apertura de la matriz, por lo que es difícil implementar matrices de micrófonos de gran apertura en hardware en muchas situaciones.
Estimación espectral de súper resolución
Como MUSIC, ESPRIT, etc. Descomponen en valores propios la matriz de covarianza (matriz de correlación), construyen un espectro espacial (espectro direccional), y la dirección correspondiente al pico espectral es la dirección de la fuente de sonido. Adecuado para múltiples fuentes de sonido, y la resolución de las fuentes es independiente del tamaño de la matriz, superando las limitaciones físicas, de ahí el nombre de esquemas de súper resolución espectral. Estos métodos se pueden extender al procesamiento de banda ancha, pero son muy sensibles a errores (como errores del micrófono individual, errores del canal) y son adecuados para modelos de campo lejano. Además, el cálculo matricial es enorme.
TDOA (Diferencia de Tiempo de Llegada)
TDOA estima primero la diferencia de tiempo de llegada de la fuente de sonido a diferentes micrófonos. Luego, utiliza el retraso para calcular la diferencia de distancia y, finalmente, usa la diferencia de distancia junto con la posición geométrica espacial de la matriz de micrófonos para determinar la posición de la fuente de sonido. Se divide en dos pasos: estimación TDOA y localización TDOA:
1. Estimación TDOA
Los métodos comunes incluyen la correlación cruzada generalizada GCC (Generalized Cross Correlation) y el filtrado adaptativo LMS.
Correlación cruzada generalizada (GCC)
Correlación cruzada generalizada
En los métodos de localización de fuentes de sonido basados en TDOA, se utiliza principalmente GCC para estimar el retardo. El cálculo GCC es simple, tiene un retardo pequeño y una buena capacidad de seguimiento, es adecuado para aplicaciones en tiempo real y tiene un buen rendimiento en condiciones de ruido de intensidad media y baja reverberación. La precisión de localización disminuye en entornos ruidosos no estacionarios.
Filtrado adaptativo LMS
Da una estimación TDOA en estado de convergencia, sin necesidad de información previa sobre ruido o señal, pero es más sensible a la reverberación. Este método toma las señales de dos micrófonos como señal objetivo y señal de entrada, usa la señal de entrada para aproximarse a la señal objetivo y obtiene el TDOA ajustando los coeficientes del filtro.
2. Localización TDOA
Utiliza la estimación TDOA para localizar la fuente de sonido. Una matriz de tres micrófonos puede determinar la posición espacial de la fuente de sonido. Agregar más micrófonos aumenta la precisión de los datos. Los métodos de localización incluyen MLE (Estimación de Máxima Verosimilitud), mínima varianza, interpolación esférica e intersección lineal, etc. TDOA es relativamente ampliamente aplicado, tiene alta precisión de localización, el menor cálculo computacional, buen rendimiento en tiempo real y se puede utilizar para seguimiento en tiempo real. Actualmente, la mayoría de los productos de localización inteligente utilizan la tecnología TDOA como tecnología de localización.
Formación de haz:
La formación de haz se puede dividir en formación de haz convencional CBF (Conventional Beam Forming) y formación de haz adaptativo ABF (Adaptive Beam Forming). CBF es la formación de haz no adaptativa más simple, que suma ponderadamente las salidas de cada micrófono para obtener un haz. En CBF, los pesos de cada canal son fijos y su función es suprimir el nivel de lóbulos laterales en el diagrama de radiación de la matriz para filtrar interferencias y ruido en la región de lóbulos laterales. ABF, basado en CBF, realiza un filtrado espacial adaptativo de interferencias y ruido. En ABF, se utilizan diferentes filtros para obtener diferentes algoritmos, es decir, los valores de ponderación de amplitud de cada canal se ajustan y optimizan según algún criterio óptimo. Como LMS, LS (Mínimos Cuadrados), máxima SNR (Relación Señal-Ruido), LCMV (Mínima Varianza con Restricción Lineal, linearly constrained Minimum Variance). Usar el criterio LCMV da como resultado el formador de haz MVDR (Respuesta sin Distorsión de Mínima Varianza, Minimum Variance Distortionless Response). El criterio LCMV es minimizar la potencia de salida de la matriz mientras se mantiene constante la ganancia del lóbulo principal del diagrama de radiación, lo que indica que la potencia de salida de interferencia más ruido es mínima. También se puede entender como el criterio de máxima SINR (Relación Señal a Interferencia más Ruido), maximizando así la posibilidad de recibir la señal y suprimir ruido e interferencias.
CBF - Formación de haz convencional
El método de formación de haz por suma retardada se utiliza para mejorar la voz. Retarda la señal recibida por los micrófonos, compensando la diferencia de tiempo desde la fuente de sonido a cada micrófono, de modo que las señales de salida de cada ruta estén en fase en una dirección particular. Esto maximiza la ganancia para la señal incidente en esa dirección, dando como resultado la dirección de máxima potencia de salida dentro del lóbulo principal. Forma un filtro espacial, dando a la matriz selectividad direccional.
CBF + Filtro Adaptativo - Formación de haz mejorada
Combina el filtrado de Wiener para mejorar el efecto de mejora de voz. La voz ruidosa pasa por un filtro de Wiener para obtener una señal de voz limpia basada en el criterio LMS. Los coeficientes del filtro se pueden actualizar iterativamente. En comparación con CBF tradicional, puede eliminar más eficazmente el ruido no estacionario.
ABF - Formación de haz adaptativo
GSLC es un método basado en cancelación activa de ruido ANC. La señal ruidosa pasa simultáneamente por el canal principal y los canales auxiliares. La matriz de bloqueo en los canales auxiliares filtra la señal de voz, obteniendo señales de referencia que contienen solo ruido multicanal. Cada canal obtiene una estimación óptima de la señal basada en la señal de ruido, obteniendo una estimación de la señal de voz limpia.
Desarrollo futuro de la tecnología de matrices
La tecnología de matrices de micrófonos tiene muchas ventajas sobre los sistemas de un solo micrófono y se ha convertido en una parte importante del mejoramiento de voz y el procesamiento de señales de voz. La mejora de voz y la localización de fuentes de sonido se han vuelto partes indispensables de la tecnología de matrices, necesarias en videoconferencias, robots inteligentes, audífonos, electrodomésticos inteligentes, comunicaciones, juguetes inteligentes y el campo automotriz. Diversas técnicas de procesamiento de señales y técnicas de procesamiento de señales de matriz se han integrado continuamente en los sistemas de procesamiento de voz con matrices de micrófonos, obteniendo mejoras algorítmicas y una aplicación más amplia. En entornos complejos de ruido, reverberación y acústica, la poderosa capacidad de procesamiento de hardware también ha hecho posible el procesamiento en tiempo real de algoritmos complejos para mejorar la voz. En el futuro, la estrecha integración de voz e imagen se convertirá en un nuevo punto de inflexión en el campo de la inteligencia artificial. En la cresta de la ola de la IA, veremos quién podrá combinar hábil y orgánicamente las tecnologías de reconocimiento de voz, comprensión del habla, procesamiento de señales de matriz, voz de campo lejano, reconocimiento de imágenes, reconocimiento facial, reconocimiento de iris y reconocimiento de voz (biometría vocal), fusionando perfectamente la esencia de la tecnología con el principio centrado en el ser humano. Estemos atentos.
El significado de la matriz de micrófonos para la inteligencia artificial:
Selectividad espacial: A través de tecnologías de posicionamiento espacial como matrices de barrido eléctrico, se puede obtener la posición efectiva de la fuente de sonido. Los dispositivos inteligentes, al obtener información precisa de la posición de la fuente de sonido, hacen que nuestra voz sea más inteligente, y mediante algoritmos se obtiene una calidad de señal de voz de alta calidad.
La matriz de micrófonos puede detectar automáticamente la posición de la fuente de sonido, rastrear al hablante, y además tiene la ventaja de obtener múltiples fuentes de sonido y rastrear fuentes de sonido móviles. No importa a dónde vaya, el dispositivo inteligente mejorará la voz en la dirección de su posición.
La matriz de micrófonos agrega procesamiento en el dominio espacial. El procesamiento tridimensional espacial, temporal y frecuencial de múltiples señales compensa las deficiencias de una sola señal en supresión de ruido, supresión de eco, supresión de reverberación, localización de fuentes de sonido y separación de voz, permitiendo que nuestros dispositivos inteligentes obtengan señales de voz de alta calidad incluso en entornos complejos, brindando una mejor experiencia de voz inteligente.
Dificultades técnicas de la tecnología de matriz de micrófonos:
Las técnicas tradicionales de procesamiento de señales de matriz aplicadas directamente a sistemas de procesamiento de matrices de micrófonos a menudo tienen un efecto no ideal. La razón es que el procesamiento de matrices de micrófonos tiene diferentes características:
Establecimiento del modelo de matriz
Los micrófonos se utilizan principalmente para procesar señales de voz, con un rango de captación limitado y principalmente en modelos de campo cercano. Esto hace que los métodos convencionales de procesamiento de matrices, como los modelos de onda plana de campo lejano utilizados en radar, sonar, etc., ya no sean aplicables. En modelos de campo cercano, se requiere una onda esférica más precisa, y se debe considerar la diferente atenuación de amplitud causada por diferentes rutas de propagación.
Procesamiento de señales de banda ancha
El procesamiento de señales de matriz suele ser de banda estrecha, es decir, los diferentes elementos de la matriz experimentan retrasos temporales y diferencias de fase principalmente en la frecuencia portadora. Sin embargo, las señales de voz no están moduladas y no tienen portadora, y la relación entre altas y bajas frecuencias es relativamente grande. El retraso de fase entre diferentes elementos de la matriz está estrechamente relacionado con las características de la fuente de sonido misma (depende de la frecuencia), lo que hace que los métodos tradicionales de procesamiento de señales de matriz ya no sean completamente aplicables.
Procesamiento de señales no estacionarias
En el procesamiento de matrices tradicional, las señales suelen ser estacionarias, mientras que las señales procesadas por matrices de micrófonos suelen ser no estacionarias o estacionarias a corto plazo. Por lo tanto, las matrices de micrófonos generalmente realizan un procesamiento de dominio de frecuencia a corto plazo de la señal. Cada dominio de frecuencia corresponde a una diferencia de fase. La señal de banda ancha se divide en múltiples sub-bandas en el dominio de la frecuencia, cada sub-banda se procesa como banda estrecha y luego se combina en un espectro de banda ancha.
Reverberación
La propagación del sonido se ve muy afectada por el espacio. Debido a la reflexión y difracción espacial, la señal recibida por el micrófono incluye, además de la señal directa, la superposición de señales multicamino, lo que interfiere con la señal, lo que se conoce como reverberación. En entornos interiores, la difracción o reflexión en los límites de la habitación o en obstáculos provoca la persistencia del sonido, lo que afecta enormemente la inteligibilidad del habla.
Localización de la fuente de sonido
La tecnología de localización de fuentes de sonido se utiliza ampliamente en el campo de la inteligencia artificial. Utiliza matrices de micrófonos para formar un sistema de coordenadas cartesianas espaciales y, según diferentes matrices lineales, planas y espaciales, determina la posición de la fuente de sonido en el espacio. Primero, el dispositivo inteligente puede mejorar aún más la voz en función de la posición de la fuente de sonido. Cuando el dispositivo inteligente obtiene su información de posición, puede combinarla con otros sensores para una experiencia inteligente más avanzada, como que un robot escuche su llamado y se acerque, o que un dispositivo de video enfoque y bloquee al hablante, etc. Antes de entender la tecnología de localización de fuentes de sonido, necesitamos comprender los modelos de campo cercano y campo lejano.
Modelos de campo cercano y campo lejano
Generalmente, la distancia de la matriz de micrófonos es de 1 a 3 m, ubicándose en el modelo de campo cercano. La matriz de micrófonos recibe ondas esféricas en lugar de ondas planas. La onda de sonido se atenúa durante la propagación, y el factor de atenuación es proporcional a la distancia recorrida. Por lo tanto, la amplitud de la onda de sonido cuando llega a cada elemento de la matriz también varía. En el modelo de campo lejano, la diferencia de distancia desde la fuente de sonido a los elementos de la matriz es relativamente pequeña y puede ignorarse. Generalmente, definimos 2L²/λ como el valor crítico entre campo cercano y lejano, donde L es la apertura de la matriz y λ es la longitud de onda del sonido. Por lo tanto, la señal recibida por los elementos de la matriz tiene no solo un retraso de fase sino también una atenuación de amplitud.
Tecnología de localización de fuentes de sonido
Los métodos de localización de fuentes de sonido incluyen formación de haz, estimación espectral de súper resolución y TDOA (Diferencia de Tiempo de Llegada), que transforman la relación entre la fuente de sonido y la matriz en haces espaciales, espectros espaciales y diferencias de tiempo de llegada, respectivamente, y localizan mediante la información correspondiente.
Matriz de barrido eléctrico
El haz formado por la matriz escanea el espacio, y la dirección se determina según la diferente supresión en diferentes ángulos. Se controla el coeficiente de ponderación de cada elemento de la matriz para controlar la dirección de salida de la matriz y realizar el escaneo. Cuando el sistema escanea y la potencia de la señal de salida es máxima, la dirección del haz correspondiente se considera la dirección DOA (Dirección de Llegada) de la fuente de sonido, lo que permite la localización. La forma de matriz de barrido eléctrico tiene ciertas limitaciones: solo es aplicable a una única fuente de sonido. Si múltiples fuentes de sonido están dentro del mismo lóbulo principal del diagrama de radiación de la matriz, no se pueden distinguir. Además, la precisión de esta localización está relacionada con el ancho de la matriz: a una frecuencia específica, el ancho del haz es inversamente proporcional a la apertura de la matriz, por lo que es difícil implementar matrices de micrófonos de gran apertura en hardware en muchas situaciones.
Estimación espectral de súper resolución
Como MUSIC, ESPRIT, etc. Descomponen en valores propios la matriz de covarianza (matriz de correlación), construyen un espectro espacial (espectro direccional), y la dirección correspondiente al pico espectral es la dirección de la fuente de sonido. Adecuado para múltiples fuentes de sonido, y la resolución de las fuentes es independiente del tamaño de la matriz, superando las limitaciones físicas, de ahí el nombre de esquemas de súper resolución espectral. Estos métodos se pueden extender al procesamiento de banda ancha, pero son muy sensibles a errores (como errores del micrófono individual, errores del canal) y son adecuados para modelos de campo lejano. Además, el cálculo matricial es enorme.
TDOA (Diferencia de Tiempo de Llegada)
TDOA estima primero la diferencia de tiempo de llegada de la fuente de sonido a diferentes micrófonos. Luego, utiliza el retraso para calcular la diferencia de distancia y, finalmente, usa la diferencia de distancia junto con la posición geométrica espacial de la matriz de micrófonos para determinar la posición de la fuente de sonido. Se divide en dos pasos: estimación TDOA y localización TDOA:
1. Estimación TDOA
Los métodos comunes incluyen la correlación cruzada generalizada GCC (Generalized Cross Correlation) y el filtrado adaptativo LMS.
Correlación cruzada generalizada (GCC)
Correlación cruzada generalizada
En los métodos de localización de fuentes de sonido basados en TDOA, se utiliza principalmente GCC para estimar el retardo. El cálculo GCC es simple, tiene un retardo pequeño y una buena capacidad de seguimiento, es adecuado para aplicaciones en tiempo real y tiene un buen rendimiento en condiciones de ruido de intensidad media y baja reverberación. La precisión de localización disminuye en entornos ruidosos no estacionarios.
Filtrado adaptativo LMS
Da una estimación TDOA en estado de convergencia, sin necesidad de información previa sobre ruido o señal, pero es más sensible a la reverberación. Este método toma las señales de dos micrófonos como señal objetivo y señal de entrada, usa la señal de entrada para aproximarse a la señal objetivo y obtiene el TDOA ajustando los coeficientes del filtro.
2. Localización TDOA
Utiliza la estimación TDOA para localizar la fuente de sonido. Una matriz de tres micrófonos puede determinar la posición espacial de la fuente de sonido. Agregar más micrófonos aumenta la precisión de los datos. Los métodos de localización incluyen MLE (Estimación de Máxima Verosimilitud), mínima varianza, interpolación esférica e intersección lineal, etc. TDOA es relativamente ampliamente aplicado, tiene alta precisión de localización, el menor cálculo computacional, buen rendimiento en tiempo real y se puede utilizar para seguimiento en tiempo real. Actualmente, la mayoría de los productos de localización inteligente utilizan la tecnología TDOA como tecnología de localización.
Formación de haz:
La formación de haz se puede dividir en formación de haz convencional CBF (Conventional Beam Forming) y formación de haz adaptativo ABF (Adaptive Beam Forming). CBF es la formación de haz no adaptativa más simple, que suma ponderadamente las salidas de cada micrófono para obtener un haz. En CBF, los pesos de cada canal son fijos y su función es suprimir el nivel de lóbulos laterales en el diagrama de radiación de la matriz para filtrar interferencias y ruido en la región de lóbulos laterales. ABF, basado en CBF, realiza un filtrado espacial adaptativo de interferencias y ruido. En ABF, se utilizan diferentes filtros para obtener diferentes algoritmos, es decir, los valores de ponderación de amplitud de cada canal se ajustan y optimizan según algún criterio óptimo. Como LMS, LS (Mínimos Cuadrados), máxima SNR (Relación Señal-Ruido), LCMV (Mínima Varianza con Restricción Lineal, linearly constrained Minimum Variance). Usar el criterio LCMV da como resultado el formador de haz MVDR (Respuesta sin Distorsión de Mínima Varianza, Minimum Variance Distortionless Response). El criterio LCMV es minimizar la potencia de salida de la matriz mientras se mantiene constante la ganancia del lóbulo principal del diagrama de radiación, lo que indica que la potencia de salida de interferencia más ruido es mínima. También se puede entender como el criterio de máxima SINR (Relación Señal a Interferencia más Ruido), maximizando así la posibilidad de recibir la señal y suprimir ruido e interferencias.
CBF - Formación de haz convencional
El método de formación de haz por suma retardada se utiliza para mejorar la voz. Retarda la señal recibida por los micrófonos, compensando la diferencia de tiempo desde la fuente de sonido a cada micrófono, de modo que las señales de salida de cada ruta estén en fase en una dirección particular. Esto maximiza la ganancia para la señal incidente en esa dirección, dando como resultado la dirección de máxima potencia de salida dentro del lóbulo principal. Forma un filtro espacial, dando a la matriz selectividad direccional.
CBF + Filtro Adaptativo - Formación de haz mejorada
Combina el filtrado de Wiener para mejorar el efecto de mejora de voz. La voz ruidosa pasa por un filtro de Wiener para obtener una señal de voz limpia basada en el criterio LMS. Los coeficientes del filtro se pueden actualizar iterativamente. En comparación con CBF tradicional, puede eliminar más eficazmente el ruido no estacionario.
ABF - Formación de haz adaptativo
GSLC es un método basado en cancelación activa de ruido ANC. La señal ruidosa pasa simultáneamente por el canal principal y los canales auxiliares. La matriz de bloqueo en los canales auxiliares filtra la señal de voz, obteniendo señales de referencia que contienen solo ruido multicanal. Cada canal obtiene una estimación óptima de la señal basada en la señal de ruido, obteniendo una estimación de la señal de voz limpia.
Desarrollo futuro de la tecnología de matrices
La tecnología de matrices de micrófonos tiene muchas ventajas sobre los sistemas de un solo micrófono y se ha convertido en una parte importante del mejoramiento de voz y el procesamiento de señales de voz. La mejora de voz y la localización de fuentes de sonido se han vuelto partes indispensables de la tecnología de matrices, necesarias en videoconferencias, robots inteligentes, audífonos, electrodomésticos inteligentes, comunicaciones, juguetes inteligentes y el campo automotriz. Diversas técnicas de procesamiento de señales y técnicas de procesamiento de señales de matriz se han integrado continuamente en los sistemas de procesamiento de voz con matrices de micrófonos, obteniendo mejoras algorítmicas y una aplicación más amplia. En entornos complejos de ruido, reverberación y acústica, la poderosa capacidad de procesamiento de hardware también ha hecho posible el procesamiento en tiempo real de algoritmos complejos para mejorar la voz. En el futuro, la estrecha integración de voz e imagen se convertirá en un nuevo punto de inflexión en el campo de la inteligencia artificial. En la cresta de la ola de la IA, veremos quién podrá combinar hábil y orgánicamente las tecnologías de reconocimiento de voz, comprensión del habla, procesamiento de señales de matriz, voz de campo lejano, reconocimiento de imágenes, reconocimiento facial, reconocimiento de iris y reconocimiento de voz (biometría vocal), fusionando perfectamente la esencia de la tecnología con el principio centrado en el ser humano. Estemos atentos.