Технологии обработки речевых сигналов с использованием микрофонных массивов
По мере того, как искусственный интеллект все глубже проникает в нашу жизнь, развитию речевых технологий уделяется все больше внимания. Традиционное ближнее поле уже не удовлетворяет потребностям людей; они хотят управлять умными устройствами голосом на большем расстоянии и в более сложных условиях. Таким образом, технология массивов стала ядром технологий дальней речи.
Значение микрофонных массивов для искусственного интеллекта:
Пространственная избирательность: Технологии пространственного позиционирования, такие как электронное сканирование массива, позволяют определять точное местоположение источника звука. Умные устройства, получая точную информацию о местоположении источника, делают нашу речь более интеллектуальной, а алгоритмы обеспечивают высокое качество речевого сигнала.
Микрофонные массивы могут автоматически определять положение источника звука, отслеживать говорящего, а также обладают преимуществом работы с несколькими источниками и отслеживания движущихся источников. Независимо от вашего местоположения, умное устройство будет усиливать речь в вашем направлении.
Микрофонные массивы добавляют пространственную обработку, а обработка многоканальных сигналов в трех измерениях (пространство, время, частота) компенсирует недостатки одноканальной обработки в подавлении шума, эха, реверберации, локализации источника звука и разделении речи. Это позволяет нашим умным устройствам получать высококачественный речевой сигнал в сложных условиях, обеспечивая лучший опыт использования голосового интерфейса.
Технические сложности технологии микрофонных массивов:
Прямое применение традиционных технологий обработки сигналов массивов в системах микрофонных массивов часто дает неудовлетворительные результаты, что связано с особенностями их обработки:
Построение модели массива
Микрофоны в основном обрабатывают речевые сигналы, имеют ограниченную зону захвата звука и чаще используются в ближнем поле. Это делает неприменимыми традиционные методы обработки массивов (например, для радаров, сонаров), основанные на модели плоской волны в дальней зоне. В ближнем поле требуется более точная модель сферической волны, учитывающая различное затухание амплитуды из-за разной длины пути распространения.
Обработка широкополосных сигналов
Обычно обработка сигналов массивов рассчитана на узкополосные сигналы, где задержки и фазовые сдвиги между элементами проявляются на несущей частоте. Речевой сигнал не модулирован, не имеет несущей, и имеет большой коэффициент отношения высоких/низких частот. Фазовые задержки между элементами сильно зависят от характеристик самого источника звука – от частоты, что делает традиционные методы обработки сигналов массивов не полностью применимыми.
Обработка нестационарных сигналов
В традиционной обработке массивов часто используются стационарные сигналы, а сигналы микрофонных массивов часто нестационарны или кратковременно стационарны. Поэтому микрофонные массивы обычно обрабатывают сигналы в коротких временных окнах в частотной области. Каждая частотная полоса соответствует своей фазовой разности: широкополосный сигнал разделяется на поддиапазоны в частотной области, каждый поддиапазон обрабатывается как узкополосный, а затем объединяется обратно в широкополосный спектр.
Реверберация
Распространение звука сильно зависит от пространства. Из-за отражений и дифракции в помещении микрофон принимает не только прямой сигнал, но и суперпозицию многолучевых сигналов, что создает помехи, известные как реверберация. В закрытых помещениях отражения от границ комнаты или препятствий вызывают затухание звука, что значительно снижает разборчивость речи.
Локализация источника звука
Технология локализации источника звука широко применяется в искусственном интеллекте. Используя микрофонные массивы для построения пространственной декартовой системы координат, в зависимости от типа массива (линейный, плоский, пространственный), определяется положение источника звука в пространстве. Умное устройство может сначала усилить речь на основе позиции источника. Получив информацию о вашем местоположении, устройство может объединить ее с данными других датчиков для дальнейшего интеллектуального взаимодействия, например, робот подойдет к вам на голос, видеокамера сфокусируется на говорящем и т.д. Прежде чем понять технологию локализации источника звука, необходимо разобраться в моделях ближнего и дальнего поля.
Модели ближнего и дальнего поля
Обычно расстояние до микрофонного массива составляет 1-3 метра, что соответствует модели ближнего поля. Микрофонный массив принимает сферическую, а не плоскую волну. Звуковая волна затухает при распространении, и коэффициент затухания пропорционален пройденному расстоянию. Поэтому амплитуда волны, достигающей элементов массива, различна. В модели дальнего поля разность расстояний до элементов массива относительно мала и ею можно пренебречь. Обычно граница между ближней и дальней зоной определяется как 2L²/λ, где L - апертура массива, λ - длина звуковой волны. Таким образом, сигнал на элементе массива имеет как фазовую задержку, так и затухание амплитуды.
Технологии локализации источника звука
Методы локализации источника включают формирование диаграммы направленности (beamforming), сверхразрешающую спектральную оценку (super-resolution spectral estimation) и TDOA (Time Difference Of Arrival). Они преобразуют связь между источником и массивом в пространственный луч, пространственный спектр и разницу во времени прихода соответственно, и осуществляют локализацию на основе соответствующей информации.
Электронное сканирование массива (Electronic Scanning Array)
Сформированный массивом луч сканирует пространство, и направление определяется по максимуму выходного сигнала при сканировании под разными углами. Направление луча управляется весовыми коэффициентами элементов массива. Направление, соответствующее максимальной мощности выходного сигнала при сканировании, считается направлением прихода (DOA) источника звука, что позволяет локализовать источник. Этот метод имеет ограничение: он применим только для одного источника звука. Если несколько источников находятся в пределах одного главного лепестка диаграммы направленности массива, их невозможно различить. Точность локализации зависит от ширины массива — при заданной частоте ширина луча обратно пропорциональна апертуре массива, поэтому создание массивов с большой апертурой часто затруднительно.
Сверхразрешающая спектральная оценка (Super-Resolution Spectral Estimation)
Методы, такие как MUSIC, ESPRIT, основаны на разложении ковариационной матрицы (корреляционной матрицы) на собственные значения и построении пространственного спектра (спектра по направлениям). Направления пиков этого спектра соответствуют направлениям на источники звука. Подходят для нескольких источников, разрешающая способность не зависит от размера массива, преодолевая физические ограничения (отсюда "сверхразрешение"). Эти методы могут быть расширены для широкополосной обработки, но очень чувствительны к ошибкам (разброс параметров микрофонов, канальные ошибки), подходят для дальней зоны и требуют больших вычислительных ресурсов для матричных операций.
TDOA (Time Difference Of Arrival)
TDOA сначала оценивает разницу во времени прихода звука на разные микрофоны. Затем по временной задержке вычисляется разность расстояний. Используя разность расстояний и геометрическое расположение микрофонов в массиве, определяется положение источника звука. Процесс состоит из двух шагов:
1. Оценка TDOA
Обычно используются Обобщенная Взаимная Корреляция (GCC, Generalized Cross Correlation) и Адаптивная фильтрация LMS.
Обобщенная Взаимная Корреляция (GCC)
В методах локализации на основе TDOA GCC часто используется для оценки задержки. Метод GCC прост в вычислении, имеет малую задержку, хорошую способность к отслеживанию и подходит для реального времени. Работает хорошо при умеренном уровне шума и низкой реверберации; точность снижается в условиях нестационарного шума.
Адаптивная фильтрация LMS
В сходящемся состоянии дает оценку TDOA, не требуя априорной информации о сигнале и шуме, но чувствительна к реверберации. Метод использует два сигнала микрофонов как целевой и входной сигналы. Входной сигнал адаптируется (фильтруется) для приближения к целевому сигналу, и в процессе адаптации коэффициентов фильтра получается TDOA.
2. Локализация по TDOA
Полученные оценки TDOA используются для определения пространственного положения источника звука. Массив из трех микрофонов может определить положение источника в пространстве; увеличение количества микрофонов повышает точность. Методы локализации включают метод максимального правдоподобия (MLE), метод наименьших квадратов, сферическую интерполяцию и линейное пересечение. TDOA широко применяется, обладает высокой точностью локализации, минимальной вычислительной сложностью, хорошей производительностью в реальном времени и может использоваться для отслеживания. Большинство современных продуктов для локализации звука используют технологию TDOA.
Формирование диаграммы направленности (Beamforming):
Формирование диаграммы направленности делится на обычное (CBF, Conventional Beam Forming) и адаптивное (ABF, Adaptive Beam Forming). CBF — самый простой неадаптивный метод, где выходные сигналы микрофонов взвешенно суммируются для формирования луча. В CBF весовые коэффициенты каналов фиксированы; их цель — подавление уровня боковых лепестков диаграммы направленности для фильтрации помех и шума в области боковых лепестков. ABF основан на CBF и добавляет пространственную адаптивную фильтрацию помех и шума. В ABF используются разные фильтры, соответствующие разным алгоритмам, то есть весовые коэффициенты амплитуды для разных каналов адаптивно настраиваются и оптимизируются согласно определенному критерию (например, LMS, LS, максимальное ОСШ, LCMV (линейно ограниченная минимальная дисперсия, Linearly Constrained Minimum Variance)). Критерий LCMV приводит к формирователю луча MVDR (Минимальная дисперсия без искажений, Minimum Variance Distortionless Response). Критерий LCMV: при сохранении неизменным усиления в главном лепестке диаграммы направленности минимизируется выходная мощность массива, что означает минимизацию мощности помех и шума на выходе, или, другими словами, максимизацию отношения сигнал/помеха+шум (SINR). Это позволяет максимально принимать сигнал и подавлять шум и помехи.
CBF - Традиционное формирование луча
Метод формирования луча с задержкой и суммированием используется для улучшения речи. Принятые сигналы микрофонов задерживаются для компенсации разницы во времени прихода от источника до каждого микрофона, что синфазно суммирует сигналы в определенном направлении и обеспечивает максимальное усиление сигнала, пришедшего с этого направления. Создается пространственный фильтр, придающий массиву направленную избирательность.
CBF + Адаптивный фильтр - Улучшенное формирование луча
Комбинируется с фильтром Винера для улучшения качества речи. Зашумленный сигнал фильтруется Винера для получения оценки чистого сигнала по критерию LMS. Коэффициенты фильтра могут итеративно обновляться. По сравнению с традиционным CBF, этот метод эффективнее подавляет нестационарные шумы.
ABF - Адаптивное формирование луча
GSLC — это метод, основанный на активном шумоподавлении (ANC). Зашумленный сигнал проходит через основной и вспомогательный каналы. Блокирующая матрица во вспомогательном канале удаляет речевой сигнал, оставляя только многоканальный шум в качестве опорного сигнала. Каналы формируют оптимальную оценку шума, которая вычитается для получения оценки чистого речевого сигнала.
Будущее развитие технологии массивов
Технология микрофонных массивов имеет много преимуществ перед одноканальными системами и стала важной частью улучшения речи и обработки речевых сигналов. Улучшение речи и локализация источника стали неотъемлемыми компонентами технологии массивов, необходимой в видеоконференциях, умных роботах, слуховых аппаратах, умной бытовой технике, телекоммуникациях, умных игрушках, автомобильной сфере. Различные технологии обработки сигналов и сигналов массивов постепенно интегрируются в системы обработки речи на основе микрофонных массивов, совершенствуются алгоритмы и находят все более широкое применение. Мощные аппаратные возможности делают возможной обработку сложных алгоритмов улучшения речи в реальном времени в условиях сложного шума, реверберации и акустики. В будущем тесная интеграция речи и изображения станет новым прорывом в области искусственного интеллекта. На острие прогресса ИИ окажется тот, кто сможет искусно и органично объединить технологии распознавания речи, понимания речи, обработки сигналов массивов, дальней речи, распознавания изображений, распознавания лиц, распознавания радужной оболочки глаза, распознавания голоса и воплотить суть технологий в соответствии с принципом "для человека". Поживем - увидим.
Значение микрофонных массивов для искусственного интеллекта:
Пространственная избирательность: Технологии пространственного позиционирования, такие как электронное сканирование массива, позволяют определять точное местоположение источника звука. Умные устройства, получая точную информацию о местоположении источника, делают нашу речь более интеллектуальной, а алгоритмы обеспечивают высокое качество речевого сигнала.
Микрофонные массивы могут автоматически определять положение источника звука, отслеживать говорящего, а также обладают преимуществом работы с несколькими источниками и отслеживания движущихся источников. Независимо от вашего местоположения, умное устройство будет усиливать речь в вашем направлении.
Микрофонные массивы добавляют пространственную обработку, а обработка многоканальных сигналов в трех измерениях (пространство, время, частота) компенсирует недостатки одноканальной обработки в подавлении шума, эха, реверберации, локализации источника звука и разделении речи. Это позволяет нашим умным устройствам получать высококачественный речевой сигнал в сложных условиях, обеспечивая лучший опыт использования голосового интерфейса.
Технические сложности технологии микрофонных массивов:
Прямое применение традиционных технологий обработки сигналов массивов в системах микрофонных массивов часто дает неудовлетворительные результаты, что связано с особенностями их обработки:
Построение модели массива
Микрофоны в основном обрабатывают речевые сигналы, имеют ограниченную зону захвата звука и чаще используются в ближнем поле. Это делает неприменимыми традиционные методы обработки массивов (например, для радаров, сонаров), основанные на модели плоской волны в дальней зоне. В ближнем поле требуется более точная модель сферической волны, учитывающая различное затухание амплитуды из-за разной длины пути распространения.
Обработка широкополосных сигналов
Обычно обработка сигналов массивов рассчитана на узкополосные сигналы, где задержки и фазовые сдвиги между элементами проявляются на несущей частоте. Речевой сигнал не модулирован, не имеет несущей, и имеет большой коэффициент отношения высоких/низких частот. Фазовые задержки между элементами сильно зависят от характеристик самого источника звука – от частоты, что делает традиционные методы обработки сигналов массивов не полностью применимыми.
Обработка нестационарных сигналов
В традиционной обработке массивов часто используются стационарные сигналы, а сигналы микрофонных массивов часто нестационарны или кратковременно стационарны. Поэтому микрофонные массивы обычно обрабатывают сигналы в коротких временных окнах в частотной области. Каждая частотная полоса соответствует своей фазовой разности: широкополосный сигнал разделяется на поддиапазоны в частотной области, каждый поддиапазон обрабатывается как узкополосный, а затем объединяется обратно в широкополосный спектр.
Реверберация
Распространение звука сильно зависит от пространства. Из-за отражений и дифракции в помещении микрофон принимает не только прямой сигнал, но и суперпозицию многолучевых сигналов, что создает помехи, известные как реверберация. В закрытых помещениях отражения от границ комнаты или препятствий вызывают затухание звука, что значительно снижает разборчивость речи.
Локализация источника звука
Технология локализации источника звука широко применяется в искусственном интеллекте. Используя микрофонные массивы для построения пространственной декартовой системы координат, в зависимости от типа массива (линейный, плоский, пространственный), определяется положение источника звука в пространстве. Умное устройство может сначала усилить речь на основе позиции источника. Получив информацию о вашем местоположении, устройство может объединить ее с данными других датчиков для дальнейшего интеллектуального взаимодействия, например, робот подойдет к вам на голос, видеокамера сфокусируется на говорящем и т.д. Прежде чем понять технологию локализации источника звука, необходимо разобраться в моделях ближнего и дальнего поля.
Модели ближнего и дальнего поля
Обычно расстояние до микрофонного массива составляет 1-3 метра, что соответствует модели ближнего поля. Микрофонный массив принимает сферическую, а не плоскую волну. Звуковая волна затухает при распространении, и коэффициент затухания пропорционален пройденному расстоянию. Поэтому амплитуда волны, достигающей элементов массива, различна. В модели дальнего поля разность расстояний до элементов массива относительно мала и ею можно пренебречь. Обычно граница между ближней и дальней зоной определяется как 2L²/λ, где L - апертура массива, λ - длина звуковой волны. Таким образом, сигнал на элементе массива имеет как фазовую задержку, так и затухание амплитуды.
Технологии локализации источника звука
Методы локализации источника включают формирование диаграммы направленности (beamforming), сверхразрешающую спектральную оценку (super-resolution spectral estimation) и TDOA (Time Difference Of Arrival). Они преобразуют связь между источником и массивом в пространственный луч, пространственный спектр и разницу во времени прихода соответственно, и осуществляют локализацию на основе соответствующей информации.
Электронное сканирование массива (Electronic Scanning Array)
Сформированный массивом луч сканирует пространство, и направление определяется по максимуму выходного сигнала при сканировании под разными углами. Направление луча управляется весовыми коэффициентами элементов массива. Направление, соответствующее максимальной мощности выходного сигнала при сканировании, считается направлением прихода (DOA) источника звука, что позволяет локализовать источник. Этот метод имеет ограничение: он применим только для одного источника звука. Если несколько источников находятся в пределах одного главного лепестка диаграммы направленности массива, их невозможно различить. Точность локализации зависит от ширины массива — при заданной частоте ширина луча обратно пропорциональна апертуре массива, поэтому создание массивов с большой апертурой часто затруднительно.
Сверхразрешающая спектральная оценка (Super-Resolution Spectral Estimation)
Методы, такие как MUSIC, ESPRIT, основаны на разложении ковариационной матрицы (корреляционной матрицы) на собственные значения и построении пространственного спектра (спектра по направлениям). Направления пиков этого спектра соответствуют направлениям на источники звука. Подходят для нескольких источников, разрешающая способность не зависит от размера массива, преодолевая физические ограничения (отсюда "сверхразрешение"). Эти методы могут быть расширены для широкополосной обработки, но очень чувствительны к ошибкам (разброс параметров микрофонов, канальные ошибки), подходят для дальней зоны и требуют больших вычислительных ресурсов для матричных операций.
TDOA (Time Difference Of Arrival)
TDOA сначала оценивает разницу во времени прихода звука на разные микрофоны. Затем по временной задержке вычисляется разность расстояний. Используя разность расстояний и геометрическое расположение микрофонов в массиве, определяется положение источника звука. Процесс состоит из двух шагов:
1. Оценка TDOA
Обычно используются Обобщенная Взаимная Корреляция (GCC, Generalized Cross Correlation) и Адаптивная фильтрация LMS.
Обобщенная Взаимная Корреляция (GCC)
В методах локализации на основе TDOA GCC часто используется для оценки задержки. Метод GCC прост в вычислении, имеет малую задержку, хорошую способность к отслеживанию и подходит для реального времени. Работает хорошо при умеренном уровне шума и низкой реверберации; точность снижается в условиях нестационарного шума.
Адаптивная фильтрация LMS
В сходящемся состоянии дает оценку TDOA, не требуя априорной информации о сигнале и шуме, но чувствительна к реверберации. Метод использует два сигнала микрофонов как целевой и входной сигналы. Входной сигнал адаптируется (фильтруется) для приближения к целевому сигналу, и в процессе адаптации коэффициентов фильтра получается TDOA.
2. Локализация по TDOA
Полученные оценки TDOA используются для определения пространственного положения источника звука. Массив из трех микрофонов может определить положение источника в пространстве; увеличение количества микрофонов повышает точность. Методы локализации включают метод максимального правдоподобия (MLE), метод наименьших квадратов, сферическую интерполяцию и линейное пересечение. TDOA широко применяется, обладает высокой точностью локализации, минимальной вычислительной сложностью, хорошей производительностью в реальном времени и может использоваться для отслеживания. Большинство современных продуктов для локализации звука используют технологию TDOA.
Формирование диаграммы направленности (Beamforming):
Формирование диаграммы направленности делится на обычное (CBF, Conventional Beam Forming) и адаптивное (ABF, Adaptive Beam Forming). CBF — самый простой неадаптивный метод, где выходные сигналы микрофонов взвешенно суммируются для формирования луча. В CBF весовые коэффициенты каналов фиксированы; их цель — подавление уровня боковых лепестков диаграммы направленности для фильтрации помех и шума в области боковых лепестков. ABF основан на CBF и добавляет пространственную адаптивную фильтрацию помех и шума. В ABF используются разные фильтры, соответствующие разным алгоритмам, то есть весовые коэффициенты амплитуды для разных каналов адаптивно настраиваются и оптимизируются согласно определенному критерию (например, LMS, LS, максимальное ОСШ, LCMV (линейно ограниченная минимальная дисперсия, Linearly Constrained Minimum Variance)). Критерий LCMV приводит к формирователю луча MVDR (Минимальная дисперсия без искажений, Minimum Variance Distortionless Response). Критерий LCMV: при сохранении неизменным усиления в главном лепестке диаграммы направленности минимизируется выходная мощность массива, что означает минимизацию мощности помех и шума на выходе, или, другими словами, максимизацию отношения сигнал/помеха+шум (SINR). Это позволяет максимально принимать сигнал и подавлять шум и помехи.
CBF - Традиционное формирование луча
Метод формирования луча с задержкой и суммированием используется для улучшения речи. Принятые сигналы микрофонов задерживаются для компенсации разницы во времени прихода от источника до каждого микрофона, что синфазно суммирует сигналы в определенном направлении и обеспечивает максимальное усиление сигнала, пришедшего с этого направления. Создается пространственный фильтр, придающий массиву направленную избирательность.
CBF + Адаптивный фильтр - Улучшенное формирование луча
Комбинируется с фильтром Винера для улучшения качества речи. Зашумленный сигнал фильтруется Винера для получения оценки чистого сигнала по критерию LMS. Коэффициенты фильтра могут итеративно обновляться. По сравнению с традиционным CBF, этот метод эффективнее подавляет нестационарные шумы.
ABF - Адаптивное формирование луча
GSLC — это метод, основанный на активном шумоподавлении (ANC). Зашумленный сигнал проходит через основной и вспомогательный каналы. Блокирующая матрица во вспомогательном канале удаляет речевой сигнал, оставляя только многоканальный шум в качестве опорного сигнала. Каналы формируют оптимальную оценку шума, которая вычитается для получения оценки чистого речевого сигнала.
Будущее развитие технологии массивов
Технология микрофонных массивов имеет много преимуществ перед одноканальными системами и стала важной частью улучшения речи и обработки речевых сигналов. Улучшение речи и локализация источника стали неотъемлемыми компонентами технологии массивов, необходимой в видеоконференциях, умных роботах, слуховых аппаратах, умной бытовой технике, телекоммуникациях, умных игрушках, автомобильной сфере. Различные технологии обработки сигналов и сигналов массивов постепенно интегрируются в системы обработки речи на основе микрофонных массивов, совершенствуются алгоритмы и находят все более широкое применение. Мощные аппаратные возможности делают возможной обработку сложных алгоритмов улучшения речи в реальном времени в условиях сложного шума, реверберации и акустики. В будущем тесная интеграция речи и изображения станет новым прорывом в области искусственного интеллекта. На острие прогресса ИИ окажется тот, кто сможет искусно и органично объединить технологии распознавания речи, понимания речи, обработки сигналов массивов, дальней речи, распознавания изображений, распознавания лиц, распознавания радужной оболочки глаза, распознавания голоса и воплотить суть технологий в соответствии с принципом "для человека". Поживем - увидим.