تقنية معالجة الإشارات الصوتية لمصفوفات الميكروفون
مع اقتراب الذكاء الاصطناعي من حياة الناس بشكل متزايد، تحظى تكنولوجيا الصوت باهتمام كبير. لم يعد الصوت التقليدي قريب المدى يلبي احتياجات الناس، فهم يرغبون في التحكم الصوتي في الأجهزة الذكية من مسافات أبعد وفي بيئات أكثر تعقيدًا. لذلك، أصبحت تقنية المصفوفات جوهر تكنولوجيا الصوت بعيد المدى.
أهمية مصفوفات الميكروفون للذكاء الاصطناعي:
الانتقائية المكانية: يمكن لتقنيات التحديد المكاني مثل المسح الكهربائي للمصفوفات الحصول على الموضع الفعال لمصدر الصوت، مما يسمح للأجهزة الذكية بالحصول على معلومات دقيقة عن موقع مصدر الصوت، مما يجعل صوتنا أكثر ذكاءً، والحصول على جودة إشارة صوتية عالية عبر الخوارزميات.
يمكن لمصفوفات الميكروفون اكتشاف موقع مصدر الصوت تلقائيًا وتتبع المتحدث، مع القدرة على الحصول على ميزة مصادر صوت متعددة وتتبع مصادر الصوت المتحركة. بغض النظر عن موقعك، سيعزز الجهاز الذكي الصوت في اتجاه موقعك.
تضيف مصفوفات الميكروفون معالجة مجال فراغي، حيث تعالج الإشارات المتعددة في ثلاثة أبعاد (الفراغ، الزمن، التردد) لتعويض أوجه القصور في الإشارة الفردية في قمع الضوضاء، قمع الصدى، قمع الرنين، تحديد مصدر الصوت، وفصل الصوت، مما يسمح لأجهزتنا الذكية بالحصول على إشارات صوتية عالية الجودة في البيئات المعقدة وتقديم تجربة صوتية ذكية أفضل.
الصعوبات التقنية في تكنولوجيا مصفوفات الميكروفون:
غالبًا ما تكون نتائج تطبيق تقنيات معالجة إشارات المصفوفات التقليدية مباشرة على أنظمة معالجة مصفوفات الميكروفون غير مرضية، والسبب يكمن في خصائص المعالجة المختلفة لمصفوفات الميكروفون:
إنشاء نموذج المصفوفة
يستخدم الميكروفون بشكل أساسي لمعالجة الإشارات الصوتية، مع نطاق محدود لالتقاط الصوت، وغالبًا ما يستخدم في نماذج المجال القريب. هذا يجعل طرق معالجة المصفوفات التقليدية مثل الرادار والسونار (التي تستخدم نماذج موجة مستوية للمجال البعيد) غير مناسبة. في نماذج المجال القريب، هناك حاجة إلى موجة كروية أكثر دقة، مع الأخذ في الاعتبار الاختلاف في التوهين السعوي الناتج عن مسارات الانتشار المختلفة.
معالجة إشارات النطاق العريض
عادةً ما تكون معالجة إشارات المصفوفات ضيقة النطاق، حيث يظهر تأخر الوقت وفرق الطور بين العناصر المختلفة بشكل أساسي في تردد الموجة الحاملة. بينما الإشارات الصوتية غير معدلة وليس لها موجة حاملة، ونسبة الترددات العالية إلى المنخفضة كبيرة نسبيًا. يرتبط تأخر الطور بين العناصر المختلفة ارتباطًا وثيقًا بخصائص مصدر الصوت نفسه - أي التردد، مما يجعل طرق معالجة إشارات المصفوفات التقليدية غير مناسبة تمامًا.
معالجة الإشارات غير الثابتة
في معالجة المصفوفات التقليدية، تكون الإشارات في الغالب ثابتة. بينما تكون إشارات معالجة مصفوفات الميكروفون غير ثابتة أو ثابتة لفترات قصيرة. لذلك، تقوم مصفوفات الميكروفون عادةً بمعالجة الإشارات في مجال التردد قصير المدى، حيث يتوافق كل نطاق ترددي مع فرق طور. يتم تقسيم إشارة النطاق العريض إلى نطاقات فرعية متعددة في مجال التردد، ويتم معالجة كل نطاق فرعي كإشارة ضيقة النطاق، ثم يتم دمجها في طيف واسع النطاق.
الرنين (Reverberation)
يتأثر انتشار الصوت بشكل كبير بالمساحة. بسبب الانعكاسات والانعراجات في المساحة، تتلقى الميكروفونات إشارات بالإضافة إلى الإشارة المباشرة، تراكب إشارات متعددة المسارات، مما يتسبب في تشويش الإشارة، وهو ما يعرف بالرنين. في البيئات الداخلية، يؤدي الانعراج أو الانعكاس عن حدود الغرفة أو العوائق إلى استمرار الصوت، مما يؤثر بشدة على وضوح الكلام.
تحديد مصدر الصوت (Sound Source Localization)
تُستخدم تقنية تحديد مصدر الصوت على نطاق واسع في مجال الذكاء الاصطناعي. تستخدم مصفوفات الميكروفون لتشكيل نظام إحداثيات ديكارتي مكاني. وفقًا لمصفوفات خطية مختلفة، ومصفوفات مستوية، ومصفوفات مكانية، يتم تحديد موقع مصدر الصوت في الفضاء. يمكن للأجهزة الذكية أولاً تعزيز الصوت بشكل أكبر بناءً على موقع مصدر الصوت. عندما تحصل الأجهزة الذكية على معلومات موقعك، يمكنها دمجها مع أجهزة استشعار أخرى لتقديم تجربة ذكية متقدمة، مثل تحرك الروبوتات نحوك عند مناداتك، أو تركيز أجهزة الفيديو على المتحدث، إلخ. قبل فهم تقنية تحديد مصدر الصوت، نحتاج إلى فهم نماذج المجال القريب والمجال البعيد.
نماذج المجال القريب والمجال البعيد
عادةً ما تكون مسافة مصفوفات الميكروفون 1-3 أمتار، وتكون المصفوفة في نموذج المجال القريب. تتلقى مصفوفات الميكروفون موجة كروية وليست موجة مستوية. يتضاءل الصوت أثناء الانتشار، ويتناسب عامل التوهين مع مسافة الانتشار. لذلك، يختلف اتساع الموجة الصوتية عند وصولها إلى كل عنصر في المصفوفة. في نماذج المجال البعيد، يكون فرق المسافة من مصدر الصوت إلى العناصر صغيرًا نسبيًا ويمكن إهماله. عادةً نحدد القيمة الحرجة للمجال القريب/البعيد بـ 2L²/λ، حيث L هو قطر المصفوفة، وλ هو الطول الموجي للصوت. لذلك، تتلقى العناصر إشارة مع تأخر طوري وتوهين سعوي.
تقنية تحديد مصدر الصوت
تشمل طرق تحديد مصدر الصوت: تشكيل الحزمة (Beamforming)، تقدير الطيف فائق الدقة (Super-Resolution Spectrum Estimation)، وفرق زمن الوصول (TDOA). تحول هذه الطرق العلاقة بين مصدر الصوت والمصفوفة إلى حزمة مكانية، أو طيف مكاني، أو فرق زمن وصول، ويتم التحديد بناءً على المعلومات المقابلة.
المصفوفة ذات المسح الكهربائي (Electronically Scanned Array)
يتم مسح الفضاء بواسطة الحزمة المتكونة من المصفوفة، ويتم تحديد الاتجاه بناءً على التثبيط المختلف لكل زاوية. يتم التحكم في اتجاه إخراج المصفوفة عن طريق ضبط معاملات الترجيح لكل عنصر، ويتم إجراء المسح. عندما يكتشف النظام أن اتجاه الحزمة المقابل لأقوى إشارة خرج هو اتجاه مصدر الصوت (DOA). هذه الطريقة لها قيود، فهي مناسبة فقط لمصدر صوت واحد. إذا كانت مصادر صوت متعددة ضمن نفس الحزمة الرئيسية للمصفوفة، فلا يمكن تمييزها. تعتمد دقة التحديد هذه على عرض المصفوفة - عند تردد محدد، يتناسب عرض الحزمة عكسيًا مع قطر المصفوفة، لذا فإن تحقيق مصفوفات ميكروفون ذات قطر كبير صعب من الناحية المادية في كثير من الحالات.
تقدير الطيف فائق الدقة (Super-Resolution Spectrum Estimation)
مثل خوارزميات MUSIC و ESPRIT. تقوم بتحليل القيم الذاتية لمصفوفة التغاير (المصفوفة الارتباطية)، وبناء طيف مكاني (طيف متعلق بالاتجاه). الاتجاه المقابل لقمة الطيف هو اتجاه مصدر الصوت. مناسبة لحالات مصادر الصوت المتعددة، ودقة تمييز مصادر الصوت لا تعتمد على حجم المصفوفة، متجاوزة القيود الفيزيائية، ومن هنا جاءت تسميتها بحلول الطيف فائقة الدقة. يمكن توسيع هذه الطرق لتشمل معالجة النطاق العريض، لكنها حساسة جدًا للأخطاء، مثل أخطاء عناصر الميكروفون الفردية أو أخطاء القنوات، وهي مناسبة لنماذج المجال البعيد، وحسابات المصفوفات ضخمة.
فرق زمن الوصول (TDOA)
تقدر TDOA أولاً فرق زمن وصول الصوت إلى ميكروفونات مختلفة، ثم تحسب فرق المسافة باستخدام فرق الزمن، ثم تستخدم فرق المسافة والموقع الهندسي لمصفوفة الميكروفونات لتحديد موقع مصدر الصوت. تنقسم إلى خطوتين: تقدير TDOA وتحديد الموقع باستخدام TDOA.
1. تقدير TDOA
الطرق الشائعة تشمل: الارتباط المتبادل المعمم (GCC - Generalized Cross Correlation) والترشيح التكيفي LMS.
الارتباط المتبادل المعمم (GCC)
في طرق تحديد موقع مصدر الصوت القائمة على TDOA، يُستخدم GCC بشكل أساسي لتقدير التأخير. طريقة حساب GCC بسيطة، تأخيرها صغير، وقدرتها على التتبع جيدة، ومناسبة للتطبيقات في الوقت الحقيقي. تعمل بشكل جيد في ظروف الضوضاء متوسطة الشدة والرنين المنخفض، لكن دقة التحديد تنخفض في بيئات الضوضاء غير المستقرة والعالية.
الترشيح التكيفي LMS
يعطي تقديرًا لـ TDOA في حالة التقارب، ولا يحتاج إلى معلومات مسبقة عن الضوضاء أو الإشارة، لكنه حساس للرنين. تعامل هذه الطريقة إشارتي ميكروفون كإشارة هدف وإشارة دخل، وتستخدم إشارة الدخل للاقتراب من إشارة الهدف، ويتم الحصول على TDOA عن طريق ضبط معاملات المرشح.
2. تحديد الموقع باستخدام TDOA
يتم استخدام تقدير TDOA لتحديد موقع مصدر الصوت المكاني. يمكن لمصفوفة من ثلاثة ميكروفونات تحديد موقع مصدر الصوت في الفضاء، وزيادة عدد الميكروفونات تزيد دقة البيانات. طرق التحديد تشمل: التقدير الأقصى للإمكانية (MLE - Maximum Likelihood Estimation)، التباين الأدنى (Minimum Variance)، الاستيفاء الكروي (Spherical Interpolation)، والتقاطع الخطي (Linear Intersection) وغيرها. تعتبر TDOA واسعة الانتشار نسبيًا، ذات دقة تحديد عالية، وحساباتها الأقل، وأدائها في الوقت الحقيقي جيد، ويمكن استخدامها للتتبع الفوري. تستخدم معظم منتجات التحديد الذكية الحالية تقنية TDOA كتقنية تحديد.
تشكيل الحزمة (Beamforming):
يمكن تقسيم تشكيل الحزمة إلى تشكيل الحزمة التقليدي (CBF - Conventional Beam Forming) وتشكيل الحزمة التكيفي (ABF - Adaptive Beam Forming). CBF هو أبسط أشكال تشكيل الحزمة غير التكيفي، حيث يتم جمع إخراج جميع الميكروفونات مع ترجيح للحصول على الحزمة. في CBF، تكون قيم الترجيح لكل قناة ثابتة، ووظيفتها تثبيط مستوى الفصوص الجانبية لنمط اتجاه المصفوفة لتصفية التداخل والضوضاء في منطقة الفصوص الجانبية. يعمل ABF على أساس CBF، ويقوم بترشيح التداخل والضوضاء تكيفيًا في المجال الفراغي. في ABF، باستخدام مرشحات مختلفة يتم الحصول على خوارزميات مختلفة، أي يتم ضبط قيم ترجيح السعة لكل قناة وتحسينها وفقًا لمعيار أمثل معين. مثل LMS، LS، أقصى نسبة إشارة إلى ضوضاء (SNR)، أو التباين الأدنى مع قيود خطية (LCMV - Linearly Constrained Minimum Variance). يؤدي استخدام معيار LCMV إلى تشكيل حزمة MVDR (الاستجابة الخالية من التشويه بأدنى تباين - Minimum Variance Distortionless Response). معيار LCMV هو الحفاظ على كسب الفص الرئيسي لنمط الاتجاه ثابتًا مع تقليل طاقة خرج المصفوفة إلى الحد الأدنى، مما يشير إلى أن طاقة التداخل والضوضاء في الخرج هي الأدنى، ويمكن فهمه أيضًا على أنه معيار أقصى نسبة إشارة إلى ضوضاء وتداخل (SINR)، مما يسمح بأقصى قدر ممكن من استقبال الإشارة وقمع الضوضاء والتداخل.
CBF - تشكيل الحزمة التقليدي
تُستخدم طريقة تشكيل الحزمة بالتأخير والجمع (Delay and Sum) لتعزيز الصوت. يتم تأخير الإشارات المستقبلة من الميكروفونات لتعويض فرق الوقت من مصدر الصوت إلى كل ميكروفون، مما يجعل إشارات الخرج متطابقة في الطور لاتجاه معين، مما يعطي أقصى كسب للإشارة الواردة من ذلك الاتجاه، ويشكل اتجاهًا لأقصى طاقة خرج ضمن الفص الرئيسي. يشكل هذا تصفية فراغية، مما يعطي المصفوفة انتقائية اتجاهية.
CBF + مرشح تكيفي (تعزيز تشكيل الحزمة)
يتم الجمع بين ترشيح وينر (Wiener Filter) لتحسين تأثير تعزيز الصوت. تمر الإشارة الصوتية المليئة بالضوضاء عبر مرشح وينر للحصول على إشارة صوتية نقية بناءً على معيار LMS. يمكن تحديث معاملات المرشح وتكرارها باستمرار. مقارنةً بـ CBF التقليدي، يمكنها إزالة الضوضاء غير المستقرة بشكل أكثر فعالية.
ABF - تشكيل الحزمة التكيفي
GSLC (Generalized Sidelobe Canceller) هو طريقة تعتمد على الإلغاء النشط للضوضاء (ANC - Active Noise Cancellation). تمر إشارة الضوضاء عبر قناة رئيسية وقناة مساعدة. يرشح مصفوفة الحجب (Blocking Matrix) في القناة المساعدة إشارة الكلام، للحصول على إشارة مرجعية تحتوي فقط على ضوضاء متعددة القنوات. تحسب كل قناة تقديرًا أمثل للإشارة بناءً على إشارة الضوضاء، للحصول على تقدير للإشارة الصوتية النقية.
مستقبل تقنيات المصفوفات
تتمتع تقنية مصفوفات الميكروفون بالعديد من المزايا مقارنة بنظام الميكروفون الفردي، وأصبحت جزءًا مهمًا من تعزيز الصوت ومعالجة الإشارات الصوتية. أصبح تعزيز الصوت وتحديد مصدر الصوت جزءًا لا يتجزأ من تقنية المصفوفات، وتحتاج إليه مجالات مثل مؤتمرات الفيديو، والروبوتات الذكية، والمعينات السمعية، والأجهزة المنزلية الذكية، والاتصالات، والألعاب الذكية، وأنظمة السيارات. يتم دمج تقنيات معالجة الإشارات المختلفة، وتقنيات معالجة إشارات المصفوفات، تدريجيًا في أنظمة معالجة الصوت لمصفوفات الميكروفون، مع تحسينات مستمرة في الخوارزميات وتطبيقات أوسع. في بيئات الضوضاء المعقدة، وبيئات الرنين، والبيئات الصوتية، تتيح قدرات المعالجة القوية للأجهزة معالجة خوارزميات تعزيز الصوت المعقدة في الوقت الحقيقي. في المستقبل، سيشكل التكامل الوثيق بين الصوت والصورة نقطة اختراق جديدة في مجال الذكاء الاصطناعي. في طليعة الذكاء الاصطناعي، سيكمن التميز في من يستطيع الجمع ببراعة وعضوية بين تقنيات التعرف على الصوت، وفهم الصوت، ومعالجة إشارات المصفوفات، والصوت بعيد المدى، والتعرف على الصور، والتعرف على الوجوه، والتعرف على القزحية، والتعرف على البصمة الصوتية، مع الدمج المثالي بين جوهر التكنولوجيا ومبدأ التركيز على الإنسان. فلننتظر ونتابع.
أهمية مصفوفات الميكروفون للذكاء الاصطناعي:
الانتقائية المكانية: يمكن لتقنيات التحديد المكاني مثل المسح الكهربائي للمصفوفات الحصول على الموضع الفعال لمصدر الصوت، مما يسمح للأجهزة الذكية بالحصول على معلومات دقيقة عن موقع مصدر الصوت، مما يجعل صوتنا أكثر ذكاءً، والحصول على جودة إشارة صوتية عالية عبر الخوارزميات.
يمكن لمصفوفات الميكروفون اكتشاف موقع مصدر الصوت تلقائيًا وتتبع المتحدث، مع القدرة على الحصول على ميزة مصادر صوت متعددة وتتبع مصادر الصوت المتحركة. بغض النظر عن موقعك، سيعزز الجهاز الذكي الصوت في اتجاه موقعك.
تضيف مصفوفات الميكروفون معالجة مجال فراغي، حيث تعالج الإشارات المتعددة في ثلاثة أبعاد (الفراغ، الزمن، التردد) لتعويض أوجه القصور في الإشارة الفردية في قمع الضوضاء، قمع الصدى، قمع الرنين، تحديد مصدر الصوت، وفصل الصوت، مما يسمح لأجهزتنا الذكية بالحصول على إشارات صوتية عالية الجودة في البيئات المعقدة وتقديم تجربة صوتية ذكية أفضل.
الصعوبات التقنية في تكنولوجيا مصفوفات الميكروفون:
غالبًا ما تكون نتائج تطبيق تقنيات معالجة إشارات المصفوفات التقليدية مباشرة على أنظمة معالجة مصفوفات الميكروفون غير مرضية، والسبب يكمن في خصائص المعالجة المختلفة لمصفوفات الميكروفون:
إنشاء نموذج المصفوفة
يستخدم الميكروفون بشكل أساسي لمعالجة الإشارات الصوتية، مع نطاق محدود لالتقاط الصوت، وغالبًا ما يستخدم في نماذج المجال القريب. هذا يجعل طرق معالجة المصفوفات التقليدية مثل الرادار والسونار (التي تستخدم نماذج موجة مستوية للمجال البعيد) غير مناسبة. في نماذج المجال القريب، هناك حاجة إلى موجة كروية أكثر دقة، مع الأخذ في الاعتبار الاختلاف في التوهين السعوي الناتج عن مسارات الانتشار المختلفة.
معالجة إشارات النطاق العريض
عادةً ما تكون معالجة إشارات المصفوفات ضيقة النطاق، حيث يظهر تأخر الوقت وفرق الطور بين العناصر المختلفة بشكل أساسي في تردد الموجة الحاملة. بينما الإشارات الصوتية غير معدلة وليس لها موجة حاملة، ونسبة الترددات العالية إلى المنخفضة كبيرة نسبيًا. يرتبط تأخر الطور بين العناصر المختلفة ارتباطًا وثيقًا بخصائص مصدر الصوت نفسه - أي التردد، مما يجعل طرق معالجة إشارات المصفوفات التقليدية غير مناسبة تمامًا.
معالجة الإشارات غير الثابتة
في معالجة المصفوفات التقليدية، تكون الإشارات في الغالب ثابتة. بينما تكون إشارات معالجة مصفوفات الميكروفون غير ثابتة أو ثابتة لفترات قصيرة. لذلك، تقوم مصفوفات الميكروفون عادةً بمعالجة الإشارات في مجال التردد قصير المدى، حيث يتوافق كل نطاق ترددي مع فرق طور. يتم تقسيم إشارة النطاق العريض إلى نطاقات فرعية متعددة في مجال التردد، ويتم معالجة كل نطاق فرعي كإشارة ضيقة النطاق، ثم يتم دمجها في طيف واسع النطاق.
الرنين (Reverberation)
يتأثر انتشار الصوت بشكل كبير بالمساحة. بسبب الانعكاسات والانعراجات في المساحة، تتلقى الميكروفونات إشارات بالإضافة إلى الإشارة المباشرة، تراكب إشارات متعددة المسارات، مما يتسبب في تشويش الإشارة، وهو ما يعرف بالرنين. في البيئات الداخلية، يؤدي الانعراج أو الانعكاس عن حدود الغرفة أو العوائق إلى استمرار الصوت، مما يؤثر بشدة على وضوح الكلام.
تحديد مصدر الصوت (Sound Source Localization)
تُستخدم تقنية تحديد مصدر الصوت على نطاق واسع في مجال الذكاء الاصطناعي. تستخدم مصفوفات الميكروفون لتشكيل نظام إحداثيات ديكارتي مكاني. وفقًا لمصفوفات خطية مختلفة، ومصفوفات مستوية، ومصفوفات مكانية، يتم تحديد موقع مصدر الصوت في الفضاء. يمكن للأجهزة الذكية أولاً تعزيز الصوت بشكل أكبر بناءً على موقع مصدر الصوت. عندما تحصل الأجهزة الذكية على معلومات موقعك، يمكنها دمجها مع أجهزة استشعار أخرى لتقديم تجربة ذكية متقدمة، مثل تحرك الروبوتات نحوك عند مناداتك، أو تركيز أجهزة الفيديو على المتحدث، إلخ. قبل فهم تقنية تحديد مصدر الصوت، نحتاج إلى فهم نماذج المجال القريب والمجال البعيد.
نماذج المجال القريب والمجال البعيد
عادةً ما تكون مسافة مصفوفات الميكروفون 1-3 أمتار، وتكون المصفوفة في نموذج المجال القريب. تتلقى مصفوفات الميكروفون موجة كروية وليست موجة مستوية. يتضاءل الصوت أثناء الانتشار، ويتناسب عامل التوهين مع مسافة الانتشار. لذلك، يختلف اتساع الموجة الصوتية عند وصولها إلى كل عنصر في المصفوفة. في نماذج المجال البعيد، يكون فرق المسافة من مصدر الصوت إلى العناصر صغيرًا نسبيًا ويمكن إهماله. عادةً نحدد القيمة الحرجة للمجال القريب/البعيد بـ 2L²/λ، حيث L هو قطر المصفوفة، وλ هو الطول الموجي للصوت. لذلك، تتلقى العناصر إشارة مع تأخر طوري وتوهين سعوي.
تقنية تحديد مصدر الصوت
تشمل طرق تحديد مصدر الصوت: تشكيل الحزمة (Beamforming)، تقدير الطيف فائق الدقة (Super-Resolution Spectrum Estimation)، وفرق زمن الوصول (TDOA). تحول هذه الطرق العلاقة بين مصدر الصوت والمصفوفة إلى حزمة مكانية، أو طيف مكاني، أو فرق زمن وصول، ويتم التحديد بناءً على المعلومات المقابلة.
المصفوفة ذات المسح الكهربائي (Electronically Scanned Array)
يتم مسح الفضاء بواسطة الحزمة المتكونة من المصفوفة، ويتم تحديد الاتجاه بناءً على التثبيط المختلف لكل زاوية. يتم التحكم في اتجاه إخراج المصفوفة عن طريق ضبط معاملات الترجيح لكل عنصر، ويتم إجراء المسح. عندما يكتشف النظام أن اتجاه الحزمة المقابل لأقوى إشارة خرج هو اتجاه مصدر الصوت (DOA). هذه الطريقة لها قيود، فهي مناسبة فقط لمصدر صوت واحد. إذا كانت مصادر صوت متعددة ضمن نفس الحزمة الرئيسية للمصفوفة، فلا يمكن تمييزها. تعتمد دقة التحديد هذه على عرض المصفوفة - عند تردد محدد، يتناسب عرض الحزمة عكسيًا مع قطر المصفوفة، لذا فإن تحقيق مصفوفات ميكروفون ذات قطر كبير صعب من الناحية المادية في كثير من الحالات.
تقدير الطيف فائق الدقة (Super-Resolution Spectrum Estimation)
مثل خوارزميات MUSIC و ESPRIT. تقوم بتحليل القيم الذاتية لمصفوفة التغاير (المصفوفة الارتباطية)، وبناء طيف مكاني (طيف متعلق بالاتجاه). الاتجاه المقابل لقمة الطيف هو اتجاه مصدر الصوت. مناسبة لحالات مصادر الصوت المتعددة، ودقة تمييز مصادر الصوت لا تعتمد على حجم المصفوفة، متجاوزة القيود الفيزيائية، ومن هنا جاءت تسميتها بحلول الطيف فائقة الدقة. يمكن توسيع هذه الطرق لتشمل معالجة النطاق العريض، لكنها حساسة جدًا للأخطاء، مثل أخطاء عناصر الميكروفون الفردية أو أخطاء القنوات، وهي مناسبة لنماذج المجال البعيد، وحسابات المصفوفات ضخمة.
فرق زمن الوصول (TDOA)
تقدر TDOA أولاً فرق زمن وصول الصوت إلى ميكروفونات مختلفة، ثم تحسب فرق المسافة باستخدام فرق الزمن، ثم تستخدم فرق المسافة والموقع الهندسي لمصفوفة الميكروفونات لتحديد موقع مصدر الصوت. تنقسم إلى خطوتين: تقدير TDOA وتحديد الموقع باستخدام TDOA.
1. تقدير TDOA
الطرق الشائعة تشمل: الارتباط المتبادل المعمم (GCC - Generalized Cross Correlation) والترشيح التكيفي LMS.
الارتباط المتبادل المعمم (GCC)
في طرق تحديد موقع مصدر الصوت القائمة على TDOA، يُستخدم GCC بشكل أساسي لتقدير التأخير. طريقة حساب GCC بسيطة، تأخيرها صغير، وقدرتها على التتبع جيدة، ومناسبة للتطبيقات في الوقت الحقيقي. تعمل بشكل جيد في ظروف الضوضاء متوسطة الشدة والرنين المنخفض، لكن دقة التحديد تنخفض في بيئات الضوضاء غير المستقرة والعالية.
الترشيح التكيفي LMS
يعطي تقديرًا لـ TDOA في حالة التقارب، ولا يحتاج إلى معلومات مسبقة عن الضوضاء أو الإشارة، لكنه حساس للرنين. تعامل هذه الطريقة إشارتي ميكروفون كإشارة هدف وإشارة دخل، وتستخدم إشارة الدخل للاقتراب من إشارة الهدف، ويتم الحصول على TDOA عن طريق ضبط معاملات المرشح.
2. تحديد الموقع باستخدام TDOA
يتم استخدام تقدير TDOA لتحديد موقع مصدر الصوت المكاني. يمكن لمصفوفة من ثلاثة ميكروفونات تحديد موقع مصدر الصوت في الفضاء، وزيادة عدد الميكروفونات تزيد دقة البيانات. طرق التحديد تشمل: التقدير الأقصى للإمكانية (MLE - Maximum Likelihood Estimation)، التباين الأدنى (Minimum Variance)، الاستيفاء الكروي (Spherical Interpolation)، والتقاطع الخطي (Linear Intersection) وغيرها. تعتبر TDOA واسعة الانتشار نسبيًا، ذات دقة تحديد عالية، وحساباتها الأقل، وأدائها في الوقت الحقيقي جيد، ويمكن استخدامها للتتبع الفوري. تستخدم معظم منتجات التحديد الذكية الحالية تقنية TDOA كتقنية تحديد.
تشكيل الحزمة (Beamforming):
يمكن تقسيم تشكيل الحزمة إلى تشكيل الحزمة التقليدي (CBF - Conventional Beam Forming) وتشكيل الحزمة التكيفي (ABF - Adaptive Beam Forming). CBF هو أبسط أشكال تشكيل الحزمة غير التكيفي، حيث يتم جمع إخراج جميع الميكروفونات مع ترجيح للحصول على الحزمة. في CBF، تكون قيم الترجيح لكل قناة ثابتة، ووظيفتها تثبيط مستوى الفصوص الجانبية لنمط اتجاه المصفوفة لتصفية التداخل والضوضاء في منطقة الفصوص الجانبية. يعمل ABF على أساس CBF، ويقوم بترشيح التداخل والضوضاء تكيفيًا في المجال الفراغي. في ABF، باستخدام مرشحات مختلفة يتم الحصول على خوارزميات مختلفة، أي يتم ضبط قيم ترجيح السعة لكل قناة وتحسينها وفقًا لمعيار أمثل معين. مثل LMS، LS، أقصى نسبة إشارة إلى ضوضاء (SNR)، أو التباين الأدنى مع قيود خطية (LCMV - Linearly Constrained Minimum Variance). يؤدي استخدام معيار LCMV إلى تشكيل حزمة MVDR (الاستجابة الخالية من التشويه بأدنى تباين - Minimum Variance Distortionless Response). معيار LCMV هو الحفاظ على كسب الفص الرئيسي لنمط الاتجاه ثابتًا مع تقليل طاقة خرج المصفوفة إلى الحد الأدنى، مما يشير إلى أن طاقة التداخل والضوضاء في الخرج هي الأدنى، ويمكن فهمه أيضًا على أنه معيار أقصى نسبة إشارة إلى ضوضاء وتداخل (SINR)، مما يسمح بأقصى قدر ممكن من استقبال الإشارة وقمع الضوضاء والتداخل.
CBF - تشكيل الحزمة التقليدي
تُستخدم طريقة تشكيل الحزمة بالتأخير والجمع (Delay and Sum) لتعزيز الصوت. يتم تأخير الإشارات المستقبلة من الميكروفونات لتعويض فرق الوقت من مصدر الصوت إلى كل ميكروفون، مما يجعل إشارات الخرج متطابقة في الطور لاتجاه معين، مما يعطي أقصى كسب للإشارة الواردة من ذلك الاتجاه، ويشكل اتجاهًا لأقصى طاقة خرج ضمن الفص الرئيسي. يشكل هذا تصفية فراغية، مما يعطي المصفوفة انتقائية اتجاهية.
CBF + مرشح تكيفي (تعزيز تشكيل الحزمة)
يتم الجمع بين ترشيح وينر (Wiener Filter) لتحسين تأثير تعزيز الصوت. تمر الإشارة الصوتية المليئة بالضوضاء عبر مرشح وينر للحصول على إشارة صوتية نقية بناءً على معيار LMS. يمكن تحديث معاملات المرشح وتكرارها باستمرار. مقارنةً بـ CBF التقليدي، يمكنها إزالة الضوضاء غير المستقرة بشكل أكثر فعالية.
ABF - تشكيل الحزمة التكيفي
GSLC (Generalized Sidelobe Canceller) هو طريقة تعتمد على الإلغاء النشط للضوضاء (ANC - Active Noise Cancellation). تمر إشارة الضوضاء عبر قناة رئيسية وقناة مساعدة. يرشح مصفوفة الحجب (Blocking Matrix) في القناة المساعدة إشارة الكلام، للحصول على إشارة مرجعية تحتوي فقط على ضوضاء متعددة القنوات. تحسب كل قناة تقديرًا أمثل للإشارة بناءً على إشارة الضوضاء، للحصول على تقدير للإشارة الصوتية النقية.
مستقبل تقنيات المصفوفات
تتمتع تقنية مصفوفات الميكروفون بالعديد من المزايا مقارنة بنظام الميكروفون الفردي، وأصبحت جزءًا مهمًا من تعزيز الصوت ومعالجة الإشارات الصوتية. أصبح تعزيز الصوت وتحديد مصدر الصوت جزءًا لا يتجزأ من تقنية المصفوفات، وتحتاج إليه مجالات مثل مؤتمرات الفيديو، والروبوتات الذكية، والمعينات السمعية، والأجهزة المنزلية الذكية، والاتصالات، والألعاب الذكية، وأنظمة السيارات. يتم دمج تقنيات معالجة الإشارات المختلفة، وتقنيات معالجة إشارات المصفوفات، تدريجيًا في أنظمة معالجة الصوت لمصفوفات الميكروفون، مع تحسينات مستمرة في الخوارزميات وتطبيقات أوسع. في بيئات الضوضاء المعقدة، وبيئات الرنين، والبيئات الصوتية، تتيح قدرات المعالجة القوية للأجهزة معالجة خوارزميات تعزيز الصوت المعقدة في الوقت الحقيقي. في المستقبل، سيشكل التكامل الوثيق بين الصوت والصورة نقطة اختراق جديدة في مجال الذكاء الاصطناعي. في طليعة الذكاء الاصطناعي، سيكمن التميز في من يستطيع الجمع ببراعة وعضوية بين تقنيات التعرف على الصوت، وفهم الصوت، ومعالجة إشارات المصفوفات، والصوت بعيد المدى، والتعرف على الصور، والتعرف على الوجوه، والتعرف على القزحية، والتعرف على البصمة الصوتية، مع الدمج المثالي بين جوهر التكنولوجيا ومبدأ التركيز على الإنسان. فلننتظر ونتابع.