Tin tức

Công nghệ xử lý tín hiệu giọng nói bằng mảng micro

2025-05-29
  Khi AI ngày càng gần gũi với đời sống, công nghệ giọng nói được quan tâm đặc biệt. Giọng nói tầm gần truyền thống không còn đáp ứng nhu cầu. Người dùng mong muốn điều khiển thiết bị từ xa trong môi trường phức tạp hơn. Do đó, công nghệ mảng trở thành cốt lõi của giọng nói tầm xa.
  Ý nghĩa của mảng micro với AI:
  Chọn lọc không gian: Định vị nguồn âm chính xác qua kỹ thuật quét điện tử, giúp thiết bị thu nhận vị trí nguồn âm để tăng cường giọng nói thông minh và nâng cao chất lượng tín hiệu âm thanh bằng thuật toán.
  Mảng micro tự động phát hiện và theo dõi người nói, hỗ trợ đa nguồn âm và nguồn âm di động. Thiết bị luôn tăng cường giọng nói theo hướng của bạn.
  Mảng micro bổ sung xử lý miền không gian, khắc phục hạn chế của đơn micro trong: Ức chế nhiễu, triệt tiếng vọng, giảm âm vang, định vị nguồn âm, tách giọng nói nhờ xử lý 3D không-thời-gian-tần số, đảm bảo thu tín hiệu chất lượng cao trong mọi môi trường.
  Thách thức kỹ thuật:
  Kỹ thuật xử lý mảng truyền thống áp dụng cho micro thường kém hiệu quả do đặc thù sau:
  Xây dựng mô hình mảng
  Micro chủ yếu xử lý tín hiệu giọng nói tầm gần với phạm vi thu hẹp. Mô hình sóng phẳng tầm xa (radar, sonar) không phù hợp. Mô hình tầm gần đòi hỏi mô hình sóng cầu chính xác, tính toán suy hao biên độ theo đường truyền.
  Xử lý tín hiệu băng rộng
  Xử lý mảng thường dùng cho băng hẹp (độ trễ pha phụ thuộc tần số sóng mang). Tín hiệu giọng nói không điều chế, không sóng mang, dải tần rộng khiến độ trễ pha phụ thuộc đặc tính nguồn âm - liên quan mật thiết tới tần số. Kỹ thuật truyền thống không còn hoàn toàn phù hợp.
  Xử lý tín hiệu không dừng
  Tín hiệu xử lý mảng micro thường không dừng hoặc dừng trong khoảng ngắn. Do đó, mảng micro thường xử lý tín hiệu trong miền tần số ngắn hạn, chia tín hiệu băng rộng thành các băng con để xử lý băng hẹp trước khi tổng hợp lại.
  Âm vang (Reverberation)
  Âm thanh bị ảnh hưởng lớn bởi không gian. Phản xạ, nhiễu xạ khiến micro thu cả tín hiệu trực tiếp lẫn tín hiệu đa đường, gây nhiễu (âm vang). Trong phòng kín, âm thanh kéo dài do phản xạ biên phòng/vật cản làm giảm đáng kể độ rõ tiếng nói.
  Định vị nguồn âm
  Công nghệ định vị nguồn âm ứng dụng rộng rãi trong AI. Mảng micro tạo hệ tọa độ Descartes không gian. Tùy theo cấu hình mảng (tuyến tính, phẳng, không gian) để xác định vị trí nguồn âm. Thiết bị có thể tăng cường giọng nói dựa trên vị trí và kết hợp cảm biến khác (VD: robot di chuyển đến người gọi, camera tập trung vào người nói). Cần phân biệt mô hình tầm gần (Near-field) và tầm xa (Far-field) trước khi tìm hiểu định vị.
  Mô hình tầm gần và tầm xa
  Khoảng cách mảng micro điển hình: 1-3m (tầm gần). Mảng thu sóng cầu thay vì sóng phẳng. Sóng âm suy hao theo khoảng cách truyền, biên độ đến các phần tử mảng khác nhau. Trong mô hình tầm xa, chênh lệch khoảng cách không đáng kể. Ngưỡng phân biệt: 2L²/λ (L: Khẩu độ mảng, λ: Bước sóng). Tín hiệu thu bao gồm cả độ trễ pha lẫn suy hao biên độ.
  Kỹ thuật định vị nguồn âm
  Gồm: Hình thành chùm tia (Beamforming), Ước tính phổ độ phân giải siêu cao (Super-resolution Spectral Estimation - e.g., MUSIC, ESPRIT), và Hiệu ứng thời gian đến khác biệt (TDOA). Các phương pháp chuyển đổi mối quan hệ nguồn âm-mảng thành: chùm tia không gian, phổ không gian, chênh lệch thời gian đến để định vị.
  Quét điện tử (Electronic Scanning)
  Quét chùm tia trong không gian, xác định hướng dựa trên sự khác biệt ức chế theo góc. Kiểm soát hệ số trọng số của từng phần tử để điều khiển hướng đầu ra. Hướng chùm tia cho công suất đầu ra cực đại được xác định là hướng DOA (Direction of Arrival) của nguồn âm. Hạn chế: Chỉ phù hợp nguồn âm đơn. Không phân biệt được đa nguồn nếu cùng nằm trong chùm chính. Độ chính xác tỷ lệ nghịch với khẩu độ mảng ở tần số cho trước - khó triển khai phần cứng cho mảng khẩu độ lớn.
  Ước tính phổ độ phân giải siêu cao
  VD: MUSIC, ESPRIT. Phân tích giá trị riêng ma trận hiệp phương sai (tương quan), xây dựng phổ không gian. Đỉnh phổ tương ứng với hướng nguồn âm. Phù hợp đa nguồn, độ phân giải không phụ thuộc kích thước mảng (vượt giới hạn vật lý) → "Giải pháp phổ siêu phân giải". Có thể mở rộng cho xử lý băng rộng nhưng rất nhạy lỗi (sai số micro, kênh truyền), phù hợp mô hình tầm xa, tính toán ma trận phức tạp.
  TDOA (Time Difference of Arrival)
  Ước tính chênh lệch thời gian tín hiệu đến các micro khác nhau → Tính khoảng cách chênh lệch → Xác định vị trí nguồn âm dựa trên khoảng cách chênh lệch và hình học mảng. Gồm 2 bước:
  Bước 1: Ước tính TDOA
  Phổ biến: Tương quan chéo tổng quát (GCC - Generalized Cross Correlation) và Bộ lọc thích ứng LMS.
  GCC
  Tính toán đơn giản, độ trễ thấp, khả năng bám tốt → Phù hợp ứng dụng thời gian thực. Hiệu suất tốt trong môi trường nhiễu vừa phải/âm vang thấp. Độ chính xác giảm trong môi trường nhiễu không ổn định cao.
  Bộ lọc thích ứng LMS
  Cung cấp giá trị TDOA ở trạng thái hội tụ, không cần thông tin trước về nhiễu/tín hiệu. Nhạy với âm vang. Coi 2 tín hiệu micro là mục tiêu & đầu vào. Điều chỉnh hệ số bộ lọc để thu được TDOA.
  Bước 2: Định vị TDOA
  Sử dụng giá trị TDOA để định vị. Mảng 3 micro xác định vị trí không gian. Thêm micro → Tăng độ chính xác. Phương pháp: Ước tính hợp lý cực đại (MLE), Phương sai tối thiểu, Nội suy cầu, Giao tuyến tuyến tính. TDOA được ứng dụng rộng rãi nhờ độ chính xác cao, tính toán tối ưu, thời gian thực tốt (theo dõi thời gian thực). Là công nghệ định vị chính trong hầu hết sản phẩm AI định vị.
  Hình thành chùm tia (Beamforming)
  Gồm: Hình thành chùm tia thông thường (CBF - Conventional Beamforming) và Hình thành chùm tia thích ứng (ABF - Adaptive Beamforming).
  CBF: Đơn giản, không thích ứng. Tổng có trọng số đầu ra các micro. Trọng số kênh cố định → Ức chế mức thùy bên (sidelobe), lọc nhiễu/nhiễu ở vùng thùy bên.
  ABF: Nâng cao từ CBF → Lọc không gian thích ứng nhiễu. Sử dụng bộ lọc khác nhau → Thuật toán khác nhau (trọng số biên độ kênh được điều chỉnh theo tiêu chí tối ưu). VD: LMS, LS, SNR cực đại, LCMV (Phương sai tối thiểu ràng buộc tuyến tính). LCMV → Bộ tạo chùm tia MVDR (Đáp ứng không méo phương sai tối thiểu). Tiêu chí LCMV: Duy trì hệ số khuếch đại thùy chính, tối thiểu hóa công suất đầu ra → Công suất nhiễu + nhiễu đầu ra nhỏ nhất ~ Tiêu chí SINR cực đại → Tối ưu thu tín hiệu & ức chế nhiễu.
  CBF - Hình thành chùm tia truyền thống
  Phương pháp tổng trễ: Tăng cường giọng nói. Trễ tín hiệu thu micro để bù chênh lệch thời gian → Các tín hiệu đồng pha theo hướng mong muốn → Tăng hệ số khuếch đại tín hiệu tới từ hướng đó → Tạo bộ lọc không gian → Mảng có tính chọn hướng.
  CBF + Bộ lọc thích ứng (Enhanced Beamforming)
  Kết hợp Bộ lọc Wiener để cải thiện chất lượng giọng nói. Tín hiệu nhiễu qua Wiener → Tín hiệu sạch dựa trên tiêu chí LMS. Hệ số bộ lọc cập nhật lặp → Khử nhiễu không ổn định hiệu quả hơn CBF truyền thống.
  ABF - Hình thành chùm tia thích ứng
  GSLC: Dựa trên phương pháp triệt nhiễu chủ động (ANC - Active Noise Cancellation). Tín hiệu nhiễu đi qua kênh chính & kênh phụ. Ma trận chặn (Blocking Matrix) ở kênh phụ lọc tín hiệu giọng nói → Chỉ thu nhiễu đa kênh → Ước tính tối ưu nhiễu từ các kênh → Ước tính tín hiệu sạch.
  Tương lai công nghệ mảng
  Mảng micro vượt trội đơn micro → Thành phần quan trọng trong tăng cường giọng nói & xử lý tín hiệu âm thanh. Tăng cường giọng nói & định vị nguồn âm là yếu tố không thể thiếu trong: Hội nghị truyền hình, Robot thông minh, Máy trợ thính, Thiết bị gia dụng thông minh, Viễn thông, Đồ chơi thông minh, Ô tô. Các kỹ thuật xử lý tín hiệu, xử lý tín hiệu mảng đang dần tích hợp vào hệ thống xử lý giọng nói bằng mảng micro → Cải tiến thuật toán & ứng dụng rộng rãi. Sức mạnh phần cứng cho phép xử lý thời gian thực các thuật toán phức tạp trong môi trường nhiễu/âm vang/hấp thụ âm phức tạp. Tương lai: Sự kết hợp chặt chẽ giọng nói & hình ảnh sẽ là bước đột phá mới trong AI. Thành công thuộc về công nghệ kết hợp nhuần nhuyễn: Nhận dạng giọng nói, Hiểu ngôn ngữ, Xử lý tín hiệu mảng, Giọng nói tầm xa, Nhận dạng hình ảnh, Nhận dạng khuôn mặt, Nhận dạng mống mắt, Nhận dạng giọng nói - dựa trên nền tảng kỹ thuật vững chắc & tập trung vào con người.