Cách AI phân tách các âm thanh cạnh tranh trong thiết bị trợ thính

 


Các kỹ thuật học sâu mới giúp cả người cấy ghép ốc tai điện tử và người sử dụng máy trợ thính thông thường phân biệt âm thanh môi trường với tiếng ồn xung quanh.

Bất cứ ai bị mất thính lực đều biết thử thách này: tiếng còi ô tô vang lên khi bạn đang cố nghe cuộc trò chuyện; căn bếp kêu xèo xèo khi bạn nghe podcast; âm thanh thiên nhiên hòa quyện với tiếng vo ve của gia đình. Những người có thính giác bình thường quản lý điều này thông qua một kiểu phân loại thần kinh, nhanh chóng tách ra âm thanh mà họ muốn tập trung vào. Nhưng đối với người sử dụng thiết bị trợ thính, dù là máy trợ thính thông thường hay cấy ghép ốc tai điện tử, “vấn đề về bữa tiệc cocktail” này vẫn là một trong những khoảng cách khó chịu nhất giữa công nghệ và khả năng nghe trong thế giới thực.

Các nhà nghiên cứu tại Đại học Texas ở Dallas đã bắt đầu kiểm tra xem liệu trí tuệ nhân tạo có thể cải thiện cách các thiết bị trợ thính xử lý các âm thanh môi trường cạnh tranh hay không. Trọng tâm của họ không phải là lời nói; đó là lớp sự kiện âm thanh phong phú tạo nên cuộc sống hàng ngày - tiếng lá xào xạc, tiếng chó sủa, tiếng nước chảy, tiếng cửa đóng sầm.

Về nghiên cứu này

 

Title: Tách nguồn môi trường dựa trên học sâu và tăng cường âm thanh: Những tiến bộ dành cho cấy ốc tai điện tử và người nghe bình thường

Authors: Ram C M C Shekar, John H L Hansen

 

Affiliations:0 Trung tâm hệ thống giọng nói mạnh mẽ - Phòng thí nghiệm xử lý cấy ghép ốc tai điện tử, Đại học Texas ở Dallas

Journal:0 Tạp chí của Hiệp hội Âm học Hoa Kỳ - Tháng 4 năm 2026

 

Loại nghiên cứu:0 Nghiên cứu thực nghiệm với đánh giá của người nghe

Source: PubMed - DOI: 10.1121/10.0042760

Bối cảnh: Tại sao các nhà nghiên cứu lại xem xét điều này

Người sử dụng ốc tai điện tử phải đối mặt với những thách thức đặc biệt với khả năng nhận biết âm thanh trong môi trường. Trong khi công nghệ CI hiện đại vượt trội trong việc truyền tín hiệu giọng nói, thì các dấu hiệu âm thanh biến đổi, khuếch tán hơn của các sự kiện môi trường - tiếng chim hót, lượng mưa, giao thông - vẫn khó xử lý hơn. Hạn chế này ảnh hưởng đến sự an toàn (khó nghe thấy các phương tiện tiếp cận), chất lượng cuộc sống (ít tận hưởng âm thanh tự nhiên hơn) và quyền tự chủ tổng thể.

Thách thức về mặt kỹ thuật là có thật: khi nhiều nguồn âm thanh chồng lên nhau, việc tách chúng đòi hỏi độ phức tạp về mặt tính toán. Xử lý âm thanh truyền thống đã đạt được nhiều tiến bộ, nhưng học sâu mang đến một con đường mới. Bằng cách đào tạo mạng lưới thần kinh trên các thư viện lớn gồm các âm thanh được gắn nhãn và hỗn hợp của chúng, các nhà nghiên cứu có thể dạy các thuật toán để tách các nguồn cụ thể ngay cả trong những khung cảnh ồn ào, phức tạp.

Nghiên cứu đã được thực hiện như thế nào

Shekar và Hansen đã phát triển một khuôn khổ thử nghiệm mô phỏng các tình huống nghe trong thế giới thực. Họ đã tạo ra hỗn hợp âm thanh hai nguồn ghép nối âm thanh "mục tiêu" (chẳng hạn như tiếng mưa hoặc tiếng chim) với âm thanh "nhiễu" cạnh tranh. Cả người dùng CI và người có thính giác bình thường đều nghe ba phiên bản của mỗi hỗn hợp: âm thanh hỗn hợp thô làm cơ sở, âm thanh được xử lý chỉ bằng cách tách nguồn và âm thanh kết hợp tách nguồn với kỹ thuật nâng cao của riêng nhà nghiên cứu đối với âm thanh phi ngôn ngữ.

Thuật toán phân tách nguồn sử dụng kiến trúc deep learning có tên là SUDORMEND (Mạng lấy mẫu xuống và lấy mẫu lại liên tiếp của tính năng đa độ phân giải). Người nghe đánh giá âm thanh được xử lý theo ba khía cạnh: giảm nhiễu, chất lượng âm thanh và độ méo. Họ cũng thực hiện các bài kiểm tra lựa chọn bắt buộc về sở thích, cho biết họ thích phiên bản nào hơn.

Những gì các nhà nghiên cứu tìm thấy

Kết quả khác nhau một cách có ý nghĩa giữa hai nhóm người nghe. Những người sử dụng ốc tai điện tử cho thấy sự cải thiện đáng kể về mặt thống kê trong việc giảm nhiễu, nhưng chỉ đối với âm thanh tự nhiên khi kết hợp với nhiễu phù hợp với danh mục (F=4,935, p=0,0175). Điều này cho thấy rằng quá trình xử lý CI có thể được điều chỉnh nhiều về giọng nói, khiến việc xử lý âm thanh trong môi trường rộng hơn trở nên kém tinh tế hơn.

Những người nghe thính giác bình thường cho thấy mức tăng lớn hơn nhiều. Họ đã chứng minh khả năng giảm nhiễu trên tất cả các loại âm thanh phi ngôn ngữ được thử nghiệm, với các giá trị thống kê có ý nghĩa cao (giá trị F nằm trong khoảng từ 8,481 đến 32,37, giá trị p dưới 0,001). Cả hai nhóm - cấy ốc tai điện tử và thính giác bình thường - đều bày tỏ sự ưa thích mạnh mẽ đối với phương pháp tăng cường và tách nguồn kết hợp khi nghe âm thanh tự nhiên và tiếng ồn trong nhà như tiếng nước chảy hoặc tiếng bát đĩa kêu lạch cạch.

Điều ngược lại đang nói lên rằng: khi bạn cho phép thuật toán tự do nâng cao khả năng nhận biết âm thanh phi ngôn ngữ ngoài quá trình xử lý tập trung vào giọng nói, người dùng sẽ chú ý và thích kết quả hơn. Việc những người nghe bình thường nhận thấy sự cải thiện rộng rãi hơn cho thấy rằng các thiết bị trợ thính có thể được hưởng lợi đáng kể từ các thuật toán được tối ưu hóa cho không gian âm thanh trong môi trường chứ không chỉ cho cuộc trò chuyện.

Điều đó có ý nghĩa gì đối với người bị mất thính giác

Công việc này mở rộng những gì thiết bị trợ thính có thể làm được. Ngày nay, hầu hết các máy trợ thính thông thường và cấy ghép ốc tai điện tử đều ưu tiên khả năng hiểu lời nói - và đúng như vậy, vì hội thoại là trung tâm của cuộc sống hàng ngày. Nhưng con người không sống trong thế giới chỉ có lời nói. Sự phong phú của trải nghiệm âm thanh bao gồm âm nhạc, tiếng cười, thiên nhiên, âm thanh báo thức và các tín hiệu âm thanh tinh tế giúp chúng ta điều hướng và tận hưởng môi trường xung quanh.

Nghiên cứu chứng minh rằng học sâu có thể loại bỏ các nguồn môi trường chồng chéo và nâng cao nhận thức rõ ràng của chúng. Quan trọng hơn, nó cho thấy người nghe bị suy giảm thính lực rất thích những cải tiến này. Đặc biệt đối với những người sử dụng cấy ghép ốc tai điện tử, những người có thể gặp khó khăn hơn với âm thanh môi trường so với chỉ nói riêng, kiểu xử lý này có thể nâng cao tính độc lập và chất lượng cuộc sống một cách có ý nghĩa.

Thúc đẩy việc tách âm thanh trong công nghệ thính giác hiện đại

Phát hiện của nghiên cứu về việc tách nguồn âm thanh chính xác là một loại công nghệ tiên tiến mà các danh mục máy trợ thính không cần kê đơn và bán trực tiếp cho người tiêu dùng đã được FDA phê chuẩn đã có thể thực hiện được. Các công ty hiện có cơ hội triển khai xử lý âm thanh tiên tiến trong các thiết bị trợ thính mà không cần đến mô hình truyền thống chỉ dành cho phòng khám. Các thuật toán học sâu để xử lý âm thanh trong môi trường phù hợp một cách tự nhiên với sự phát triển này.

Các thiết bị như Panda Quantum tích hợp các bài kiểm tra thính giác đã được xác nhận lâm sàng với khả năng giảm tiếng ồn thích ứng và kết nối Bluetooth cho điện thoại và âm nhạc. Việc bổ sung khả năng phân tách nguồn đã học - được đào tạo về bối cảnh âm thanh môi trường thực tế - thể hiện lớp khả năng tiếp theo. Thuật toán thực hiện công việc tính toán khó khăn trong việc tách biệt những nguồn quan trọng, giúp người dùng máy trợ thính có thể tự do tập trung vào những gì họ muốn nghe.

Đối với tình trạng mất thính lực ở mức độ nhẹ đến trung bình, các mẫu máy không kê đơn hiện có thể bao gồm các loại xử lý nâng cao này. Mất thính lực nghiêm trọng hoặc sâu thường được hưởng lợi nhiều hơn từ cấy ốc tai điện tử hoặc thiết bị theo toa do chuyên gia thính học trang bị, nhưng nghiên cứu cơ bản về tách âm thanh được áp dụng trên toàn bộ quang phổ.

Panda Quantum hearing aid

Tìm hiểu thêm về máy trợ thính được trang bị khả năng xử lý âm thanh tiên tiến tại Panda Quantum.

Hạn chế của nghiên cứu này

Nghiên cứu đã sử dụng hỗn hợp hai nguồn được kiểm soát trong môi trường phòng thí nghiệm, giúp đơn giản hóa các cảnh âm thanh trong thế giới thực, nơi ba, bốn hoặc nhiều nguồn khác cạnh tranh nhau. Trong khi những người tham gia đánh giá kết quả về mặt nhận thức, dữ liệu thực địa dài hạn cho thấy cách các thuật toán này hoạt động trong quá trình nghe thực sự hàng ngày sẽ củng cố niềm tin vào lợi ích thực tế.

Ngoài ra, nhóm cấy ghép ốc tai điện tử cho thấy sự cải thiện hẹp hơn so với nhóm thính lực bình thường, cho thấy việc xử lý tín hiệu CI có những hạn chế riêng. Các thuật toán được tối ưu hóa cho một loại thiết bị trợ thính có thể không được chuyển trực tiếp sang loại thiết bị trợ thính khác. Không có xung đột tài trợ hoặc lợi ích cạnh tranh nào được ghi nhận trong ấn phẩm.

Điều này sẽ đưa chúng ta đến đâu

Học sâu đang chuyển từ tính mới sang công cụ thực tế trong công nghệ thính giác. Công trình này chứng minh rằng các thuật toán được đào tạo để tách biệt và tăng cường âm thanh môi trường có thể mang lại những cải tiến có thể đo lường được và được người nghe ưa thích hơn. Khi các thiết bị trợ thính được kết nối và không cần kê đơn trở nên phổ biến, sức mạnh tính toán để chạy các thuật toán này ngày càng sẵn có. Giai đoạn tiếp theo là tích hợp những tiến bộ này vào các thiết bị thực và xác thực chúng trên các môi trường nghe và nhóm người dùng khác nhau.

Shekar, Ram C M C và John H L Hansen. "Tách nguồn môi trường dựa trên học tập sâu và tăng cường âm thanh: Những tiến bộ dành cho cấy ghép ốc tai điện tử và người nghe bình thường." Tạp chí của Hiệp hội Âm học Hoa Kỳ, 2026. Lấy từ PubMed. DOI: 10.1121/10.0042760

Reading next

Liên hệ với chúng tôi

Cần trợ giúp để chọn máy trợ thính Panda® phù hợp?

Nhóm hỗ trợ của chúng tôi có thể giúp bạn so sánh Panda® Stealth, Panda® Air và Panda® Quantum, trả lời các câu hỏi trước khi bạn đặt hàng hoặc trợ giúp về giao dịch mua hiện có.