Ứng dụng AI giải mã lời nói và ngôn ngữ từ tín hiệu não


Hai hướng tiếp cận chính

1) Xâm lấn: điện cực đặt trong/Trên vỏ não nói (ECoG, microelectrode arrays)

  • Nguyên lý: đo hoạt động thần kinh ở vùng vận động–phát âm rồi dùng mô hình học sâu/transformer suy luận chuỗi ký tự, từ hoặc âm vị theo thời gian thực.

  • Cột mốc 2023: nhóm Stanford/Neural Prosthetics Translational Lab báo cáo 62 từ/phút với vốn từ lớn nhờ vi điện cực trong vỏ não (spiking activity), tiến sát tốc độ hội thoại tự nhiên hơn hẳn thế hệ trước. Nature+2PubMed+2

  • Cột mốc 2023: nhóm UCSF/Edward Chang dùng ECoG mật độ cao để giải mã đồng thời văn bản, âm thanh giọng nói tổng hợp và hoạt ảnh khuôn mặt của “avatar”, nâng tính biểu cảm khi giao tiếp. PubMed+2Chang Lab+2

2) Không xâm lấn: fMRI, MEG/EEG + mô hình ngôn ngữ lớn (LLM)

  • Nguyên lý: học ánh xạ từ biểu diễn ngữ nghĩa trong não (fMRI) sang không gian ngôn ngữ của LLM để tái dựng ngôn ngữ liên tục người tham gia đang nghe/đọc/nghĩ—không cần giới hạn ở bộ từ cố định.

  • Cột mốc 2023: UT Austin (nhóm Alexander Huth) cho thấy có thể tái tạo ý nghĩa dòng suy nghĩ bằng fMRI + mô hình ngôn ngữ (decoder cho “continuous language”). 

  • Xu hướng 2024–2025: các nhóm đề xuất decoder theo ký tựkết nối trực tiếp đặc trưng fMRI vào LLM tự hồi quy, giúp giảm phụ thuộc vào tập câu ứng viên và cải thiện khả năng tổng quát hóa liên cá thể.


Hệ thống hoạt động như thế nào?

  1. Thu nhận tín hiệu:

    • Xâm lấn (Utah array/ECoG) → tín hiệu có độ phân giải thời gian cao (ms), biểu diễn chính xác động tác phát âm.

    • Không xâm lấn (fMRI/EEG/MEG) → bao phủ rộng vùng não, bắt được ngữ nghĩa nhưng chậm (fMRI theo giây). Nature+2PubMed+2

  2. Tiền xử lý & gán nhãn: đồng bộ tín hiệu với kích thích (âm thanh/ngôn ngữ) hoặc với “nỗ lực phát âm” ở bệnh nhân không nói được. PubMed

  3. Mã hoá–giải mã bằng AI:

    • Mạng nơ-ron sâu/transformer học liên hệ giữa mẫu thần kinh và đại diện ngôn ngữ (phoneme, chữ cái, từ, hoặc embedding LLM).

    • Bộ giải mã sinh văn bản/giọng nói/điệu mặt theo thời gian thực (xâm lấn) hoặc tóm tắt ý nghĩa (không xâm lấn). Nature+1


Thành tựu nổi bật

  • Tốc độ & quy mô từ vựng: 62 từ/phút với vốn từ lớn trên bệnh nhân liệt—tiệm cận tính trôi chảy cần thiết để đàm thoại hàng ngày. Nature

  • Đa mô thức giao tiếp: văn bản + âm thanh giọng nói tổng hợp + avatar khuôn mặt đồng bộ, tăng biểu cảm và tự nhiên. PubMed

  • Giải mã “ý nghĩa” không xâm lấn: tái dựng nội dung ngôn ngữ liên tục từ fMRI, chứng minh não mã hoá ngôn nghĩa ở mạng vùng rộng và có thể soi chiếu vào không gian của LLM. Nature

  • Bước tới LLM–BCI: đưa trực tiếp biểu diễn fMRI vào mô hình ngôn ngữ tự hồi quy để sinh văn bản mạch lạc, giảm ràng buộc vào tập câu mẫu. Nature


Ứng dụng tiềm năng

  • Phục hồi giao tiếp cho người bại liệt, hội chứng “khóa trong”, ALS, sau đột quỵ. Nature+1

  • Hỗ trợ lâm sàng: theo dõi, chẩn đoán rối loạn ngôn ngữ; đánh giá phục hồi chức năng.

  • Khoa học thần kinh tính toán: kiểm định giả thuyết về biểu diễn ngôn nghĩa và tính mô-đun của mạng ngôn ngữ trong não người. Nature


Thách thức còn lại

  • Xâm lấn vs. không xâm lấn: hệ xâm lấn cho tốc độ/chính xác cao nhưng đòi hỏi phẫu thuật; không xâm lấn an toàn hơn nhưng bị giới hạn về độ phân giải thời gian. Nature+2PubMed+2

  • Tổng quát hoá & hiệu chỉnh nhanh: mô hình thường phải huấn luyện cá thể hoá; các hướng 2024–2025 đang cải thiện cross-subject và giảm thời gian hiệu chỉnh. arXiv

  • Độ bền & di động hệ thống: cần điện cực, phần cứng không dây, thuật toán ổn định lâu dài ngoài phòng thí nghiệm. PubMed

  • Đạo đức & quyền riêng tư thần kinh: dữ liệu não cực kỳ nhạy cảm; việc giải mã nội dung suy nghĩ đòi hỏi cơ chế đồng thuận, kiểm soát, và “tường lửa thần kinh” rõ ràng. (Tổng hợp từ thảo luận đạo đức trong các bài Nature/NEJM/UCSF.) PubMed+1


Triển vọng

Hướng kết hợp cảm biến + LLM đang tạo “giao diện ngôn ngữ” cho não bộ: xâm lấn đem lại giao tiếp trôi chảy theo thời gian thực; không xâm lấn mở cửa ứng dụng rộng rãi, nhất là khi các kỹ thuật giải mã ngôn ngữ liên tụcsuy luận ngữ nghĩa tiếp tục tiến bộ. Nếu các rào cản về phần cứng, tổng quát hoá và đạo đức được giải quyết, BCI ngôn ngữ có thể trở thành công cụ y tế và nghiên cứu chủ lực trong thập kỷ tới.