Phân tích giọng nói với AI: Các bất ổn tâm lý sẽ sớm được phát hiện?

Vinh Ngô |

Các thử nghiệm ban đầu đang cho kết quả hứa hẹn, tuy nhiên vẫn có những lo ngại xung quanh ứng dụng trí tuệ nhân tạo trong phân tích giọng nói.

Một số nhà nghiên cứu AI tin rằng âm điệu của giọng nói có thể trở thành chìa khoá để xác định tình trạng tâm lý của người nói và AI hoàn toàn phù hợp để phát hiện những thay đổi trong âm sắc kiểu như vậy. Từ đó có thể xây dựng một bộ ứng dụng và các công cụ trực tuyến được thiết kế để theo dõi tình trạng tinh thần của người dùng cũng như các chương trình đánh giá theo thời gian thực qua chăm sóc sức khỏe từ xa.

Phân tích giọng nói với AI: Các bất ổn tâm lý sẽ sớm được phát hiện? - Ảnh 1.

Các nhà tâm lý học từ lâu đã phát hiện ra một số bệnh lý tâm thần cụ thể có thể được phát hiện thông qua không chỉ những gì người bệnh nói mà còn cách họ nói chúng, theo Maria Espinola, nhà nghiên cứu tâm lý và giáo sư trợ lý Đại học y dược Cincinnati.

Theo đó, những bệnh nhân trầm cảm thường có “giọng nói đơn điệu, phẳng và nhẹ nhàng hơn, đồng thời có phạm vi cao độ giảm và âm lượng thấp hơn. Họ cũng tạm dừng khi nói nhiều hơn”. Trong khi đó, người có bệnh lý lo lắng “có xu hướng nói nhanh hơn, khó thở hơn”.

AI phát hiện các đặc điểm giọng nói có ý nghĩa mà tai người thường bỏ qua

Ngày nay, các đặc điểm trong giọng nói đang được các nhà nghiên cứu máy học (machine learning) tận dụng để dự đoán chứng trầm cảm và lo lắng, cũng như một số bệnh lý khác như tâm thần phân liệt và rối loạn căng thẳng sau chấn thương. Việc sử dụng các thuật toán học sâu (deep learning) giúp khám phá ra các hình mẫu và đặc điểm bổ sung, được ghi lại trong các đoạn ghi âm ngắn mà ngay cả các chuyên gia được đào tạo cũng khó lòng phát hiện.

“Công nghệ chúng tôi đang sử dụng có thể tách xuất các đặc điểm có ý nghĩa mà tai người không thể phát hiện”, Kate Bentley, trợ lý giáo sư tại trường Y Harvard và là nhà tâm lý học lâm sàng tại bệnh viện đa khoa Massachusetts nói.

“Có nhiều sự phấn khích xung quanh việc tìm ra các phương pháp chẩn đoán tâm thần sinh học hay các chỉ báo khách quan hơn các hình thức đánh giá chủ quan truyền thống đang được sử dụng như các cuộc phỏng vấn lâm sàng và các mẫu báo cáo tự điền. Những manh mối khác giờ đây gồm thay đổi trong mức độ sinh hoạt, mô hình giấc ngủ và dữ liệu truyền thông xã hội.

Những lo ngại nhất định

Trước hết, đó là việc tạo ra công nghệ đảm bảo cân bằng và bình đẳng cho tất cả các bệnh nhân bất kể tuổi tác, giới tính, dân tộc, quốc tịch hay các tiêu chí nhân khẩu học khác.

“Để các mô hình máy học hoạt động tốt, bạn thực sự cần phải có bộ dữ liệu rất lớn, đa dạng và mạnh mẽ”, bà Chang chia sẻ, đồng thời lưu ý rằng Kintsugi đã sử dụng dữ liệu gồm các bản ghi âm giọng nói từ khắp nơi trên thế giới với nhiều ngôn ngữ khác nhau.

Tiếp đến, quyền riêng tư cũng là mối quan tâm lớn trong lĩnh vực non trẻ này, đặc biệt là dữ liệu giọng nói có thể được sử dụng để xác định danh tính cá nhân, theo Tiến sĩ Bentley.

Ngay cả khi bệnh nhân đồng ý ghi âm thì câu hỏi về sự đồng thuận đôi khi cũng không rõ ràng, vì ngoài việc được sử dụng để đánh giá sức khỏe tâm thần của bệnh nhân, một số chương trình phân tích giọng nói còn sử dụng các bản ghi âm để phát triển và tinh chỉnh các thuật toán riêng.

Một thách thức khác, theo Tiến sĩ Bentley, là việc người dùng có thể không tin tưởng vào máy học hay cái gọi là thuật toán hộp đen, do các công nghệ này hoạt động theo những cách mà ngay chính các nhà phát triển cũng không thể giải thích đầy đủ, đặc biệt đối với những tính năng mà họ sử dụng để đưa ra dự đoán.

“Có quá trình tạo ra thuật toán và quá trình tìm hiểu thuật toán đó”, Tiến sĩ Alexander S.Young, giám đốc lâm thời Viện khoa học thần kinh và hành vi con người Semel, kiêm chủ tịch khoa tâm thần học Đại học California cho biết, nhấn mạnh tới lo ngại chung của nhiều nhà khoa học AI: đó là có rất ít sự giám sát của con người trong giai đoạn đào tạo cho các chương trình này.

Do đó, ông cũng lạc quan một cách thận trọng về tiềm năng của công nghệ phân tích giọng nói, đặc biệt đối với các công cụ cho các bệnh nhân tự theo dõi.

“Tôi tin rằng mọi người có thể lập mô hình tình trạng sức khoẻ tâm thần hay ước tính tình trạng của mình một cách tổng quát. Nhiều người muốn tự theo dõi tình trạng bệnh lý của mình, nhất là với các bệnh mãn tính”.

Nhưng trước khi công nghệ tự động phân tích giọng nói được sử dụng phổ biến, nhiều người đang kêu gọi tiến hành các cuộc kiểm tra nghiêm ngặt về độ chính xác của chúng.

“Chúng tôi thực sự cần nhiều sự xác nhận hơn, không chỉ về công nghệ giọng nói, mà còn cả AI và các mô hình máy học được xây dựng dựa trên các luồng dữ liệu khác nữa”, Tiến sĩ Bentley cho hay. “Chúng tôi cần thấy được sự xác nhận từ các nghiên cứu bài bản trên quy mô lớn”.

Đường dây nóng: 0943 113 999

Soha
Báo lỗi cho Soha

*Vui lòng nhập đủ thông tin email hoặc số điện thoại