Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói

Bảo Nam |

Giọng nói có thể tiết lộ rất nhiều thông tin nhưng ít ai ngờ rằng nó có thể khiến người nói lộ diện chỉ sau vài giây lên tiếng.

Một nghiên cứu gần đây của Viện Công nghệ Massachusetts (MIT), Mỹ cho thấy AI được đào tạo không chỉ có thể xác định giới tính, tuổi tác và sắc tộc từ giọng nói của một người mà nó thậm chí đoán được gương mặt của họ trông như thế nào.

Sử dụng bộ dữ liệu gồm hàng triệu video trên YouTube, các nhà nghiên cứu đã tự đào tạo một AI dựa trên mô hình mạng thần kinh có tên Speech2Face. Các kết quả thí nghiệm cho thấy chỉ cần nghe một giọng nói trong 6 giây, hệ thống này có thể khôi phục lại khuôn mặt của người nói với độ chính xác khá cao.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 1.

Bên trái là chân dung trong video YouTube, bên phải là hình ảnh do AI dựng lên dựa trên các âm thanh nghe được.

Cách thức hoạt động của Speech2Face được chia thành hai phần. Một là bộ mã hóa lời nói, chịu trách nhiệm phân tích lời nói từ đầu vào và dự đoán các đặc điểm khuôn mặt có liên quan. Phần còn lại là bộ giải mã khuôn mặt, tích hợp các đặc điểm khuôn mặt để tạo ra hình ảnh.

Nhóm nghiên cứu của MIT chỉ ra rằng mục đích của họ không phải là khôi phục chính xác diện mạo của nguồn phát. Mô hình này chủ yếu được tạo ra để nghiên cứu mối tương quan giữa lời nói và ngoại hình của con người.

Từ kết quả đào tạo, Speech2Face có thể xác định giới tính tốt hơn và có thể được phân biệt khá rõ giữa người da trắng và người châu Á. Ngoài ra, tỷ lệ chính xác trong việc dự đoán độ tuổi cao hơn một chút khi âm thanh đến từ người ở độ tuổi 30-40 và 70.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 2.

Độ chính xác của AI phân tích giọng nói.

Ngoài giới tính và tuổi tác, Speech2Face thậm chí có thể đoán được các đặc điểm trên khuôn mặt như cấu trúc của mũi, độ dày và hình dạng của môi, hay khung xương mặt với tỷ lệ gần đúng. Về cơ bản, thời gian nghe âm thanh càng dài thì độ chính xác của AI càng cao.

Tất nhiên, cũng có trường hợp AI nhầm lẫn. Các nhà nghiên cứu phát hiện rằng hệ thống sẽ xác định một cậu bé chưa vỡ giọng ở tuổi dậy thì là nữ, hay một số người có giọng nói đặc thù. Điều này hoàn toàn dễ hiểu bởi dù sao, âm thanh vẫn không phải là thứ gì đó chắc chắn. Giống như trường hợp cô gái dễ thương đi cùng bạn vào khách sạn đêm qua có thể là một chàng trai khó tính.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 3.

Một số ví dụ về lỗi trong Speech2Face

Kết quả nghiên cứu cũng chỉ ra những hạn chế của Speech2Face một phần là do sự thiếu đa dạng về sắc tộc trong bộ dữ liệu. Điều này cũng dẫn đến sự thiếu chính xác trong việc xác định giọng nói của người da đen.

Ứng dụng của công nghệ này cũng rất rộng lớn. Đơn giản nhất, hãy tưởng tượng chỉ cần nói một vài từ, các phần mềm có thể xây dựng một gương mặt đại diện của bạn trông giống thật tới 70-80%.

Giọng nói cũng có thể được xác định như một DNA hoặc dấu vân tay của con người. Trong tương lai, công nghệ này cũng có thể được nâng cấp để cánh sát có thể sử dụng để thu hẹp phạm vi điều tra tội phạm hay tìm kiếm những đối tượng thích chơi khăm bằng việc gọi điện để báo cáo các vụ án giả.

Hiện tại, HSBC, Standard Chartered, JPMorgan Chase và một số ngân hàng khác đang sử dụng công nghệ tương tự để tạo ra "ID giọng nói", nhằm phát hiện xem tài khoản của khách hàng có bị đánh cắp hoặc chiếm dụng hay không.

Một số công ty như trung tâm dịch vụ khách hàng của Metropolitan Life Insurance cũng sử dụng hệ thống AI để giúp xác định cảm xúc của khách hàng qua điện thoại, từ đó đánh giá xem liệu người gọi tới có ý định lừa đảo bảo hiểm hay không.

Một số công ty công nghệ lớn cũng đã ứng dụng AI trong việc tuyển dụng nhân sự, nhằm phân tích tính cách các ứng viên để xem họ có phù hợp với vị trí tuyển dụng hay không.

Tại CES 2017, Toyota đã trưng bày mẫu xe tích hợp camera hồng ngoại, cảm biến và một hệ thống nhận dạng kiêm đối thoại bằng giọng nói. Toàn bộ chúng sẽ phối hợp với nhau để xác định xem người lái có ở trạng thái mệt mỏi không để đưa ra cảnh báo.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 4.

Công nghệ này có thể ứng dụng trong việc chữa bệnh.

Tất nhiên so với các ứng dụng trên, công nghệ của MIT mang tính triển khai mở rộng hơn. Các nhà nghiên cứu hy vọng rằng một ngày nào đó, nó có thể được sử dụng để chẩn đoán từ xa các bệnh như Parkinson. Hiện tại, các nghiên cứu đã phát hiện rằng những bệnh nhân mắc bệnh động mạch vành sẽ có các dấu ấn riêng về tần số trong giọng nói. Trong tương lai, các bác sĩ sẽ "lắng nghe" bệnh nhân để có thể chẩn đoán bệnh của họ tốt hơn.

Tham khảo Sina

Đường dây nóng: 0943 113 999

Soha
Báo lỗi cho Soha

*Vui lòng nhập đủ thông tin email hoặc số điện thoại