Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói

Bảo Nam |

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói
Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói

Giọng nói có thể tiết lộ rất nhiều thông tin nhưng ít ai ngờ rằng nó có thể khiến người nói lộ diện chỉ sau vài giây lên tiếng.

Một nghiên cứu gần đây của Viện Công nghệ Massachusetts (MIT), Mỹ cho thấy AI được đào tạo không chỉ có thể xác định giới tính, tuổi tác và sắc tộc từ giọng nói của một người mà nó thậm chí đoán được gương mặt của họ trông như thế nào.

Sử dụng bộ dữ liệu gồm hàng triệu video trên YouTube, các nhà nghiên cứu đã tự đào tạo một AI dựa trên mô hình mạng thần kinh có tên Speech2Face. Các kết quả thí nghiệm cho thấy chỉ cần nghe một giọng nói trong 6 giây, hệ thống này có thể khôi phục lại khuôn mặt của người nói với độ chính xác khá cao.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 1.

Bên trái là chân dung trong video YouTube, bên phải là hình ảnh do AI dựng lên dựa trên các âm thanh nghe được.

Cách thức hoạt động của Speech2Face được chia thành hai phần. Một là bộ mã hóa lời nói, chịu trách nhiệm phân tích lời nói từ đầu vào và dự đoán các đặc điểm khuôn mặt có liên quan. Phần còn lại là bộ giải mã khuôn mặt, tích hợp các đặc điểm khuôn mặt để tạo ra hình ảnh.

Nhóm nghiên cứu của MIT chỉ ra rằng mục đích của họ không phải là khôi phục chính xác diện mạo của nguồn phát. Mô hình này chủ yếu được tạo ra để nghiên cứu mối tương quan giữa lời nói và ngoại hình của con người.

Từ kết quả đào tạo, Speech2Face có thể xác định giới tính tốt hơn và có thể được phân biệt khá rõ giữa người da trắng và người châu Á. Ngoài ra, tỷ lệ chính xác trong việc dự đoán độ tuổi cao hơn một chút khi âm thanh đến từ người ở độ tuổi 30-40 và 70.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 2.

Độ chính xác của AI phân tích giọng nói.

Ngoài giới tính và tuổi tác, Speech2Face thậm chí có thể đoán được các đặc điểm trên khuôn mặt như cấu trúc của mũi, độ dày và hình dạng của môi, hay khung xương mặt với tỷ lệ gần đúng. Về cơ bản, thời gian nghe âm thanh càng dài thì độ chính xác của AI càng cao.

Tất nhiên, cũng có trường hợp AI nhầm lẫn. Các nhà nghiên cứu phát hiện rằng hệ thống sẽ xác định một cậu bé chưa vỡ giọng ở tuổi dậy thì là nữ, hay một số người có giọng nói đặc thù. Điều này hoàn toàn dễ hiểu bởi dù sao, âm thanh vẫn không phải là thứ gì đó chắc chắn. Giống như trường hợp cô gái dễ thương đi cùng bạn vào khách sạn đêm qua có thể là một chàng trai khó tính.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 3.

Một số ví dụ về lỗi trong Speech2Face

Kết quả nghiên cứu cũng chỉ ra những hạn chế của Speech2Face một phần là do sự thiếu đa dạng về sắc tộc trong bộ dữ liệu. Điều này cũng dẫn đến sự thiếu chính xác trong việc xác định giọng nói của người da đen.

Ứng dụng của công nghệ này cũng rất rộng lớn. Đơn giản nhất, hãy tưởng tượng chỉ cần nói một vài từ, các phần mềm có thể xây dựng một gương mặt đại diện của bạn trông giống thật tới 70-80%.

Giọng nói cũng có thể được xác định như một DNA hoặc dấu vân tay của con người. Trong tương lai, công nghệ này cũng có thể được nâng cấp để cánh sát có thể sử dụng để thu hẹp phạm vi điều tra tội phạm hay tìm kiếm những đối tượng thích chơi khăm bằng việc gọi điện để báo cáo các vụ án giả.

Hiện tại, HSBC, Standard Chartered, JPMorgan Chase và một số ngân hàng khác đang sử dụng công nghệ tương tự để tạo ra "ID giọng nói", nhằm phát hiện xem tài khoản của khách hàng có bị đánh cắp hoặc chiếm dụng hay không.

Một số công ty như trung tâm dịch vụ khách hàng của Metropolitan Life Insurance cũng sử dụng hệ thống AI để giúp xác định cảm xúc của khách hàng qua điện thoại, từ đó đánh giá xem liệu người gọi tới có ý định lừa đảo bảo hiểm hay không.

Một số công ty công nghệ lớn cũng đã ứng dụng AI trong việc tuyển dụng nhân sự, nhằm phân tích tính cách các ứng viên để xem họ có phù hợp với vị trí tuyển dụng hay không.

Tại CES 2017, Toyota đã trưng bày mẫu xe tích hợp camera hồng ngoại, cảm biến và một hệ thống nhận dạng kiêm đối thoại bằng giọng nói. Toàn bộ chúng sẽ phối hợp với nhau để xác định xem người lái có ở trạng thái mệt mỏi không để đưa ra cảnh báo.

Chỉ cần 6 giây, AI sẽ phác họa được khuôn mặt của bạn từ giọng nói - Ảnh 4.

Công nghệ này có thể ứng dụng trong việc chữa bệnh.

Tất nhiên so với các ứng dụng trên, công nghệ của MIT mang tính triển khai mở rộng hơn. Các nhà nghiên cứu hy vọng rằng một ngày nào đó, nó có thể được sử dụng để chẩn đoán từ xa các bệnh như Parkinson. Hiện tại, các nghiên cứu đã phát hiện rằng những bệnh nhân mắc bệnh động mạch vành sẽ có các dấu ấn riêng về tần số trong giọng nói. Trong tương lai, các bác sĩ sẽ "lắng nghe" bệnh nhân để có thể chẩn đoán bệnh của họ tốt hơn.

Tham khảo Sina

theo Trí Thức Trẻ

Đọc thêm về:

    Bạn đọc có thể báo tin, gửi bài viết, clip, ảnh về email congnghe@ttvn.vn để nhận nhuận bút cao trong vòng 24h. Đường dây nóng: 0943 113 999

    Soha
    Trí Thức Trẻ

    TIN NỔI BẬT SOHA

      Công ty Cổ phần VCCorp

      © Copyright 2010 - 2019 – Công ty Cổ phần VCCorp

      Tầng 17,19,20,21 Toà nhà Center Building - Hapulico Complex,
      Số 1 Nguyễn Huy Tưởng, Thanh Xuân, Hà Nội.
      Email: btv@soha.vn
      Giấy phép số 2411/GP-TTĐT do Sở Thông tin và Truyền thông Hà Nội cấp ngày 31 tháng 07 năm 2015.
      Chịu trách nhiệm nội dung: Ông Nguyễn Thế Tân

      Liên hệ quảng cáo:
      Hotline: 0942.86.11.33
      Email: giaitrixahoi@admicro.vn
      Hỗ trợ & CSKH:
      Tầng 20, tòa nhà Center Building, Hapulico Complex,
      số 1 Nguyễn Huy Tưởng, phường Thanh Xuân Trung, quận Thanh Xuân, Hà Nội.
      Tel: (84 24) 7307 7979
      Fax: (84 24) 7307 7980