Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật

Minh Tiến |
Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật
Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật

Những tiến bộ gần đây trong công nghệ sâu đã tạo ra một loạt các công cụ có khả năng bắt chước giọng nói của một người cụ thể.

Đời sống càng hiện đại, cuộc sống càng hối hả khiến chúng ta càng phụ thuộc những phương tiện phục vụ. Sự phát triển của khoa học và công nghệ, nhất là trong thời đại cuộc cách mạng công nghiệp 4.0 đã thúc đẩy sự hiện diện của công nghệ kỹ thuật số trong mọi mặt đời sống kinh tế - xã hội. Nó giúp bạn dễ dàng giữ liên lạc với bạn bè, gia đình và làm việc từ xa, ngay cả khi bạn đang ở một nơi khác trên thế giới. Bạn có thể giao tiếp bằng lời nói, video, âm thanh và các phương tiện khác.

Tuy nhiên, với mức độ con người đang dần bị phụ thuộc vào công nghệ cao như hiện nay đang dẫn đến không ít hệ lụy rất đáng quan ngại.

Hàng ngày, chúng ta đọc về những tiến bộ mới trong mạng lưới thần kinh số hóa đang học cách chẩn đoán bệnh tật, tạo ra các loại thuốc mới, tìm kiếm khoáng chất hoặc lái xe ô tô... Nhưng đồng thời, trí tuệ nhân tạo cũng đang cải thiện khả năng đánh lừa, có thể mô phỏng giọng nói thật. Không có hai giọng nói của hơn 7,8 tỷ người trên Trái Đất giống hệt nhau. Nhưng giờ đây trí tuệ nhân tạo lại có thể "khắc phục" được nhược điểm đó.

Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật - Ảnh 1.

Thực tế ảo xâm nhập và bắt rễ trong thực tế thực của chúng ta, và ngày càng khó phân biệt cái này với cái kia.

Bắt chước giọng nói

Những tiến bộ gần đây trong công nghệ học sâu đã tạo ra một loạt các công cụ có khả năng bắt chước giọng nói của một người cụ thể. Trong tay kẻ xấu, một công cụ như vậy có thể gây ra tác hại đáng kể.

Đặc biệt, nó có thể vượt qua các hệ thống định danh dựa trên giọng nói đã được triển khai trong các đường dây điện thoại dịch vụ khách hàng tự động (ví dụ trong ngân hàng lớn nhất của Mỹ nắm giữ JP Morgan Chase và ngân hàng lớn nhất của Anh HSBC), cũng như trong một số dịch vụ nhắn tin di động (ví dụ trong nền tảng WeChat của Trung Quốc). Nó cũng sẽ phá vỡ kiểm soát truy cập dựa trên giọng nói của người dùng trong các thiết bị IoT (Internet of Things) như trợ lý gia đình kỹ thuật số (ví dụ: Amazon Alexa, Google Home).

Ngoài ra, các công cụ như vậy có thể đánh lừa mọi người trực tiếp bằng cách tăng cường các trò gian lận lừa đảo truyền thống với giọng nói quen thuộc của con người. Vào tháng 3 năm 2019, tờ Wall Street Journal đã mô tả cách thức lừa đảo sử dụng giọng nói của người đứng đầu một công ty Đức được mô phỏng bằng mạng lưới thần kinh để buộc người đứng đầu một công ty con ở Anh phải chuyển gấp 220.000 euro cho một công ty Hungary. Người này chắc chắn rằng anh ta đang nói chuyện với ông chủ người Đức, bởi vì anh ta nhận ra rõ ràng giọng của ông chủ và giai điệu giọng nói của ông ấy.

Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật - Ảnh 2.

Tất nhiên, người ta hy vọng rằng những gian lận như vậy sẽ không trở nên phổ biến, vì chúng rất phức tạp về mặt công nghệ. Nhưng điều này có đúng không? Một nhóm các nhà nghiên cứu từ Đại học Chicago đã phát hiện ra vấn đề. Họ đã công bố kết quả của mình vào tháng 9 năm 2021. Và vấn đề này đã làm họ hết sức sợ hãi.

Các nhà nghiên cứu Chicago đã đặt mình vào vị trí của một kẻ xấu muốn bắt chước giọng nói của ai đó. Điều này yêu cầu ba bước. Trước hết, kẻ xấu này lấy được các mẫu giọng nói từ nạn nhân, bằng cách bí mật ghi âm chúng hoặc bằng cách tải xuống các phương tiện có sẵn. Sau đó, họ sử dụng hệ thống tổng hợp giọng nói để tạo ra giọng nói giả bắt chước giọng nói của nạn nhân. Bước thứ ba là sử dụng bài phát biểu giả mạo này để mạo danh nạn nhân, chẳng hạn như cố gắng truy cập thông tin cá nhân hoặc tài chính hoặc thực hiện một số hoạt động gian lận.

Các nhà nghiên cứu đã sử dụng bản ghi âm giọng nói của 90 người từ các bộ dữ liệu công khai VCTK, LibriSpeech và SpeechAccent. Tổng thời lượng của bản ghi âm một giọng nói không quá 5 phút. Các thuật toán SV2TTS và AutoVC công khai đã được sử dụng để tạo ra các bài phát biểu giả. Các nhà nghiên cứu đã thử nghiệm những bài phát biểu này để đánh lừa hệ thống nhận dạng Resemblyzer và Microsoft Azure hiện đại. Và đây là kết quả của thử nghiệm: "Sử dụng một loạt các thử nghiệm mở rộng trên 90 người nói khác nhau, chúng tôi thấy rằng các công cụ tổng hợp giọng nói dựa trên mạng lưới thần kinh có hiệu quả cao trong việc đánh lừa các hệ thống nhận dạng người nói hiện đại (50-100% thành công)."

Các nhà nghiên cứu cũng cố gắng đánh lừa hệ thống WeChat và Amazon Alexa. Các hệ thống này được liên kết với các tài khoản cá nhân. Có 14 tình nguyện viên đã được mời tham gia thử nghiệm. Họ đã cố gắng đăng nhập vào tài khoản của mình bằng cách sử dụng các mẫu giọng nói tổng hợp. Alexa đã hoàn toàn bị đánh lừa và 9 trong số 14 người tham gia thử nghiệm đã đăng nhập được vào WeChat.

Ngoài ra, 200 tình nguyện viên đã tham gia một cuộc khảo sát nhằm đánh giá khả năng phân biệt phát âm thật và phát âm giả của mọi người. Hóa ra độ chính xác của con người ở mức 50%. Kết luận chung của nghiên cứu là: "Kết quả của chúng tôi chứng minh rằng giọng nói tổng hợp được tạo ra bằng các hệ thống công cộng đã có thể đánh lừa cả con người và các hệ thống phần mềm phổ biến hiện tại, và các biện pháp phòng thủ hiện tại là không đủ."

Góc cảnh giác: Mạng lưới thần kinh có thể tạo ra giọng nói và khuôn mặt giả như thật - Ảnh 3.

Nhận dạng khuôn mặt cũng là một xu hướng thời thượng trong việc phân quyền của người dùng điện thoại thông minh nhưng cũng có thể bị làm giả

Nhận dạng khuôn mặt

Càng ngày, chúng ta càng phải đối mặt với các hệ thống xác thực sinh trắc học dựa trên các đặc điểm trên khuôn mặt. Chúng được sử dụng trong các lĩnh vực như kiểm soát biên giới, dịch vụ hành khách và đăng ký, vào cửa văn phòng, làm việc với các giấy tờ tùy thân và thẻ điện tử. Nhận dạng khuôn mặt cũng là một xu hướng thời thượng trong việc phân quyền của người dùng điện thoại thông minh. Ngoài ra, hệ thống nhận dạng khuôn mặt rất phổ biến với các dịch vụ công và tư khác nhau về giám sát an toàn công cộng. Điều này tạo điều kiện thuận lợi bởi việc sử dụng ngày càng nhiều máy quay video ở những nơi đông đúc như đường phố và quảng trường, sân bay, đường sắt và bến xe buýt.

Nhưng làm thế nào để các hệ thống đó xác định con người một cách đáng tin cậy? Các nhà nghiên cứu từ Đại học Tel Aviv bắt đầu quan tâm đến vấn đề này.

Các nhà nghiên cứu Israel đã báo cáo về công việc của họ vào tháng 8 năm 2021. Họ đã phát triển mạng lưới thần kinh StyleGAN có khả năng tạo khóa chính cho các hệ thống nhận dạng. Họ đã sử dụng kho lưu trữ công cộng được gắn nhãn Khuôn mặt trong tự nhiên (LFW) của Đại học Massachusetts, nơi chứa hơn 13.000 hình ảnh khuôn mặt, làm cơ sở dữ liệu. StyleGAN được giao nhiệm vụ sử dụng một khuôn mặt từ LFW để tạo ra một số lượng nhỏ, ít hơn một chục "khuôn mặt tổng quát" có thể được sử dụng làm khóa chính cho hệ thống nhận dạng khuôn mặt. Ba phương pháp đã được phát triển cho việc này.

Công việc của mạng lưới thần kinh đã được thử nghiệm trên ba hệ thống nhận dạng khuôn mặt công khai: Dlib, FaceNet và SphereFace. Đối với mỗi hệ thống này, hệ thống tạo ra chín "khuôn mặt tổng quát". Sau đó, nó được kiểm tra xem có bao nhiêu khuôn mặt từ cơ sở dữ liệu LFW mà hệ thống sẽ xác định là giống hệt với một trong những "khuôn mặt tổng quát" này. Và đây là kết quả thử nghiệm cho phương pháp hóa ra là tốt nhất: Dlib - 63,92%, FaceNet - 43,82%, SphereFace - 44,15%. Những con số này có nghĩa là chỉ cần 9 lần chọn khuôn mặt là đủ để đánh lừa hệ thống nhận dạng khuôn mặt khoảng một nửa thời gian (44-64%). Các nhà nghiên cứu kết luận: "Kết quả của chúng tôi cho thấy rằng định danh dựa trên khuôn mặt là cực kỳ dễ bị đánh lừa.

Rõ ràng, phát triển công nghệ là một yếu tố cần để nâng cao đời sống con người. Tuy nhiên, điều quan trọng là chúng ta hãy là những người tỉnh táo, để có thể tận dụng nó một cách có hiệu quả nhất cho cuộc sống. Hãy đừng để công nghệ biến con người thành nạn nhân của sự phát triển.

Theo nauka&technika