Có gần 400.000 người đăng ký tài khoản YouTube có tên Rob the Robot - Learning Videos For Children. Trong một video hoạt hình năm 2020, nhân vật chính và những người bạn của anh ta đến thăm một hành tinh có chủ đề sân vận động và thực hiện những chiến công lấy cảm hứng từ người hùng Heracles. Cuộc phiêu lưu của họ phù hợp với lứa tuổi tiểu học, nhưng những độc giả nhỏ tuổi bật phụ đề tự động của YouTube có thể sẽ bất ngờ được mở rộng vốn từ vựng của họ. Tại một thời điểm, các thuật toán của YouTube nghe nhầm từ “dũng cảm” (brave) thành "cưỡng hiếp" (rape) và đã chú thích cảnh một nhân vật khao khát trở thành người “mạnh mẽ và bị cưỡng hiếp như Heracles”.
Ảnh chụp màn hình từ video trên kênh YouTube Rob the Robot - Learning Videos For Children
Một nghiên cứu mới đây về phụ đề theo thuật toán của YouTube trên các video hướng đến trẻ em đã ghi lại cách văn bản đôi khi chuyển sang ngôn ngữ "rất người lớn". Trong một mẫu gồm hơn 7.000 video từ 24 kênh dành cho trẻ em được xếp hạng hàng đầu, 40% trong số này từng hiển thị 1.300 từ "cấm kỵ" có nội dung về chửi bới trong phụ đề của chúng. Trong khoảng 1% video, phụ đề bao gồm các từ trong danh sách các thuật ngữ “rất không phù hợp”.
Một số video được đăng trên Ryan's World, một kênh dành cho trẻ em hàng đầu với hơn 30 triệu người đăng ký, là minh họa rõ ràng nhất cho vấn đề này. Trong một video, cụm từ “Bạn cũng nên mua ngô” được đưa ra trong chú thích là “Bạn cũng nên mua phim khiêu dâm”. Vì AI của hệ thống đã nhầm "corn" thành "p*rn". Trong các video khác, “khăn tắm biển” (beach towel) được phiên âm là “khăn lông chó” (b*tch towel), "khác thường" (buster) trở thành “khốn nạn” (bastard), “cua” (crab) trở thành “đồ tào lao” (crap) và trên một video thủ công dạy cách làm nhà búp bê theo chủ đề quái vật lại có từ “giường cho dương vật” (bed for p*nis).
Ảnh chụp màn hình từ video trên kênh Ryan's World.
“Thật là đáng ngạc nhiên và đáng lo ngại", Ashique KhudaBukhsh, một trợ lý giáo sư tại Học viện Công nghệ Rochester, người đã nghiên cứu vấn đề này, cho biết.
Phụ đề tự động không khả dụng trên YouTube Kids, phiên bản hướng đến trẻ em của nền tảng. Nhưng, nhiều gia đình thường sử dụng phiên bản tiêu chuẩn của YouTube, nơi họ cũng có thể xem được. Trung tâm Nghiên cứu Pew đã báo cáo vào năm 2020 rằng 80% phụ huynh có con từ 11 tuổi trở xuống cho biết con họ đã xem nội dung YouTube, và hơn 50% trẻ em đã làm như vậy hàng ngày.
KhudaBukhsh hy vọng nghiên cứu sẽ thu hút sự chú ý đến một hiện tượng mà ông nói rằng đã nhận được ít sự chú ý từ các công ty công nghệ và các nhà nghiên cứu. Ông gọi nó là "ảo giác nội dung không phù hợp". Đó là khi các thuật toán thêm nội dung không phù hợp vốn không có trong nội dung gốc. Đây giống như cách tính năng tự động hoàn thành trên điện thoại thông minh thường lọc ngôn ngữ người lớn đến mức khó chịu, nhưng theo hướng ngược lại.
Trong khi đó, người phát ngôn của YouTube, Jessica Gibby, cho biết trẻ em dưới 13 tuổi nên sử dụng YouTube Kids, nơi không thể xem phụ đề tự động. Trên phiên bản chuẩn của YouTube, cô cũng nói rằng tính năng này giúp cải thiện khả năng tiếp cận. Cô nói: “Chúng tôi liên tục làm việc để cải thiện phụ đề tự động và giảm lỗi".
Alafair Hall, phát ngôn viên của Pocket.watch, một studio giải trí dành cho trẻ em đã xuất bản nội dung của Ryan's World, cho biết trong một tuyên bố rằng công ty "đang liên hệ chặt chẽ và ngay lập tức với các đối tác nền tảng của chúng tôi, chẳng hạn như YouTube, để cập nhật bất kỳ phụ đề video nào không chính xác."
“Những lợi ích của việc chuyển lời nói thành văn bản là không thể phủ nhận, nhưng có những điểm mù trong các hệ thống này cần kiểm tra và cân bằng lại”, KhudaBukhsh nói.
Những điểm mù đó có thể không gây ngạc nhiên cho con người, một phần nhờ việc chúng ta dễ hiểu được ngữ cảnh rộng hơn và ý nghĩa từ lời nói của một người. Còn các thuật toán thì khác. Chúng dù đã được cải thiện khả năng xử lý ngôn ngữ nhưng vẫn thiếu đi khả năng hiểu vấn đề một cách đầy đủ và toàn diện. Điều này đã gây ra vấn đề cho các công ty dựa vào máy móc để xử lý văn bản. Một công ty khởi nghiệp đã phải sửa chữa lại trò chơi phiêu lưu do mình phát hành, sau khi nó được phát hiện là đôi khi mô tả các kịch bản tình dục liên quan đến trẻ vị thành niên.
Các thuật toán học máy sẽ “học” một nhiệm vụ bằng cách xử lý một lượng lớn dữ liệu đào tạo - trong trường hợp này là các tệp âm thanh và nội dung dịch thuật phù hợp. Ông KhudaBukhsh nói rằng hệ thống của YouTube đôi khi chèn những lời tục tĩu vì dữ liệu đào tạo của nó chủ yếu bao gồm lời nói của người lớn và có ít từ của trẻ em. Khi các nhà nghiên cứu kiểm tra thủ công các ví dụ về những từ không phù hợp trong phụ đề, họ thấy chúng thường xuất hiện cùng với lời nói của trẻ em hoặc những người có vẻ không phải là người nói tiếng Anh bản ngữ. Các nghiên cứu trước đây cũng đã phát hiện ra rằng các dịch vụ phiên âm từ Google và các công ty công nghệ lớn khác mắc nhiều lỗi hơn trong trường hợp người nói không phải là người da trắng, cũng như ít lỗi hơn đối với tiếng Anh Mỹ chuẩn, so với các phương ngữ khác cũng ở Mỹ.
Trẻ học rất nhanh mọi thứ chúng thấy trên YouTube.
Rachael Tatman, một nhà ngôn ngữ học, cho biết chỉ cần một danh sách các từ đơn giản không được sử dụng trên video cho trẻ em trên YouTube sẽ giải quyết nhiều vấn đề. Nhưng, “rõ ràng không có ai giám sát kỹ thuật”, cô nói.
Dẫu vậy, Tatman nói rằng một danh sách chặn cũng sẽ là một giải pháp không hoàn hảo. Các cụm từ không phù hợp có thể được xây dựng bằng các từ vô thưởng vô phạt riêng lẻ. Một cách tiếp cận phức tạp hơn là điều chỉnh hệ thống phụ đề để tránh sử dụng ngôn ngữ người lớn khi làm nội dung dành cho trẻ em, nhưng Tatman nói rằng nó cũng sẽ không hoàn hảo. Phần mềm học máy hoạt động với ngôn ngữ được thống kê theo các hướng nhất định, nhưng nó không dễ dàng được lập trình để tôn trọng ngữ cảnh. Theo Tatman, “các mô hình ngôn ngữ không phải là công cụ chính xác."
KhudaBbukhsh và các cộng tác viên của ông đã phát minh và thử nghiệm các hệ thống để sửa các từ cấm kỵ trong bản ghi, nhưng ngay cả những hệ thống tốt nhất vẫn chỉ mang lại hiệu quả chưa tới 30%. Nhóm cũng chạy âm thanh từ các video YouTube của trẻ em thông qua một dịch vụ phiên âm tự động do Amazon cung cấp. Nó cũng đôi khi mắc phải những sai lầm khiến nội dung bị chỉnh sửa. Người phát ngôn của Amazon, Nina Lindsey từ chối bình luận vấn đề, nhưng đã cung cấp các liên kết đến tài liệu hướng dẫn các nhà phát triển về cách sửa hoặc lọc các từ không mong muốn.
Tham khảo Wired