Trong thập kỷ qua, các thuật toán thị giác máy tính đã đạt được nhiều bước tiến lớn. Chúng ngày càng ưu việt hơn con người trong các tác vụ như phân loại các giống chó hay mèo, và chúng cũng có được những khả năng đáng kinh ngạc như xác định những khuôn mặt cụ thể trong một đám đông lên đến hàng triệu người.
Thế nhưng, trong một báo cáo trình bày vào tuần trước tại cuộc họp thường niên của Cognitive Science Society, nhóm nghiên cứu đã tìm hiểu nguyên nhân vì sao các thuật toán thị giác máy tính siêu việt kia là thất bại thảm hại trong các tác vụ so sánh và đề xuất những giải pháp để xây dựng các hệ thống thông minh hơn trong tương lai.
Cái này so với cái kia
Trong nghiên cứu của mình, Thomas Serre - phó giáo sư về khoa học nhận thức, ngôn ngữ và tâm lý tại Đại học Brown - cùng các đồng nghiệp đã sử dụng các thuật toán thị giác máy tính thuộc dạng tiên tiến bậc nhất hiện nay để phân tích các hình ảnh trắng đen đơn giản chứa hơn hai hình dạng được tạo ra một cách ngẫu nhiên.
Trong một số trường hợp, các vật thể là hoàn toàn giống nhau; đôi lúc chúng là một nhưng một vật thể được xoay theo hướng khác với vật thể kia; đôi lúc các vật thể này hoàn toàn khác nhau. Máy tính được yêu cầu xác định mối liên hệ tương tự hay khác biệt giữa các vật thể đó.
Thế nhưng, ngay cả sau hàng trăm trong số hàng ngàn ví dụ được đưa ra để huấn luyện, các thuật toán vẫn không tiến bộ hơn là bao trong việc nhận diện các mối liên hệ phù hợp. Lúc này, câu hỏi đặt ra là tại sao những hệ thống siêu việt lại quá tệ trong một tác vụ tưởng chừng đơn giản như vậy?
Serra và các đồng nghiệp có một nghi vấn rằng hẳn vấn đề này phải liên quan đến việc các thuật toán thị giác máy tính không có khả năng phân biệt các vật thể. Khi máy tính nhìn vào một hình ảnh, chúng không thể thực sự biết được nơi một vật thể trong hình ngừng lại, và hình nền, hay một vật thể khác, bắt đầu.
Chúng chỉ thấy một tập hợp các điểm ảnh có họa tiết tương tự với các tập hợp điểm ảnh mà chúng từng được học để liên hệ với các nhãn nhất định.
Tất nhiên, việc học này giải quyết được các tác vụ xác định và phân loại, chứ không giải quyết được việc so sánh hai vật thể.
Lần lượt từng cái một
Để chứng minh nghi vấn của họ là đúng, Serre và nhóm của ông đã tiến hành các thử nghiệm, trong đó không buộc máy tính phải tự mình phân biệt các vật thể nữa. Thay vì cho máy tính xem hai vật thể trong cùng một bức ảnh, các nhà nghiên cứu cho máy tính thấy hai vật thể lần lượt trong các bức ảnh riêng biệt.
Các thử nghiệm cho thấy các thuật toán không gặp vấn đề gì trong việc học về mối liên hệ giống-hay-khác, miễn là chúng không phải xem hai vật thể trong cùng một bức ảnh.
Nguồn gốc vấn đề phân biệt vật thể này, theo Serre, là do kiến trúc của hệ thống học máy mà thuật toán tận dụng. Các thuật toán sử dụng mạng lưới nơ-ron xoắn óc - các lớp đơn vị xử lý kết nối với nhau, nhại lại mạng lưới nơ-ron thần kinh trong não.
Một điểm khác biệt quan trọng so với não là các mạng lưới nhân tạo là mạng một chiều, tiếp thuận - có nghĩa là thông tin chỉ có một hướng đi qua các lớp của mạng lưới. Hệ thống thị giác của con người không hoạt động như vậy.
"Nếu bạn nhìn vào mô hình giải phẫu học của hệ thống thị giác con người, bạn sẽ thấy có rất nhiều kết nối lặp lại, nơi thông tin đi từ một khu vực thị giác cao hơn đế một khu vực thị giác thấp hơn và ngược lại" - Serre nói.
Dù không rõ những phản hồi đó sẽ thực hiện chính xác điều gì, Serra nói tiếp, nhưng có khả năng chúng có liên quan đến khả năng của chúng ta trong việc chú ý đến những phần nhất định của trường thị giác của chúng ta và tạo ra một đại diện của các vật thể đó bên trong tâm trí của chúng ta.
"Giả dụ một người nào đó chú ý đến một vật thể, tạo ra một đại diện gắn kết với vật thể đó trong bộ nhớ của họ" - Serra nói - "Sau đó họ chuyển sự chú ý sang một vật thể khác. Khi cả hai vật thể đều có đại diện trong bộ nhớ, hệ thống thị giác của bạn sẽ có thể thực hiện các so sánh như giống-hay-khác".
Serra và các đồng nghiệp giải thuyết rằng lý do máy tính không thể làm như vậy là bởi mạng lưới nơ-ron tiếp thuận không cho phép loại hình xử lý lặp lại vốn đòi hỏi phải có để phân biệt và tạo ra đại diện của các vật thể.
Serre kết luận rằng chúng ta có thể làm thị giác máy tính thông minh hơn nếu thiết kế các mạng lưới nơ-ron gần tương ứng với bản chất lặp lại của quá trình xử lý thị giác của não người hơn.
Tham khảo: Futurity