Ngày 30/11/2022, chatbot AI mang tên ChatGPT chính thức ra mắt và lập tức làm rung chuyển toàn bộ ngành công nghệ. Người dùng Internet đã từ lâu biết tới và tương tác với ứng dụng chatbot, nhưng phải tới ChatGPT đại đa số người dùng mới tiếp xúc với một hệ thống xử lý ngôn ngữ tự nhiên trôi chảy tới vậy.
Người dùng hào hứng với công cụ mới, đặt ra hàng vạn câu hỏi hóc búa và ChatGPT nhanh chóng đưa ra câu trả lời. Những tưởng ChatGPT “trên thông thiên văn, dưới tường địa lý”, nhưng hóa ra chúng ta ngộ nhận.
ChatGPT, hay cũng như bao chatbot khác, gặp phải một lỗi lầm tai hại được gọi là “hallucination”, tạm dịch là “ảo giác”. Khi không hay biết về sự vật sự việc được hỏi, AI có xu hướng bịa đặt ra kết quả.
Hệ thống vô tri cũng có thể “ảo giác”
Ảo giác, hay còn gọi là bịa chuyện (thuật ngữ chuyên môn: “confabulation”), xảy ra khi một mô hình AI sinh ra kết quả sai lệch hoặc gây hiểu nhầm. Nhẹ thì một hệ thống lái xe tự động nhầm bóng đổ với người đi đường rồi phanh gấp, mà nặng thì một hệ thống AI chẩn đoán sẽ đưa ra kết quả sai lệch cho bệnh nhân. Trên đây mới chỉ là một vài ví dụ đơn giản về những hậu quả tiềm tàng của một hệ thống AI bịa chuyện.
Hãy lấy ví dụ với ChatGPT, một ứng dụng trí tuệ nhân tạo sử dụng mô hình ngôn ngữ lớn (LLM) để sinh chữ.
Theo nhận định của giáo sư Ahmed Banafa, chuyên gia về AI và Internet Vạn vật, thì ChatGPT “có thể sản sinh ra những kết quả bất ngờ và không thể dự đoán”. Ông cho rằng lý do nằm ở việc “những mối liên kết ngôn ngữ nó được học dựa trên những dữ liệu chứa thành kiến hoặc thông tin chưa hoàn thiện”. Nói cách khác, dữ liệu đầu vào chưa chuẩn, thì kết quả cuối cùng không thể đúng.
Các chuyên gia tại OpenAI tiếp tục cải thiện dữ liệu đầu vào để ChatGPT ngày một hoàn thiện. Phiên bản mới nhất của ChatGPT đã sử dụng mô hình ngôn ngữ lớn GPT-4, đã được cải thiện rất nhiều về cả hiệu suất cũng như tính chính xác so với GPT-3.5 ra mắt hồi tháng 11/2022, tuy vậy tình trạng ảo giác vẫn tồn tại.
Không chỉ riêng ChatGPT gặp tình trạng này, các mô hình ngôn ngữ lớn của các tập đoàn công nghệ hàng đầu đều đối mặt với hiện tượng AI ảo giác. Có thể kể tới chatbot Bard của Google: Bard sinh chữ rất nhanh với giọng văn rất thuyết phục, đồng thời cũng rất tự tin vào câu trả lời bịa đặt của mình.
Nguyên nhân, và những phương pháp khắc phục hiện có
Nhận định chung cho thấy thiếu sót trong dữ liệu đầu vào là nguyên nhân lớn khiến AI sinh ảo giác. Đôi khi, các hệ thống AI cũng chủ động đưa ra những ước đoán vô lý dựa trên các dữ liệu đã học và truy vấn của người dùng, từ đó dẫn tới hiện tượng ảo giác AI.
Nhưng lỗi lầm không hoàn toàn thuộc về cỗ máy vô tri. Những truy vấn do người dùng nhập vào có thể là một trong nhiều nguyên nhân dẫn tới hiện tượng AI bịa chuyện; hoặc những truy vấn này nằm ngoài bộ cơ sở dữ liệu, khiến AI phải … tự bịa để cho ra kết quả hợp lý, hoặc người dùng cố tình sử dụng những prompt (tạm dịch là “đề bài”) lắt léo, hòng qua mặt hệ thống kiểm duyệt để AI sản sinh kết quả sai lệch.
Tiến sĩ Đặng Trần Thái, Trưởng phòng Xử lý ngôn ngữ tự nhiên thuộc công ty VinBigdata, nhận định: “Các nhà phát triển hiện nay chỉ có thể cố gắng để giảm thiểu tính ảo giác của các mô hình ngôn ngữ lớn chứ không thể triệt tiêu hoàn toàn được do bản chất cố hữu của mô hình xác suất thống kê”.
Theo Tiến sĩ, hai yếu tố có thể giúp mô hình ngôn ngữ lớn bớt bịa đặt gồm: Khả năng ghi nhớ và phân biệt tri thức, và Khả năng hiểu rõ câu hỏi, chỉ dẫn của người dùng.
Đoạn dưới được trích nguyên văn từ bài giải thích của Tiến sĩ Đặng Trần Thái, được đăng tải trên trang cá nhân của anh.
Thông thường khi huấn luyện mô hình ngôn ngữ, bản chất là chúng ta đang dạy cho mô hình "nhớ" tên thực thể (ví dụ như tên người, địa điểm, sự kiện, v.v.) và mối quan hệ giữa các thực thể được đề cập thông qua các câu chữ trong các văn bản đưa vào huấn luyện mô hình. Các thực thể cũng như mối quan hệ giữa chúng được gọi là tri thức.
Ví dụ khi ta đưa câu: "Kim Lân là tác giả của tác phẩm Vợ nhặt" vào huấn luyện mô hình ngôn ngữ thì mô hình được dạy là: "Kim Lân" và "tác phẩm Vợ nhặt" có mối quan hệ với nhau vì hai thực thể này cùng xuất hiện trong 1 câu. Mối quan hệ giữa 2 thực thể này là "A là tác giả của B". Mức độ mạnh yếu của mối quan hệ này phụ thuộc vào tần suất xuất hiện của nó trong dữ liệu huấn luyện. Đó là cách mô hình học tri thức từ các văn bản huấn luyện.
Bên cạnh năng lực ghi nhớ thì mô hình ngôn ngữ còn cần có khả năng phân biệt thông tin và tri thức trong dữ liệu. Ví dụ trong dữ liệu có thông tin "Tác phẩm Số đỏ của Vũ Trọng Phụng" thì mô hình cũng cần phân biệt thông tin về tác phẩm và tác giả để không nhớ nhầm tác giả của "Vợ nhặt" là "Vũ Trọng Phụng".
Mô hình ngôn ngữ cũng cần phân biệt được các thông tin hàm chứa trong câu hỏi và chỉ dẫn của người dùng. Ví dụ, khi người dùng hỏi "tác giả của vợ nhặt là ai?" thì thông tin chính giúp hệ thống đưa ra câu trả lời chính xác nằm ở các cụm từ "tác giả" và "tác phẩm vợ nhặt". Mô hình cần hiểu và phân biệt tác phẩm "vợ nhặt" với các tác phẩm khác và dựa trên khả năng ghi nhớ tri thức để không đưa ra những câu trả lời "ngớ ngẩn" kiểu như "Tác giả của Vợ nhặt là Vũ Trọng Phụng".
Lợi ích bất ngờ của ảo giác AI
Bịa đặt là hành vi không mấy khi được lòng người, chỉ trừ trường hợp hành động “bịa” xuất sắc tới mức trở thành “sáng tạo”. Những tuyệt tác văn học, những khúc hát trường tồn với thời gian đều là sản phẩm của trí tưởng tượng.
Điều này cũng đúng với trí tuệ nhân tạo: Đôi khi AI sinh ra ảo giác lại đem về kết quả tích cực. Theo các nhà nghiên cứu tại IBM, trong một số trường hợp, hiện tượng ảo giác AI có thể thúc đẩy tiềm năng sáng tạo trong nhiều lĩnh vực, bao gồm:
Thiết kế và sáng tạo nghệ thuật
Hiện tượng ảo giác AI có thể trở thành công cụ cho các chuyên gia đồ họa, các nghệ sĩ, giúp họ sản sinh ra những hình ảnh ngoài sức tưởng tượng của con người. Thông qua các công cụ AI, nghệ sĩ có thể tạo ra những gu thẩm mỹ hay những phong cách nghệ thuật độc đáo.
Thông qua hiện tượng ảo giác, những hệ thống AI sinh chữ có thể mường tượng ra những nội dung mang tính sáng tạo. Thực tế, một tác phẩm khoa học viễn tưởng do AI sáng tác vừa đoạt giải thưởng văn học tại Trung Quốc.
Trực quan hóa dữ liệu
AI có thể thống nhất dữ liệu bằng cách tìm ra những mối liên kết mới, mang tới một cách nhìn mới vào bộ dữ liệu lớn. Hiệu quả của nó có thể được thể hiện trong ngành tài chính, khi chỉ ra được xu hướng thị trường, từ đó giúp người dùng đưa ra quyết định cũng như cân bằng rủi ro.
Ngành công nghiệp game và ứng dụng trong thực tế ảo (VR)
Ảo giác AI có thể tăng cường trải nghiệm nhập tâm cho người chơi trò chơi điện tử. Thông qua việc sản sinh các môi trường ảo, một nhà phát triển có thể tạo ra những thế giới ảo sống động, siêu thực, đưa trải nghiệm của game thủ lên một tầm cao mới.
Lời kết
Con người đang đứng trước ngưỡng cửa mông lung của thật và ảo, và cần sáng suốt hơn bao giờ hết để có thể giữ được những giá trị cốt lõi, hợp với luân thường đạo lý. Bên cạnh việc nhà phát triển bổ sung dữ liệu huấn luyện AI và kiểm duyệt nội dung được sản sinh, người dùng cũng cần có trách nhiệm trong việc nhập truy vấn đầu vào, cũng như đối chiếu kết quả với những nguồn uy tín.
Dù danh sách lợi ích của AI đang ngày một dài - đến cả hiện tượng ảo giác AI cũng đem lại vô số lợi điểm bất ngờ - chúng ta không thể bỏ qua nguy cơ, nhất là khi công cụ AI được trao vào tay bất cứ ai biết sử dụng máy tính.
Xu hướng phát triển trí tuệ nhân tạo, đặc biệt là chatbot vẫn chưa có dấu hiệu hạ nhiệt. Tối ngày hôm nay, VinBigdata sẽ công bố công cụ chatbot của người Việt sản xuất, cho người Việt sử dụng mang tên ViGPT. Chatbot mới được huấn luyện trên cơ sở dữ liệu tiếng Việt sẽ là một công cụ đắc lực nữa cho người dùng, và cũng đồng thời mang tới thử thách lớn, cho cả cộng đồng và VinBigdata.
Dự kiến ViGPT cũng sẽ mang trong mình những điểm mạnh, điểm yếu tương tự như những chatbot khác của những tập đoàn công nghệ hàng đầu thế giới. Và cũng như đại bộ phận các sản phẩm của ngành công nghệ: mọi thứ sẽ dần được cập nhật theo thời gian, và chất lượng sản phẩm sẽ dần được cải thiện.
Ngay bây giờ, bạn đã có thể đăng ký sử dụng thử ViGPT tại đường link https://landing.vigpt.vinbigdata.com/.