Lời giải đáp cho những "ký tự ma" vô cùng khó hiểu trong bảng mã Unicode

Dink |

"Khi một lời nói dối được lặp lại đủ nhiều, nó sẽ biến thành sự thật".

Năm 1978, Bộ Kinh tế, Giao thương và Công nghiệp Nhật Bản thành lập nên bộ mã JIS X 0208, cho đến nay bộ mã này vẫn là một phần rất quan trọng để phát triển các bộ gõ chữ máy tính Nhật Bản.

Tuy nhiên, sau khi bộ gõ chữ chuẩn JIS được ban hành, người ta phát hiện ra điều bất thường: có một vài kí tự không rõ nguồn gốc xuất hiện, không ai biết nó có nghĩa gì hay phát âm như thế nào.

Người ta đã gọi nó là kí tự ma, có hẳn tên tiếng Nhật như thế này: 幽霊文字.

Lời giải đáp cho những ký tự ma vô cùng khó hiểu trong bảng mã Unicode - Ảnh 1.

Nhiều năm trôi qua, số kí tự ma này vẫn nằm trong bóng đen của sự bí ẩn, rồi dần dần người ta quên đi mất. Thế nhưng vào năm 1997, Nhật Bản tổ chức điều tra xem những kí tự ma tới từ đâu.

Toàn bộ những kí tự trong bảng mã JIS đều có nguồn gốc xuất xứ, đều được ghi rõ nguồn gốc. Ngay cả khi không rõ, thì mọi kí tự đều có ghi chú về văn bản chứa kí tự trên. Những kí tự ma không phải là ngoại lệ.

Thoạt nghe, ta sẽ nghĩ là mọi việc đơn giản, khi mà đã có những bản cổ tự ghi chép đầy đủ các kí tự kia rồi. Rõ là không đơn giản thế: "nguồn" của kí tự ma nằm tại cuốn "Tổng quan về Các quận Hành chính Quốc gia - 国土行政区画総覧,nó là danh sách một loạt những địa danh Nhật Bản.

Thoạt lướt, ta sẽ nghĩ nó là một cuốn atlas đầy đủ nội dung, dày vài trăm trang. Hiển nhiên là khó khăn hơn thế: phiên bản gần đây nhất của loạt sách này gồm 7 quyển, mỗi quyển dày 900 trang. Những nhà nghiên cứu, nhà điều tra phải lục tìm từng đó trang giấy mà không biết rõ phải tìm ở trang nào, quyển nào.

Lời giải đáp cho những ký tự ma vô cùng khó hiểu trong bảng mã Unicode - Ảnh 2.

Khó khăn như vậy nhưng người Nhật đã làm được (ít ra đã làm được gần hết). Qua việc phỏng vấn những người biên soạn sách, những nhà điều tra đã phát hiện ra rằng có một số kí tự đã … được sáng tác ra do lỗi trong khâu liệt kê.

Ví dụ như kí tự 妛 là lỗi của khâu biên soạn, khi mà các biên tập viên ghi đè chữ "山" lên trên chữ "女". Chỉ còn một kí tự duy nhất không rõ nguồn gốc, đó là "彁".

Khi mà chuẩn mực JIS trở nên thịnh hành, toàn bộ những kí tự ma này nghiễm nhiên bước vào bảng mã Unicode - quy chuẩn của ngành máy tính để trình diễn, điều chỉnh kí tự trong toàn bộ các hệ thống chữ viết trên thế giới.

Câu chuyện tóm gọn lại như thế này: vào cuối những năm 1970, một loạt lỗi trong khâu biên tập đã khiến bảng chữ cái bỗng dưng xuất hiện vài kí tự lạ.

Người ta không biết tới điều đó, và "khi một lời nói dối được lặp lại đủ nhiều, nó sẽ biến thành sự thật", những kí tự này cũng vậy. Các kí tự ma đã trở thành một phần của MỌI CHIẾC MÁY TÍNH trên hành tinh này, mọi bảng chữ cái đều có mặt chúng, dù chẳng có nghĩa gì cả.

Và với cái đà này, chúng sẽ trường tồn cùng nhân loại.

Tham khảo Dampkraft, Motherboard

Đường dây nóng: 0943 113 999

Soha
Báo lỗi cho Soha

*Vui lòng nhập đủ thông tin email hoặc số điện thoại