You’re viewing a text-only version of this website that uses less data. View the main version of the website including all images and videos.
Âm mưu, thư tình và các bài thuốc: Những bí mật thời trung cổ được AI hé lộ
Các thông điệp và tài liệu lịch sử bị che giấu bởi những mật mã khó hiểu có thể được tìm thấy trong các thư viện và kho lưu trữ trên khắp thế giới. AI đang giúp các nhà sử học giải mã những văn bản bí ẩn này.
Sâu trong kho lưu trữ của Thư viện Vatican, một cuốn sách viết tay bí ẩn, chi chít những ký hiệu lạ, đã nằm im không ai đọc được suốt hơn 400 năm.
Theo một số dòng chữ nguệch ngoạc ở mặt trong bìa sách, những trang viết đầy mật mã này dường như chứa đựng các phương thuốc bí truyền "chữa các chứng bệnh của cơ thể con người".
Vào thời đó, những phương pháp chữa bệnh như vậy thường được giữ kín vì có thể khiến người sở hữu bị nghi ngờ hoặc thậm chí bị buộc tội là phù thủy.
Được biết đến với tên gọi mật mã Borg (Borg cipher), bản thảo dài 408 trang này phần lớn không thể đọc hiểu được.
Nó được mã hóa bằng 34 ký hiệu bí ẩn cùng một số chữ cái La Mã, trong khi trang đầu được viết bằng tiếng Ả Rập.
Không có bất kỳ khóa giải mã nào được biết đến để hé lộ nội dung bị mã hóa.
Một số trang còn bị hư hại theo thời gian, khiến việc giải mã càng trở nên khó khăn hơn.
Tuy nhiên, với sự hỗ trợ của học máy (machine learning) – một dạng của trí tuệ nhân tạo (AI) – các nhà nghiên cứu đã giải được mật mã này.
Họ phát hiện văn bản chứa hàng ngàn phương thuốc kỳ lạ, chẳng hạn như uống nhiều ly rượu vang đỏ hảo hạng hoặc ủ hạt nhục đậu khấu trong bột nhào để chữa bệnh lỵ.
"Đó giống như công việc của một thám tử, nơi mỗi ký hiệu, mỗi mẫu hình và mỗi lời giải từng phần đều có thể đưa chúng ta tiến gần hơn tới những bí mật của một con người và tới một thế giới lịch sử đã bị lãng quên," bà Beáta Megyesi, giáo sư ngôn ngữ học máy tính tại Stockholm University và là thành viên của nhóm giải mã văn bản, cho biết.
Ngay cả với sự trợ giúp của AI, quá trình tìm ra khóa giải mã vẫn vô cùng công phu và tốn nhiều công sức.
Hiện nay, bà Beáta Megyesi và các đồng nghiệp đang dẫn đầu những nỗ lực khai thác sức mạnh của AI để giải mã các mật thư lịch sử một cách hiệu quả hơn, qua đó có thể mở khóa một kho tàng thông tin được mã hóa từ quá khứ mà trước đây gần như không thể giải được.
"Điều này mở ra những khả năng đầy hứa hẹn đối với các hệ thống chữ viết hiếm gặp và phi tiêu chuẩn," bà Beáta Megyesi nói.
Những 'mồi nhử', các ngôn ngữ đã tuyệt chủng và nét chữ nguệch ngoạc khó giải mã
Nhìn chung, các tài liệu lịch sử được mã hóa này che giấu thông tin tình báo ngoại giao, nghi lễ của các hội kín, kiến thức y học, chuyện tình ái hoặc những chi tiết đời thường mà người xưa muốn giữ bí mật.
Đây là những mảnh ghép thông tin hiện vẫn còn thiếu trong các tường thuật lịch sử.
Trong một số trường hợp, việc giải mã các tài liệu này thậm chí có thể làm thay đổi những gì chúng ta biết về một nhân vật nổi tiếng hoặc cả một giai đoạn lịch sử.
(Một ví dụ gần đây về việc giải mã này là một bộ sưu tập các bức thư được mã hóa, sau này được xác định là do Nữ hoàng Mary của Scotland viết trong thời gian dài bị giam cầm ở Anh.
Chúng tiết lộ sự tham gia của bà vào các âm mưu giành lại ngai vàng và mối quan hệ căng thẳng của bà với con trai mình, James VI, khi đó là Vua Scotland và sau này trở thành Vua Anh với tước hiệu James I.)
Các mật mã cổ có thể tương đối đơn giản.
Ví dụ, mật mã Borg sử dụng phương pháp thay thế đơn, tức mỗi ký hiệu được thay bằng một chữ cái La Mã để che giấu nội dung văn bản.
Tuy nhiên, nhiều mật mã khác lại khó giải hơn rất nhiều.
Trong một số trường hợp, không ai biết gì về ngôn ngữ gốc của văn bản chưa được mã hóa.
Các ký hiệu thừa, vô nghĩa cũng có thể được chèn vào như một mồi nhử để đánh lạc hướng bất kỳ ai muốn xem trộm văn bản.
Trong các trường hợp khác, nhiều ký hiệu có thể được sử dụng để đại diện cho cùng một chữ cái.
Điều này có nghĩa là cần một lượng công việc khổng lồ – thường phải dựa vào phương pháp thử và sai liên tục – chỉ để giải được một lượng nhỏ văn bản.
Bà Cecile Pierrot, một nhà mật mã học tại Viện Nghiên cứu Khoa học Máy tính Quốc gia Pháp (INRIA) ở Nancy, Pháp, và các đồng nghiệp của bà đã mất sáu tháng để dần dần giải mã được chìa khóa của một bức thư 500 năm tuổi từ Charles V, Hoàng đế La Mã Thần thánh và Vua Tây Ban Nha, được viết bằng 120 ký hiệu mật mã khác nhau trên ba trang.
(Bức thư được giải mã tiết lộ rằng Charles V – một trong những người quyền lực nhất thời bấy giờ – luôn ám ảnh bởi nỗi sợ hãi về một âm mưu ám sát ông. Nhà vua tin rằng một lãnh chúa lính đánh thuê người Ý phục vụ vua Pháp Francis I có thể sắp ám sát ông.)
Trước khi bắt đầu giải mã, các nhà nghiên cứu phải tỉ mỉ chuyển đổi một bản mã viết tay thành tài liệu số để đưa vào phần mềm giải mã.
Chữ viết xấu và mực bị phai có thể khiến công việc này trở nên khó khăn hơn.
Bà Pierrot cho biết thông thường bà mất cả ngày chỉ để chép lại một bức thư hai trang chứa các ký hiệu mà bà chưa từng gặp trước đó.
Nói cách khác, ngay cả trước khi AI hay các công cụ phân tích mật mã được sử dụng, các nhà nghiên cứu vẫn phải dành rất nhiều thời gian cho những công đoạn thủ công như nhận diện ký hiệu, phân loại chúng và chuyển đổi chúng sang định dạng mà máy tính có thể xử lý.
Đây thường là một trong những bước tốn công sức nhất trong quá trình giải mã các tài liệu lịch sử được mã hóa.
AI đang giúp đọc nhanh các bí mật như thế nào?
Nhưng AI đang bắt đầu đẩy nhanh quá trình này.
Bà Michelle Waldispühl, giáo sư ngôn ngữ học tiếng Đức tại Đại học Oslo ở Na Uy và các đồng nghiệp của bà, gần đây đã sử dụng một nền tảng AI trực tuyến có tên Transkribus để phiên âm một bức thư bí mật do quý tộc Sigismund Heusner von Wandersleben viết cho Đại Chưởng ấn Thụy Điển Axel Oxenstierna vào năm 1637.
Bức thư được viết vào thời kỳ cao trào của Chiến tranh Ba mươi năm, cuộc chiến tranh tôn giáo đã cướp đi sinh mạng của hàng triệu người và tàn phá những vùng rộng lớn ở châu Âu.
Công cụ này đã được đào tạo trên nhiều ngôn ngữ, hệ chữ viết và kiểu chữ viết tay trải dài qua nhiều thế kỷ.
Sau khi hình ảnh tài liệu được tải lên hệ thống, AI sẽ nhận diện các khối văn bản và từng dòng chữ riêng biệt, trước khi quét toàn bộ nội dung ký tự theo từng ký tự để chuyển thành văn bản số.
Mặc dù cần một số chỉnh sửa thủ công, công cụ này hoạt động khá tốt trên bức thư của Von Wandersleben vì nó chỉ được mã hóa một phần bằng các số được phân tách bằng dấu chấm, được viết gọn gàng với khoảng cách rõ ràng giữa chúng.
Các phần khác không được mã hóa và chỉ đơn giản được viết bằng chữ tiếng Đức thế kỷ 17.
Tuy nhiên, các nền tảng phiên âm AI hiện nay thường gặp khó khăn khi xử lý những bản thảo được mã hóa bằng các ký tự bất thường, chẳng hạn như các ký hiệu do người viết tự sáng tạo, các biểu tượng chiêm tinh học hoặc những con số được viết theo cách khác thường.
Để khắc phục hạn chế này, bà Beáta Megyesi, bà Michelle Waldispühl và các cộng sự đang phát triển một công cụ AI riêng nhằm chuyển đổi các văn bản lịch sử viết tay chứa những ký hiệu hoặc hệ chữ ít được biết đến thành tài liệu mà máy tính có thể đọc được, trong khuôn khổ dự án Descrypt đa quốc gia.
"Chúng tôi đang phát triển những mô hình linh hoạt hơn, được huấn luyện và kiểm nghiệm trên một phạm vi rất rộng các hệ chữ viết, bảng chữ cái và hệ thống biểu tượng khác nhau," bà Megyesi cho biết.
Sau khi một tài liệu mật được phiên âm thành dạng số, công việc điều tra mới thực sự mới bắt đầu.
Hiện nay, các nhà mật mã học thường sử dụng những phần mềm máy tính chuyên dụng (không phải AI) để hỗ trợ quá trình giải mã.
Các phần mềm này sử dụng thuật toán nhằm xác định loại mật mã được sử dụng và tìm cách giả mã.
Đối với những mật mã đơn giản, việc giải mã thường dựa trên phân tích tần suất xuất hiện của các ký hiệu.
Các nhà nghiên cứu sẽ đối chiếu tần suất này với tần suất xuất hiện của các chữ cái trong một ngôn ngữ nhất định.
Chẳng hạn trong tiếng Anh, chữ E xuất hiện nhiều nhất, trong khi các chữ Z, Q và X xuất hiện ít nhất.
Nhưng trong bức thư của Von Wandersleben từ chiến tuyến của Chiến tranh Ba mươi năm, tình hình phức tạp hơn nhiều.
Ông sử dụng tới tám ký hiệu khác nhau để biểu thị cùng một chữ cái E.
Điều đó khiến các phương pháp thống kê thông thường không còn hiệu quả.
Để giải mã bức thư, các nhà nghiên cứu phải liên tục thử và sai, đồng thời dựa vào kiến thức chuyên sâu của bà Michelle Waldispühl về tiếng Đức cổ để từng bước tháo gỡ các lớp mật mã.
"Đó thực sự là một quá trình qua lại liên tục giữa máy tính và người kiểm chứng," bà Waldispühl cho biết. "Có lẽ đến một thời điểm nào đó, AI sẽ có thể tự thực hiện toàn bộ công việc này."
Nhận xét này phản ánh thực tế hiện nay: AI đã giúp tăng tốc đáng kể việc nhận diện văn bản và hỗ trợ phân tích mật mã, nhưng trong những trường hợp phức tạp, vai trò của các chuyên gia lịch sử, ngôn ngữ học và mật mã học vẫn là yếu tố không thể thay thế.
Ẩn sau mật mã là những lời cảnh báo của Von Wandersleben về mối đe dọa từ các phe phái trong số các đồng minh Tin Lành của Thụy Điển trong cuộc chiến.
Trong bức thư, ông thông báo cho Axel Oxenstierna rằng mình đã buộc phải thực hiện những cuộc rút lui chiến lược khỏi chiến trường sau khi được báo tin về một âm mưu trong nội bộ các đồng minh.
Ông nói với Oxenstierna rằng ông đã buộc phải rút lui chiến lược khỏi cuộc xung đột sau khi được biết về một âm mưu giữa các đồng minh của mình,
Theo nội dung được giải mã, những người bị nghi ngờ tham gia âm mưu này bao gồm cả quý tộc Franz Heinrich xứ Saxony.
Mở lại hồ sơ những mật mã lịch sử chưa có lời giải
Hiện nay, bà Beáta Megyesi và nhóm nghiên cứu của mình đang tìm hiểu liệu AI có thể bỏ qua hoàn toàn công đoạn phiên âm hay không.
Thay vì phải chuyển văn bản viết tay thành dạng số trước, AI sẽ trực tiếp phân tích hình ảnh của các trang tài liệu để giải mã những thông điệp bí mật.
Gần đây, nhóm nghiên cứu đã chứng minh rằng phương pháp này có thể hiệu quả đối với các loại mật mã đơn giản, trong đó mỗi chữ cái được thay thế bằng một ký hiệu duy nhất.
Họ đã thử nghiệm hệ thống trên một bản thảo dài 105 trang mà họ đã giải mã trước đó, được gọi là mật mã Copiale, mô tả chi tiết các nghi lễ, quy tắc và lý tưởng của một hội kín người Đức thế kỷ 18.
Các nhà nghiên cứu huấn luyện AI trước tiên trên những mẫu chữ viết tay thông thường, sau đó cung cấp cho hệ thống hình ảnh các dòng văn bản trong bản mật mã cùng với bản tiếng Đức đã được giải mã tương ứng.
Kết quả cho thấy AI có thể giải mã chính xác những phần văn bản mà trước đó nó chưa từng được nhìn thấy.
Một hệ thống như vậy có thể đặc biệt hữu ích trong những trường hợp mà các nhà nghiên cứu thậm chí không biết văn bản gốc được viết bằng ngôn ngữ nào.
Thay vì phải xác định ngôn ngữ rồi mới tìm cách giải mã, AI có thể nhận diện trực tiếp các mẫu hình trong văn bản và dần suy luận nội dung ẩn bên dưới, mở ra khả năng tiếp cận những tài liệu lịch sử vốn từ lâu được xem là không thể giải mã.
"Điều này mở ra những khả năng đầy hứa hẹn đối với các hệ thống chữ viết hiếm gặp và phi tiêu chuẩn," bà Beáta Megyesi nói.
"Mục tiêu cuối cùng là kết hợp việc phiên âm và giải mã thành một bước duy nhất."
Bà Michelle Waldispühl và các đồng nghiệp trong dự án Descrypt đã lục tìm các kho lưu trữ cổ để thu thập những văn bản được viết bằng mật mã, sau đó xây dựng thành một cơ sở dữ liệu chuyên biệt.
Công việc này có thể đóng vai trò then chốt trong việc tạo ra đủ dữ liệu để huấn luyện một hệ thống AI có khả năng giải mã.
Đây là một thách thức lớn, bởi các mô hình ngôn ngữ lớn đứng sau những chatbot AI như ChatGPT được huấn luyện trên hàng nghìn tỷ từ lấy từ sách, báo và các trang web.
Trong khi đó, việc tìm được một lượng dữ liệu tương đương cho các văn bản mật mã lịch sử là điều vô cùng khó khăn.
Trong số các tài liệu mà nhóm đã thu thập có khoảng 400 tấm bưu thiếp bí ẩn được viết bằng mật mã từ cuối thế kỷ 19 đến đầu thế kỷ 20.
Những phần đã được giải mã cho thấy một số trong đó thực chất là các bức thư tình bằng tiếng Đức.
Nhóm của bà Beáta Megyesi hiện đã sử dụng những kết quả nghiên cứu này để phát triển một công cụ AI hoạt động theo kiểu chatbot, có khả năng kết hợp phiên âm và giải mã trong cùng một bước.
Hệ thống này kết hợp nhiều công nghệ khác nhau:
Các thuật toán giải mã được huấn luyện trên những cặp dữ liệu gồm ký hiệu mật mã và ký tự thực mà chúng đại diện.
Các mô hình ngôn ngữ lớn được huấn luyện trên các văn bản lịch sử thuộc nhiều thời kỳ khác nhau để cung cấp ngữ cảnh và gợi ý cho quá trình giải mã.
Các thuật toán nhận dạng hình ảnh được huấn luyện trên những mẫu chữ viết tay đã được chú thích.
Đáng chú ý, công cụ AI này còn được thiết kế để tự cải thiện theo thời gian.
Những chỉnh sửa và hiệu đính do các chuyên gia thực hiện khi sử dụng hệ thống sẽ được đưa trở lại quá trình huấn luyện, giúp AI ngày càng hiểu rõ hơn các loại chữ viết cổ và các hệ mật mã lịch sử.
Nói cách khác, mục tiêu của dự án không chỉ là tạo ra một công cụ giải mã tài liệu cổ, mà là xây dựng một "trợ lý AI cho các nhà sử học" có thể học hỏi từ kinh nghiệm của con người và ngày càng giỏi hơn trong việc khai mở những bí mật đã bị chôn vùi hàng thế kỷ.
Ý tưởng là trong tương lai, các nhà nghiên cứu – hoặc thậm chí cả công chúng – chỉ cần đưa cho chatbot một văn bản lịch sử được mã hóa, và hệ thống sẽ tự động tiết lộ nội dung bên trong.
Khi thử nghiệm chatbot AI của mình với mật mã Borg, bà Beáta Megyesi và các đồng nghiệp phát hiện hệ thống có thể dịch và giải mã một đoạn văn bản gồm 500 ký hiệu chỉ trong hơn 29 phút.
AI thậm chí còn tạo ra bản dịch tiếng Anh của văn bản.
Điều đáng chú ý là hệ thống không chỉ đưa ra đáp án cuối cùng.
Nó còn ghi lại toàn bộ quá trình suy luận và giải thích vì sao lời giải đó được cho là hợp lý.
Đây là một yếu tố rất quan trọng để kiểm chứng kết quả và bảo đảm AI không "ảo giác" hoặc tự bịa ra các cách diễn giải không có cơ sở.
Nhóm nghiên cứu cũng gần đây đã thử nghiệm hệ thống trên hai loại mật mã khác mà họ từng giải được trước đó.
Các mật mã này thuộc những thời kỳ lịch sử khác nhau, sử dụng những ngôn ngữ khác nhau, áp dụng các phương pháp mã hóa khác nhau và có mức độ phức tạp khác nhau.
Kết quả cho thấy AI cũng nhanh chóng giải mã được chúng, chứng minh khả năng xử lý nhiều loại mật mã lịch sử khác nhau.
"AI hỗ trợ nhiều nhất ở khả năng xử lý quy mô lớn, tốc độ, phát hiện các mẫu hình và tích hợp nhiều công việc trong cùng một quy trình," bà Megyesi nói.
Những công cụ AI như vậy có thể đóng vai trò then chốt trong việc phá giải các mật mã lịch sử vốn đã thách thức giới nghiên cứu suốt nhiều năm.
Chúng cũng có thể hỗ trợ nghiên cứu những văn bản cổ được viết bằng các hệ chữ mà ngày nay không còn ai đọc được.
Ví dụ, Đĩa Phaistos, hiện vật khoảng 4.000 năm tuổi được tìm thấy trên đảo Crete, đến nay vẫn chưa được giải mã hoàn toàn.
Tương tự, Linear A - một hệ chữ của nền văn minh tiền Hy Lạp ở vùng Aegea - cũng vẫn là một bí ẩn đối với các nhà ngôn ngữ học.
Nếu AI thực sự có thể kết hợp nhận dạng chữ viết, phân tích ngôn ngữ và giải mã trong một quy trình thống nhất, nó có thể giúp khai mở những nguồn tư liệu mà nhân loại đã bất lực trước suốt nhiều thế kỷ, từ các thư từ ngoại giao bí mật cho đến những ngôn ngữ đã thất truyền từ thời cổ đạđại.
"Điều khiến tôi hào hứng không chỉ là khả năng giải được một bí ẩn lịch sử cụ thể, mà còn là triển vọng tạo ra những phương pháp có thể hỗ trợ các nhà nghiên cứu trong rất nhiều trường hợp khác nhau," bà Beáta Megyesi nói.