Aeneas biến đổi cách các nhà sử học kết nối quá khứ

Nghiên cứu

  • 9 min read
Aeneas biến đổi cách các nhà sử học kết nối quá khứ
Nghiên cứu

Aeneas biến đổi cách các nhà sử học kết nối với quá khứ

Ngày 23 tháng 7 năm 2025

Nghiên cứu

Aeneas - mô hình đầu tiên giúp các nhà sử học diễn giải, truy xuất nguồn gốc và phục dựng các văn bản cổ, được thiết kế để giúp các nhà sử học diễn giải, truy xuất nguồn gốc và phục dựng các văn bản rời rạc tốt hơn.


Văn bản từng hiện diện khắp nơi trong thế giới La Mã - được khắc trên mọi thứ, từ các tượng đài đế chế đến các đồ vật hàng ngày. Từ những câu graffiti chính trị, thơ tình và bia mộ đến các giao dịch kinh doanh, thư mời sinh nhật và bùa chú, các bản khắc mang đến cho các nhà sử học hiện đại những hiểu biết phong phú về sự đa dạng của cuộc sống hàng ngày trên khắp thế giới La Mã.

Thông thường, các văn bản này bị rời rạc, phong hóa hoặc cố tình bị phá hoại. Việc phục dựng, xác định niên đại và định vị chúng gần như là không thể nếu thiếu thông tin ngữ cảnh, đặc biệt là khi so sánh các bản khắc tương tự.

Hôm nay, chúng tôi xuất bản một bài báo trên Nature giới thiệu Aeneas, mô hình trí tuệ nhân tạo (AI) đầu tiên cho việc ngữ cảnh hóa các bản khắc cổ.

Khi làm việc với các bản khắc cổ, các nhà sử học thường dựa vào chuyên môn và các nguồn tài nguyên chuyên dụng của họ để xác định “sự tương đồng” - đó là những văn bản chia sẻ sự tương đồng về cách diễn đạt, cú pháp, công thức chuẩn hóa hoặc nguồn gốc.

Aeneas tăng tốc công việc phức tạp và tốn thời gian này lên đáng kể. Nó suy luận trên hàng nghìn bản khắc tiếng Latinh, truy xuất các văn bản và ngữ cảnh tương đồng chỉ trong vài giây, cho phép các nhà sử học diễn giải và xây dựng dựa trên các phát hiện của mô hình.


Khả năng tiên tiến của Aeneas

Mô hình của chúng tôi cũng có thể được điều chỉnh cho các ngôn ngữ, chữ viết và phương tiện cổ đại khác, từ giấy cói đến tiền xu, mở rộng khả năng của nó để giúp tạo ra các kết nối trên nhiều loại bằng chứng lịch sử hơn.

Chúng tôi đã đồng phát triển Aeneas với Đại học Nottingham, và hợp tác với các nhà nghiên cứu tại các Đại học Warwick, Oxford và Đại học Kinh tế và Kinh doanh Athens (AUEB). Công việc này là một phần của nỗ lực rộng lớn hơn nhằm khám phá cách AI tạo sinh có thể giúp các nhà sử học xác định và diễn giải các bản khắc tương đồng ở quy mô lớn hơn.

Chúng tôi muốn nghiên cứu này mang lại lợi ích cho càng nhiều người càng tốt, vì vậy chúng tôi đang cung cấp miễn phí phiên bản tương tác của Aeneas cho các nhà nghiên cứu, sinh viên, nhà giáo dục, chuyên gia bảo tàng và nhiều hơn nữa tại predictingthepast.com. Để hỗ trợ nghiên cứu sâu hơn, chúng tôi cũng đang mở nguồn mã nguồn và bộ dữ liệu của mình.


Aeneas hoạt động như thế nào?

Aeneas là một mạng nơ-ron tạo sinh đa phương thức, nhận văn bản và hình ảnh của bản khắc làm đầu vào. Để đào tạo Aeneas, chúng tôi đã tuyển chọn một bộ dữ liệu lớn và đáng tin cậy, rút ​​ra từ công trình của các nhà sử học trong nhiều thập kỷ để tạo ra các bộ sưu tập kỹ thuật số, đặc biệt là Cơ sở dữ liệu Khắc chữ Roma (EDR), Cơ sở dữ liệu Khắc chữ Heidelberg (EDH) và Cơ sở dữ liệu Khắc chữ Clauss Slaby (EDCS-ELT).

Chúng tôi đã làm sạch, hài hòa và liên kết các bản ghi này thành một bộ dữ liệu duy nhất có thể xử lý bằng máy mà chúng tôi gọi là Bộ dữ liệu Khắc chữ Latinh (LED), bao gồm hơn 176.000 bản khắc tiếng Latinh từ khắp thế giới La Mã cổ đại.

Mô hình của chúng tôi sử dụng một bộ giải mã dựa trên Transformer để xử lý đầu vào văn bản của bản khắc. Các mạng chuyên biệt xử lý việc phục dựng ký tự và xác định niên đại bằng cách sử dụng văn bản, trong khi việc quy thuộc địa lý cũng sử dụng hình ảnh của các bản khắc làm đầu vào. Bộ giải mã truy xuất các bản khắc tương tự từ LED, xếp hạng theo mức độ liên quan.

Đối với mỗi bản khắc, cơ chế ngữ cảnh hóa của Aeneas truy xuất một danh sách các bản tương đồng bằng cách sử dụng một kỹ thuật gọi là “embeddings” - mã hóa thông tin văn bản và ngữ cảnh của mỗi bản khắc thành một loại dấu vân tay lịch sử chứa thông tin về nội dung văn bản, ngôn ngữ, thời gian và địa điểm nó đến, và cách nó liên quan đến các bản khắc khác.


Hiệu suất tiên tiến

Aeneas nhóm các bản khắc theo niên đại viết một cách rõ ràng hơn nhiều so với các mô hình đa dụng khác cũng được đào tạo trên tiếng Latinh, như thể hiện trong trực quan hóa dưới đây.


Aeneas phục dựng các bản khắc bị hư hỏng với độ chính xác Top-20 là 73% ở các khoảng trống lên đến mười ký tự. Con số này chỉ giảm xuống còn 58% khi độ dài phục dựng không xác định - đây là một nhiệm vụ cực kỳ khó khăn. Nó cũng thể hiện lý luận của mình theo cách có thể diễn giải, cung cấp các bản đồ độ nhạy làm nổi bật các phần nào của đầu vào đã ảnh hưởng đến dự đoán của nó. Nhờ sử dụng dữ liệu hình ảnh, mô hình của chúng tôi có thể quy một bản khắc cho một trong 62 tỉnh La Mã cổ đại với độ chính xác 72%. Đối với việc xác định niên đại, Aeneas đặt một văn bản trong vòng 13 năm kể từ phạm vi niên đại do các nhà sử học cung cấp.


Một lăng kính mới cho các cuộc tranh luận lịch sử

Để đánh giá khả năng của Aeneas trên một cuộc tranh luận nghiên cứu đang diễn ra, chúng tôi đã đưa cho nó một trong những bản khắc La Mã nổi tiếng nhất: Res Gestae Divi Augusti, tài khoản ngôi thứ nhất của Hoàng đế Augustus về những thành tựu của ông.

Các nhà sử học từ lâu đã tranh luận về niên đại của bản khắc này. Thay vì dự đoán một ngày cố định duy nhất, Aeneas đã đưa ra một phân phối chi tiết về các ngày khả thi, cho thấy hai đỉnh rõ rệt, với một đỉnh nhỏ hơn vào khoảng 10-1 TCN và một đỉnh lớn hơn, tự tin hơn trong khoảng 10-20 CN. Các kết quả này đã nắm bắt được cả hai giả thuyết về niên đại phổ biến theo cách định lượng.


Aeneas dựa trên các dự đoán của mình vào các đặc điểm ngôn ngữ tinh tế và các dấu hiệu lịch sử như các chức danh chính thức và các tượng đài được đề cập trong văn bản. Bằng cách biến câu hỏi về niên đại thành một ước tính xác suất dựa trên dữ liệu ngôn ngữ và ngữ cảnh, mô hình của chúng tôi cung cấp một cách thức định lượng mới để tham gia vào các cuộc tranh luận lịch sử lâu đời.

Quan trọng nhất, Aeneas cũng đã truy xuất nhiều bản tương đồng có liên quan từ các văn bản luật pháp đế quốc liên quan đến di sản của Augustus, làm nổi bật cách hệ tư tưởng của đế chế được tái tạo trên các phương tiện và địa lý.


Chia sẻ công cụ, định hình tương lai

Aeneas được thiết kế để tích hợp vào quy trình nghiên cứu hiện có của các nhà sử học. Bằng cách kết hợp kiến thức chuyên môn với học máy, nó mở ra một quy trình hợp tác, cung cấp các đề xuất có thể diễn giải đóng vai trò là điểm khởi đầu có giá trị cho việc nghiên cứu lịch sử.

Là một phần của bản phát hành hôm nay, chúng tôi đang nâng cấp Ithaca, mô hình tiếng Hy Lạp cổ đại của chúng tôi, để được cung cấp năng lượng bởi Aeneas và bao gồm chức năng ngữ cảnh hóa, phục dựng các độ dài không xác định và hiệu suất tổng thể tốt hơn.

Chúng tôi cũng đã đồng thiết kế một giáo trình giảng dạy mới để kết nối các kỹ năng kỹ thuật với tư duy lịch sử trong lớp học. Giáo trình này phù hợp với các sáng kiến ​​về năng lực AI, bao gồm Khung Năng lực Số cho Công dân (DigComp 2.2) của Ủy ban Châu Âu, Khung Năng lực AI cho Sinh viên của UNESCO, và bản xem trước của Khung Năng lực AI của Ủy ban Châu Âu và Tổ chức Hợp tác và Phát triển Kinh tế (OECD) (AILit Framework).

Nhóm Aeneas tiếp tục hợp tác với các chuyên gia đa dạng về chủ đề, sử dụng Aeneas để giúp làm sáng tỏ quá khứ cổ đại của chúng ta - với nhiều điều hơn nữa sẽ đến.


Tìm hiểu thêm về Aeneas


Lời cảm ơn

Nghiên cứu được đồng chủ trì bởi Yannis Assael và Thea Sommerschield.

Các thành viên đóng góp bao gồm: Alison Cooley, Brendan Shillingford, John Pavlopoulos, Priyanka Suresh, Bailey Herms, Jonathan Prag, Alex Mullen và Shakir Mohamed. Giao diện web Aeneas được phát triển bởi Justin Grayston, Benjamin Maynard và Nicholas Dietrich, và được cung cấp bởi Google Cloud.

Giáo trình được phát triển bởi Robbe Wulgaert, Sint-Lievenscollege, Ghent, Bỉ.

Recommended for You

AlphaEarth Foundations giúp lập bản đồ hành tinh của chúng ta với chi tiết chưa từng có

AlphaEarth Foundations giúp lập bản đồ hành tinh của chúng ta với chi tiết chưa từng có

Khoa học

Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn huy chương vàng tại Kỳ thi Olympic Toán học Quốc tế

Phiên bản nâng cao của Gemini với Deep Think chính thức đạt tiêu chuẩn huy chương vàng tại Kỳ thi Olympic Toán học Quốc tế

Nghiên cứu