Aeneas biến đổi cách các nhà sử học kết nối quá khứ
Chúng tôi đang xuất bản một bài báo trên tạp chí Nature giới thiệu Aeneas, mô hình AI đầu tiên để đưa các dòng chữ cổ vào ngữ cảnh.
- 12 min read
Aeneas biến đổi cách các nhà sử học kết nối quá khứ
Bài viết ở mục Nghiên cứu được xuất bản ngày 23 tháng 7 năm 2025 bởi nhóm Aeneas.
Viết lách đã có mặt ở khắp mọi nơi trong thế giới La Mã - được khắc trên mọi thứ, từ các tượng đài của đế chế đến các vật dụng hàng ngày. Từ graffiti chính trị, thơ tình và văn bia đến các giao dịch kinh doanh, thiệp mời sinh nhật và bùa phép, các dòng chữ mang đến cho các nhà sử học hiện đại những hiểu biết sâu sắc về sự đa dạng của cuộc sống hàng ngày trên khắp thế giới La Mã.
Thông thường, những văn bản này bị rời rạc, phong hóa hoặc cố tình làm xấu. Việc khôi phục, xác định niên đại và định vị chúng là gần như không thể nếu không có thông tin theo ngữ cảnh, đặc biệt là khi so sánh các dòng chữ tương tự.
Hôm nay, chúng tôi đang công bố một bài báo trên tạp chí Nature giới thiệu Aeneas, mô hình trí tuệ nhân tạo (AI) đầu tiên để đưa các dòng chữ cổ vào ngữ cảnh.
Khi làm việc với các dòng chữ cổ, các nhà sử học theo truyền thống dựa vào chuyên môn và các nguồn tài nguyên chuyên biệt của họ để xác định “sự tương đồng” - đó là các văn bản có chung sự tương đồng về cách diễn đạt, cú pháp, công thức tiêu chuẩn hoặc nguồn gốc.
Aeneas đẩy nhanh đáng kể công việc phức tạp và tốn thời gian này. Nó suy luận trên hàng nghìn dòng chữ Latinh, truy xuất các điểm tương đồng về văn bản và ngữ cảnh trong vài giây, cho phép các nhà sử học diễn giải và xây dựng dựa trên những phát hiện của mô hình.
Mô hình của chúng tôi cũng có thể được điều chỉnh cho các ngôn ngữ, chữ viết và phương tiện cổ đại khác, từ giấy cói đến tiền xu, mở rộng khả năng giúp kết nối trên một loạt các bằng chứng lịch sử rộng hơn.
Chúng tôi đã cùng phát triển Aeneas với Đại học Nottingham, và hợp tác với các nhà nghiên cứu tại các trường Đại học Warwick, Oxford và Đại học Kinh tế và Kinh doanh Athens (AUEB). Công việc này là một phần của nỗ lực rộng lớn hơn để khám phá cách AI tạo sinh có thể giúp các nhà sử học xác định và diễn giải sự tương đồng ở quy mô lớn tốt hơn.
Chúng tôi muốn nghiên cứu này mang lại lợi ích cho càng nhiều người càng tốt, vì vậy chúng tôi đang cung cấp miễn phí phiên bản tương tác của Aeneas cho các nhà nghiên cứu, sinh viên, nhà giáo dục, chuyên gia bảo tàng và nhiều người khác tại predictingthepast.com. Để hỗ trợ nghiên cứu sâu hơn, chúng tôi cũng đang mở mã nguồn mã và bộ dữ liệu của mình.
Khả năng nâng cao của Aeneas
Được đặt theo tên người anh hùng lang thang trong thần thoại Hy Lạp-La Mã, Aeneas xây dựng dựa trên Ithaca, công trình trước đây của chúng tôi sử dụng AI để khôi phục, xác định niên đại và định vị các dòng chữ Hy Lạp cổ đại.
Aeneas tiến thêm một bước nữa, giúp các nhà sử học diễn giải và đưa một văn bản vào ngữ cảnh, mang lại ý nghĩa cho các đoạn rời rạc, đưa ra các kết luận phong phú hơn và ghép lại với nhau một sự hiểu biết tốt hơn về lịch sử cổ đại.
Các khả năng nâng cao của mô hình của chúng tôi bao gồm:
- Tìm kiếm sự tương đồng: Nó tìm kiếm sự tương đồng trên một bộ sưu tập lớn các dòng chữ Latinh. Bằng cách biến mỗi văn bản thành một loại dấu vân tay lịch sử, Aeneas xác định các kết nối sâu sắc có thể giúp các nhà sử học định vị các dòng chữ trong bối cảnh lịch sử rộng lớn hơn của chúng.
- Xử lý đầu vào đa phương thức: Aeneas là mô hình đầu tiên xác định nguồn gốc địa lý của một văn bản bằng cách sử dụng đầu vào đa phương thức. Nó phân tích cả văn bản và thông tin trực quan, như hình ảnh của một dòng chữ.
- Khôi phục các khoảng trống có độ dài không xác định: Lần đầu tiên, Aeneas có thể khôi phục các khoảng trống trong văn bản mà độ dài bị thiếu là không xác định. Điều này làm cho nó trở thành một công cụ linh hoạt hơn cho các nhà sử học đối phó với tài liệu bị hư hỏng nặng.
- Hiệu suất hiện đại: Aeneas đặt ra một chuẩn mực hiện đại mới trong việc khôi phục các văn bản bị hư hỏng và dự đoán thời gian và địa điểm chúng được viết.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="346"
srcset="https://lh3.googleusercontent.com/SlzbQR4C-DgeJQ7AF85q5HFAJRvs-lxUdox3BL3VpJ2RqCGR7K287xDNefGPFWJsWqT90bwwZBYmjpl6HBQYuA8UvB6wTC9H4OxIx7F9JLmUdgk2=w616-rw 1x, https://lh3.googleusercontent.com/SlzbQR4C-DgeJQ7AF85q5HFAJRvs-lxUdox3BL3VpJ2RqCGR7K287xDNefGPFWJsWqT90bwwZBYmjpl6HBQYuA8UvB6wTC9H4OxIx7F9JLmUdgk2=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="297"
srcset="https://lh3.googleusercontent.com/SlzbQR4C-DgeJQ7AF85q5HFAJRvs-lxUdox3BL3VpJ2RqCGR7K287xDNefGPFWJsWqT90bwwZBYmjpl6HBQYuA8UvB6wTC9H4OxIx7F9JLmUdgk2=w528-rw 1x, https://lh3.googleusercontent.com/SlzbQR4C-DgeJQ7AF85q5HFAJRvs-lxUdox3BL3VpJ2RqCGR7K287xDNefGPFWJsWqT90bwwZBYmjpl6HBQYuA8UvB6wTC9H4OxIx7F9JLmUdgk2=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="346" loading="lazy" src="https://lh3.googleusercontent.com/SlzbQR4C-DgeJQ7AF85q5HFAJRvs-lxUdox3BL3VpJ2RqCGR7K287xDNefGPFWJsWqT90bwwZBYmjpl6HBQYuA8UvB6wTC9H4OxIx7F9JLmUdgk2=w616" width="616">
</picture>
Cách thức hoạt động của Aeneas
Aeneas là một mạng nơ-ron tạo sinh đa phương thức, lấy văn bản và hình ảnh của một dòng chữ làm đầu vào. Để đào tạo Aeneas, chúng tôi đã tuyển chọn một tập dữ liệu lớn và đáng tin cậy, lấy từ nhiều thập kỷ làm việc của các nhà sử học để tạo ra các bộ sưu tập kỹ thuật số, đặc biệt là Cơ sở dữ liệu Epigraphic Roma (EDR), Cơ sở dữ liệu Epigraphic Heidelberg (EDH) và Cơ sở dữ liệu Epigraphic Clauss Slaby (EDCS-ELT).
Chúng tôi đã làm sạch, hài hòa hóa và liên kết các bản ghi này thành một tập dữ liệu có thể hành động trên máy duy nhất mà chúng tôi gọi là Tập dữ liệu Epigraphic Latinh (LED), bao gồm hơn 176.000 dòng chữ Latinh từ khắp thế giới La Mã cổ đại.
Mô hình của chúng tôi sử dụng bộ giải mã dựa trên bộ chuyển đổi để xử lý đầu vào văn bản của một dòng chữ. Các mạng chuyên dụng xử lý việc khôi phục ký tự và xác định niên đại bằng cách sử dụng văn bản, trong khi thuộc tính địa lý cũng sử dụng hình ảnh của các dòng chữ làm đầu vào. Bộ giải mã truy xuất các dòng chữ tương tự từ LED, được xếp hạng theo mức độ liên quan.
Đối với mỗi dòng chữ, cơ chế ngữ cảnh hóa của Aeneas truy xuất danh sách các điểm tương đồng bằng cách sử dụng một kỹ thuật gọi là “nhúng” - mã hóa thông tin văn bản và ngữ cảnh của mỗi dòng chữ thành một loại dấu vân tay lịch sử chứa các chi tiết về nội dung văn bản, ngôn ngữ của nó, thời gian và địa điểm xuất xứ và mối quan hệ của nó với các dòng chữ khác.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="387"
srcset="https://lh3.googleusercontent.com/V55EG8T5SJIr5Mbsh7JK7rjK1Dp7ISpfnFL3tL46f8wmQak5TAv9h_KxHD55ZrHK113Z3aXaHweAllOKg52W3m6VfnB-cpEUBkn7H5GN6NTkFhsdCA=w616-rw 1x, https://lh3.googleusercontent.com/V55EG8T5SJIr5Mbsh7JK7rjK1Dp7ISpfnFL3tL46f8wmQak5TAv9h_KxHD55ZrHK113Z3aXaHweAllOKg52W3m6VfnB-cpEUBkn7H5GN6NTkFhsdCA=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="332"
srcset="https://lh3.googleusercontent.com/V55EG8T5SJIr5Mbsh7JK7rjK1Dp7ISpfnFL3tL46f8wmQak5TAv9h_KxHD55ZrHK113Z3aXaHweAllOKg52W3m6VfnB-cpEUBkn7H5GN6NTkFhsdCA=w528-rw 1x, https://lh3.googleusercontent.com/V55EG8T5SJIr5Mbsh7JK7rjK1Dp7ISpfnFL3tL46f8wmQak5TAv9h_KxHD55ZrHK113Z3aXaHweAllOKg52W3m6VfnB-cpEUBkn7H5GN6NTkFhsdCA=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="387" loading="lazy" src="https://lh3.googleusercontent.com/V55EG8T5SJIr5Mbsh7JK7rjK1Dp7ISpfnFL3tL46f8wmQak5TAv9h_KxHD55ZrHK113Z3aXaHweAllOKg52W3m6VfnB-cpEUBkn7H5GN6NTkFhsdCA=w616" width="616">
</picture>
Hiệu suất hiện đại
Aeneas nhóm các dòng chữ theo ngày viết rõ ràng hơn nhiều so với các mô hình đa năng khác cũng được đào tạo trên tiếng Latinh, như được hiển thị trong hình ảnh trực quan bên dưới.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="357"
srcset="https://lh3.googleusercontent.com/slwPj5FC_Uh68Ie2-hudEi_qjLxuQTkjJyMmP6mwN3QwvNPXZT3nOpMwQyiujBdgmnGucWsIs8kfGrkMC7bGY0-QotSeYcrnXTWG6wuMUV3n-rtvoeU=w616-rw 1x, https://lh3.googleusercontent.com/slwPj5FC_Uh68Ie2-hudEi_qjLxuQTkjJyMmP6mwN3QwvNPXZT3nOpMwQyiujBdgmnGucWsIs8kfGrkMC7bGY0-QotSeYcrnXTWG6wuMUV3n-rtvoeU=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="306"
srcset="https://lh3.googleusercontent.com/slwPj5FC_Uh68Ie2-hudEi_qjLxuQTkjJyMmP6mwN3QwvNPXZT3nOpMwQyiujBdgmnGucWsIs8kfGrkMC7bGY0-QotSeYcrnXTWG6wuMUV3n-rtvoeU=w528-rw 1x, https://lh3.googleusercontent.com/slwPj5FC_Uh68Ie2-hudEi_qjLxuQTkjJyMmP6mwN3QwvNPXZT3nOpMwQyiujBdgmnGucWsIs8kfGrkMC7bGY0-QotSeYcrnXTWG6wuMUV3n-rtvoeU=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="357" loading="lazy" src="https://lh3.googleusercontent.com/slwPj5FC_Uh68Ie2-hudEi_qjLxuQTkjJyMmP6mwN3QwvNPXZT3nOpMwQyiujBdgmnGucWsIs8kfGrkMC7bGY0-QotSeYcrnXTWG6wuMUV3n-rtvoeU=w616" width="616">
</picture>
Aeneas khôi phục các dòng chữ bị hư hỏng với độ chính xác Top-20 là 73% trong các khoảng trống lên đến mười ký tự. Điều này chỉ giảm xuống 58% khi độ dài phục hồi không xác định - bản thân nó là một nhiệm vụ vô cùng khó khăn. Nó cũng hiển thị lý luận của mình theo cách có thể giải thích được, cung cấp các bản đồ nổi bật làm nổi bật những phần nào của đầu vào đã ảnh hưởng đến các dự đoán của nó. Nhờ sử dụng dữ liệu trực quan, mô hình của chúng tôi có thể gán một dòng chữ cho một trong 62 tỉnh La Mã cổ đại với độ chính xác 72%. Để xác định niên đại, Aeneas đặt một văn bản trong vòng 13 năm so với phạm vi ngày tháng do các nhà sử học cung cấp.
Một lăng kính mới về các cuộc tranh luận lịch sử
Để kiểm tra khả năng của Aeneas về một cuộc tranh luận nghiên cứu đang diễn ra, chúng tôi đã đưa cho nó một trong những dòng chữ La Mã nổi tiếng nhất: Res Gestae Divi Augusti, tài khoản ngôi thứ nhất của Hoàng đế Augustus về những thành tựu của ông.
Các nhà sử học từ lâu đã tranh luận về niên đại của dòng chữ này. Thay vì dự đoán một ngày cố định duy nhất, Aeneas đã tạo ra một phân phối chi tiết về các ngày có thể, cho thấy hai đỉnh riêng biệt, với một đỉnh nhỏ hơn vào khoảng 10-1 BCE và một đỉnh lớn hơn, tự tin hơn trong khoảng 10-20 CE. Những kết quả này đã nắm bắt cả hai giả thuyết xác định niên đại phổ biến theo cách định lượng.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="357"
srcset="https://lh3.googleusercontent.com/Vxcoz7-tGIdSV8LG2rhXtNpl1psefyfkMpeUsBirpUbnMFuhjPcYO14d7fTu04mqDgRTG3O8uYcS4ih0vevRvu_C7XZ3Gwt2pNa5c5b1gC-LIosf8pQ=w616-rw 1x, https://lh3.googleusercontent.com/Vxcoz7-tGIdSV8LG2rhXtNpl1psefyfkMpeUsBirpUbnMFuhjPcYO14d7fTu04mqDgRTG3O8uYcS4ih0vevRvu_C7XZ3Gwt2pNa5c5b1gC-LIosf8pQ=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="306"
srcset="https://lh3.googleusercontent.com/Vxcoz7-tGIdSV8LG2rhXtNpl1psefyfkMpeUsBirpUbnMFuhjPcYO14d7fTu04mqDgRTG3O8uYcS4ih0vevRvu_C7XZ3Gwt2pNa5c5b1gC-LIosf8pQ=w528-rw 1x, https://lh3.googleusercontent.com/Vxcoz7-tGIdSV8LG2rhXtNpl1psefyfkMpeUsBirpUbnMFuhjPcYO14d7fTu04mqDgRTG3O8uYcS4ih0vevRvu_C7XZ3Gwt2pNa5c5b1gC-LIosf8pQ=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="357" loading="lazy" src="https://lh3.googleusercontent.com/Vxcoz7-tGIdSV8LG2rhXtNpl1psefyfkMpeUsBirpUbnMFuhjPcYO14d7fTu04mqDgRTG3O8uYcS4ih0vevRvu_C7XZ3Gwt2pNa5c5b1gC-LIosf8pQ=w616" width="616">
</picture>
Aeneas dựa trên các dự đoán của mình về các đặc điểm ngôn ngữ tinh tế và các dấu hiệu lịch sử như các chức danh và tượng đài chính thức được đề cập trong văn bản. Bằng cách biến câu hỏi xác định niên đại thành một ước tính xác suất dựa trên dữ liệu ngôn ngữ và ngữ cảnh, mô hình của chúng tôi cung cấp một cách định lượng mới để tham gia vào các cuộc tranh luận lịch sử lâu đời.
Quan trọng nhất, Aeneas cũng truy xuất nhiều điểm tương đồng có liên quan từ các văn bản pháp luật của đế chế gắn liền với di sản của Augustus, làm nổi bật cách thức hệ tư tưởng của đế chế được tái tạo trên các phương tiện truyền thông và địa lý.
Thúc đẩy nghiên cứu lịch sử một cách hợp tác
Để đánh giá tác động của Aeneas như một công cụ hỗ trợ nghiên cứu, chúng tôi đã thực hiện một nghiên cứu hợp tác quy mô lớn giữa nhà sử học và AI. Chúng tôi đã mời hai mươi ba nhà sử học thường xuyên làm việc với các dòng chữ để khôi phục, xác định niên đại và định vị một tập hợp các văn bản bằng Aeneas.
Đánh giá của chúng tôi, được tóm tắt trong bảng bên dưới, cho thấy kết quả hiệu quả nhất đã đạt được khi các nhà sử học sử dụng thông tin ngữ cảnh của Aeneas cùng với các dự đoán của nó để khôi phục và gán các dòng chữ La Mã.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="187"
srcset="https://lh3.googleusercontent.com/p76BRavne7qhGIty6p5Ojhbyn9fvbWHQXZsm-pA43frq64atbs9yKSy1vf6tE9If-94R5iuDJ2bZ-ZvhiWT7uoUBNHsxGVipG8DLIJhML77V_XAhDws=w616-rw 1x, https://lh3.googleusercontent.com/p76BRavne7qhGIty6p5Ojhbyn9fvbWHQXZsm-pA43frq64atbs9yKSy1vf6tE9If-94R5iuDJ2bZ-ZvhiWT7uoUBNHsxGVipG8DLIJhML77V_XAhDws=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="160"
srcset="https://lh3.googleusercontent.com/p76BRavne7qhGIty6p5Ojhbyn9fvbWHQXZsm-pA43frq64atbs9yKSy1vf6tE9If-94R5iuDJ2bZ-ZvhiWT7uoUBNHsxGVipG8DLIJhML77V_XAhDws=w528-rw 1x, https://lh3.googleusercontent.com/p76BRavne7qhGIty6p5Ojhbyn9fvbWHQXZsm-pA43frq64atbs9yKSy1vf6tE9If-94R5iuDJ2bZ-ZvhiWT7uoUBNHsxGVipG8DLIJhML77V_XAhDws=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="187" loading="lazy" src="https://lh3.googleusercontent.com/p76BRavne7qhGIty6p5Ojhbyn9fvbWHQXZsm-pA43frq64atbs9yKSy1vf6tE9If-94R5iuDJ2bZ-ZvhiWT7uoUBNHsxGVipG8DLIJhML77V_XAhDws=w616" width="616">
</picture>
Aeneas đã giúp các nhà sử học trong nghiên cứu của chúng tôi xác định các điểm tương đồng mới và tăng cường sự tự tin của họ khi giải quyết các nhiệm vụ epigraphic phức tạp. Các nhà sử học liên tục nhấn mạnh giá trị của Aeneas trong việc tăng tốc công việc của họ và mở rộng phạm vi của các dòng chữ song song có liên quan nhất.
Chia sẻ các công cụ, định hình tương lai
Aeneas được thiết kế để tích hợp trong quy trình làm việc nghiên cứu hiện có của các nhà sử học. Bằng cách kết hợp kiến thức chuyên môn với máy học, nó mở ra một quy trình hợp tác, đưa ra các đề xuất có thể giải thích được, đóng vai trò là điểm khởi đầu có giá trị cho nghiên cứu lịch sử.
Là một phần của bản phát hành ngày hôm nay, chúng tôi đang nâng cấp Ithaca, mô hình Hy Lạp cổ đại của chúng tôi, để được cung cấp bởi Aeneas và bao gồm chức năng ngữ cảnh hóa, khôi phục độ dài không xác định và hiệu suất tốt hơn nói chung.
Chúng tôi cũng đã đồng thiết kế một giáo trình giảng dạy mới để kết nối các kỹ năng kỹ thuật với tư duy lịch sử trong lớp học. Giáo trình này phù hợp với các sáng kiến về kiến thức về AI, bao gồm Khung năng lực kỹ thuật số cho công dân của Ủy ban Châu Âu (DigComp 2.2), Khung năng lực AI cho sinh viên của UNESCO và bản xem trước của Ủy ban Châu Âu và Tổ chức Hợp tác và Phát triển Kinh tế (OECD) AILit Framework.
Nhóm Aeneas đang tiếp tục hợp tác với các chuyên gia về chủ đề đa dạng, sử dụng Aeneas để giúp làm sáng tỏ quá khứ cổ đại của chúng ta - với nhiều điều sắp tới.
Tìm hiểu thêm về Aeneas
- Đọc bài báo của chúng tôi
- Dùng thử Aeneas
- Tải mã và tập dữ liệu
- Đọc blog của chúng tôi bằng tiếng Ý
- Đọc blog của chúng tôi bằng tiếng Hy Lạp
Lời cảm ơn
Nghiên cứu được đồng dẫn dắt bởi Yannis Assael và Thea Sommerschield.
Các cộng tác viên bao gồm: Alison Cooley, Brendan Shillingford, John Pavlopoulos, Priyanka Suresh, Bailey Herms, Jonathan Prag, Alex Mullen và Shakir Mohamed. Giao diện web Aeneas được phát triển bởi Justin Grayston, Benjamin Maynard và Nicholas Dietrich và được cung cấp bởi Google Cloud.
Giáo trình được phát triển bởi Robbe Wulgaert, Sint-Lievenscollege, Ghent, Bỉ.
Link bài viết gốc
- Tags:
- Ai
- 23 July 2025
- Deepmind.google