Une IA traduit quasi instantanément des tablettes cunéiformes vieilles de 5 000 ans.

Une équipe pluridisciplinaire d'archéologues et de chercheurs en informatique a utilisé l'intelligence artificielle pour traduire l'akkadien, la plus ancienne langue écrite du monde. Grâce à la même technologie qui alimente Google Traduction, l'IA est capable de déchiffrer les anciens glyphes des tablettes cunéiformes en quelques secondes.

L'akkadien, la langue de l'empire akkadien, a prospéré en Irak actuel du 24ème au 22ème siècle avant notre ère (vers 2300 avant J.-C.). Elle compte des centaines de milliers de textes déjà connus, mais nombre d'entre eux n'ont pas encore été traduits en raison de la lenteur du process et du nombre limité d'experts capables de le faire. Cette langue ancienne pose des défis uniques pour la traduction. En effet, sans langues descendantes et avec un manque de contexte culturel, comprendre sa signification est ardu.

À l’instar d'Ithaca de DeepMind, une IA a récemment été entraînée sur des échantillons du Open Richly Annotated Cuneiform Corpus (Oracc). Elle peut traduire à partir des translittérations de textes originaux ou directement à partir des symboles cunéiformes caractérisés par des figures triangulaires tranchantes et intersécantes, qui étaient inscrites sur des tablettes d'argile à l'aide de l'extrémité en forme de coin d'un roseau.

Traduction grâce à l’IA, une révolution pour l'archéologie ?

Malgré quelques erreurs de traduction, l'IA a obtenu de bons résultats lors des tests et pourrait être utilisée pour traduire rapidement la multitude d'informations historiques contenues dans ces tablettes. L'équipe a publié ses résultats dans la revue à comité de lecture PNAS Nexus et a publié son code source sur GitHub, ici : Akkademia.

Le modèle d'IA développé par l'équipe excelle dans deux types de traduction : du cunéiforme à l'anglais et la translittération du cunéiforme (réécriture phonétique). La qualité de la traduction du modèle, mesurée par le score Best Bilingual Evaluation Understudy 4 (BLEU4), a donné des résultats impressionnants. Avec des scores de 36,52 et 37,47 pour les deux types de traduction respectivement, le modèle a dépassé les attentes de l'équipe, fournissant des traductions de haute qualité.

Malgré ses réalisations remarquables, le traducteur IA cunéiforme produit encore des erreurs et des "hallucinations" occasionnelles, un phénomène courant dans les systèmes IA. Le modèle montre une plus grande précision lors de la traduction de phrases plus courtes et de formulaires comme les registres administratifs. Il reproduit également des nuances spécifiques au genre lors de la traduction, une découverte qui a intrigué les chercheurs. L'IA sera formée sur des échantillons de traductions de plus en plus grands à l'avenir.