INSCRIBE. Intelligenza artificiale e decodifica linguistica

Intelligenza  artificiale e decodifica linguistica che ci riportano indietro  di oltre 3000 anni

Lingue antiche non ancora decifrate, ora lo sono con il supporto del deep learning (raffinato apprendimento della macchina  digitale,  sulla base di una copiosa raccolta di dati).

Questo è quanto accaduto presso il Dipartimento di Filologia classica e Italianistica dell’Università di Bologna, da un gruppo di ricerca focalizzato sullo studio del cipro-minoico, un sistema di scrittura ancora indecifrato dell’isola di Cipro.

Il termine cipriota-minoico venne coniato dall’archelologo Arthur Evans, agli inizi del 900,  basandosi sulla somiglianza visuale con con uno dei due sistemi di scrittura utilizzati nell’isola di Creta, denominato Lineare A.

Lo studio dell’ateneo bolognese fa parte del progetto INSCRIBE che ha ricevuto i fondi dall’European Research Council (ERC) – Consiglio europeo della ricerca.  I risultati dello studio sono stati pubblicati su Plos One  (Public Library of Science).

Titolo dello studio: Unsupervised Deep Learning Supports Reclassification of Bronze Age Cypriot Writing System. Gli autori sono Silvia Ferrara, Michele Corazza, Fabio Tamburini e Miguel Valério del Dipartimento di Filologia classica e Italianistica dell’Università di Bologna.

Progetto INSCRIBE

INSCRIBE è un progetto quinquennale finanziato dalla Commissione Europea nell’ambito del programma ERC Consolidator grant (2018-2023) composto da un team di ricercatori fortemente interdisciplinare.

INSCRIBE esamina i fattori che hanno reso possibile l’invenzione della scrittura, quando fu realizzata come creazione originale, in diverse parti del mondo. Questa domanda non è mai stata affrontata attraverso una prospettiva comparativa che includa i sistemi di scrittura che siamo in grado di leggere, e quelli ancora sconosciuti.

Ci sono circa una dozzina di sistemi di scrittura nel mondo che non sono ancora stati decifrati.

L’obiettivo è quello di svelare i misteri della scrittura antica attraverso un nuovo approccio, combinando lo studio delle prime iscrizioni, comprese le prime in Europa, attraverso la lente dell’archeologia, dell’antropologia, dell’evoluzione culturale, degli studi cognitivi e delle strategie di decifrazione.

In primo luogo INSCRIBE considera le invenzioni originali, tutte basate su immagini, provenienti da Mesopotamia, Egitto, Mesoamerica e Cina, e altri casi dibattuti, come la scrittura Rongorongo dell’Isola di Pasqua e la scrittura della Valle dell’Indo.

L’obiettivo è spiegare la loro invenzione in termini di cognizione visiva (perché i segni sono modellati come sono?), ambientazione archeologica (quali sono i presupposti contestuali, perché la scrittura emerge quando lo fa?), applicazione di utilizzo (quali sono i suoi scopi iniziali?) e la notazione linguistica (quali sono i percorsi per registrare il suono?).

Mesopotamia, Egitto, Cina e America precolombiana sembra siano le zone in cui, in tempi diversi, sia  nata la scrittura.

In secondo luogo, INSCRIBE esplora le prime scritture in Europa dal secondo millennio a.C. corrispondente alla civiltà egea – età del bronzo- della Grecia e del Mar Egeo, la cui fase iniziale è altamente “iconica” (in generale, basata su immagini).

Le tre scritture egee indecifrabili (geroglifico cretese, lineare A e cipro-minoico) sono analizzate per la prima volta da una prospettiva multistrato in merito alla loro creazione e sviluppo.

In terzo luogo, INSCRIBE va oltre gli standard tradizionali applicati ai cataloghi delle iscrizioni producendo il primo corpus digitale completo di tutte e tre le scritture indecifrabili dell’Egeo, con modelli interattivi 3D accompagnati da un’interfaccia multidimensionale che contrassegna le  iscrizioni, i tipi di oggetti scritti, la provenienza, i contesti archeologici e le funzioni.

Il cipro-minoico

Come leggiamo nel magazine di Unibo, il cipro-minoico risale a circa 3.500 anni fa e non è mai stato decifrato. Diffuso sull’isola di Cipro nella tarda Età del bronzo, ancora oggi non c’è un consenso tra gli studiosi su quanti siano i segni che lo compongono. Secondo alcuni esistono infatti quattro sottogruppi separati di segni della lingua in oggetto (CM1, CM2, CM3, e una variante arcaica chiamata CM0) che registrano lingue differenti tra loro.

Ma queste differenze potrebbero anche essere dovute a diversi stili e modalità di scrittura.

Ad oggi non abbiamo certezze su quali segni siano veri e propri grafemi di questo sistema di scrittura e quali siano invece semplicemente delle varianti dovute a differenze nella scrittura”, spiega Silvia Ferrara, professoressa al Dipartimento di Filologia Classica e Italianistica dell’Università di Bologna che ha coordinato lo studio. “I risultati che abbiamo ottenuto supportano decisamente l’ipotesi che questi sottogruppi siano composti da varianti legati ai diversi supporti sui quali i segni venivano inscritti”.

Con un avanzato processo di deep learning,  si è costruito il modello Sign2Vecd – addestrato ad analizzare e catalogare sia i diversi segni del cipro-minoico, che le intere sequenze di segni.

Il sistema permette di separare i segni tracciati  su tavolette di argilla da quelli su altri tipi di supporto. “In questo modo, spiega la Prof.ssa Ferrara, si è potuto tracciare delle corrispondenze tra i segni presenti su supporti come sfere di argilla e oggetti di metallo e quelli presenti sulle tavolette d’argilla: siamo così riusciti a ricostruire quasi il 70% di corrispondenze tra segni che finora erano solo stati ipotizzati come possibili varianti”.

Si presuppone dunque che la divisione in sottogruppi del cipro-minoico non sia dovuta all’esistenza di lingue diverse, ma sia legata ai diversi supporti utilizzati per incidere i segni.

Deep learning e lingue antiche

I segni del sistema di scrittura Lineare A che si leggano da sinistra a destra, sono diventati da alcuni anni, lo strumento ideale per attivare nuove tipologie di traduzione automatica basati sul machine learning, come descrisse nel 2019 un articolo della rivista MIT.

Jiaming Luo e Regina Barzilay del MIT e Yuan Cao del laboratorio di intelligenza artificiale di Google, hanno sviluppato un sistema di apprendimento automatico in grado di decifrare le lingue perdute, basandosi sul  sistema Lineare B.

La Lineare B fu un sistema di scrittura a carattere sillabico utilizzato dai Micenei per denotare graficamente la loro lingua, risultata essere una forma arcaica della lingua greca, scoperto insieme a sistema Lineare A, dall’archeologo Arthur Evans.

La grande idea alla base della traduzione automatica è la comprensione che le parole siano correlate tra loro in modi simili, indipendentemente dalla lingua coinvolta. Quindi il processo inizia con la mappatura di queste relazioni rispetto a una lingua specifica.

Ciò richiede enormi quantità di dati, in questo  caso, di testi. La macchina analizzai testi per la frequenza con cui ogni parola appare accanto a ogni altra parola. Questo modello di apparenze è una firma unica che definisce la parola in uno spazio parametrico multidimensionale.

In effetti, la parola può essere pensata come un vettore all’interno di questo spazio. E questo vettore agisce come un potente vincolo su come la parola possa apparire in qualsiasi traduzione che si presenta alla macchina.

Questi vettori obbediscono ad alcune semplici regole matematiche. Ad esempio: re – uomo + donna = regina. Una frase può essere pensata come un insieme di vettori che si susseguono uno dopo l’altro per formare una sorta di traiettoria attraverso questo spazio.

L’intuizione chiave che è alla base del machine learning e della traduzione automatica è che le parole in lingue diverse occupano gli stessi punti nei rispettivi parametri spaziali. Ciò consente di mappare un’intera lingua sulla base di un’altra lingua.

Chissà che con il tempo, l’intelligenza umana, attraverso la sua emanazione artificiale non riesca a decodificare un sistema univoco di comportamento socio-politico che possa servire da modello ai nostri governanti. Ma forse sarebbe arduo anche per l’IA, su quale sequenza di dati  si potrebbe/dovrebbe basare?

 

Potrebbero interessarti anche...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.