Machine learning per tradurre lingue mai decifrate?

Esistono lingue che ancora non siamo stati in grado di decifrare. La più famosa in Occidente è sicuramente la Lineare A. Oggi però grazie all’Intelligenza Artificiale, e in particolare alla possibilità di creare algoritmi di Machine Learning per la traduzione automatica si aprono nuove strade per la traduzione di queste lingue antiche.
Cristina Da Rold, 27 Luglio 2019
Micron

Esistono lingue che ancora non siamo stati in grado di decifrare. La più famosa in Occidente è sicuramente la Lineare A, uno dei due sistemi di scrittura utilizzati nell’isola di Creta intorno al 1900 a.C.. Si tratta di un sistema in alcuni tratti simile a quello della Lineare B, apparso intorno al 1400 a.C., e decifrato da Michael Ventris e John Chadwick tra il 1952 e il 1953, ma non utilizza la stessa logica di fondo: la Lineare A non è risultata una prima forma di greco antico, come invece si può dire per la lineare B.
Oggi però abbiamo qualcosa che non avevano i ricercatori negli anni Cinquanta: l’Intelligenza Artificiale, e in particolare la possibilità di creare algoritmi di Machine Learning per la traduzione automatica. Stile Google Translate.
In particolare Jiaming Luo e Regina Barzilay del Massachusetts Institute of Technology di Boston insieme a Yuan Cao dal laboratorio di intelligenza artificiale di Google a Mountain View in California, hanno sviluppato un sistema di apprendimento automatico in grado di decifrare automaticamente la Lineare B. L’équipe di ricerca è stato in grado di tradurre correttamente il 67,3% dei tratti della Lineare B nel greco antico che conosciamo. “Per quanto ne sappiamo – raccontano – il nostro esperimento è il primo tentativo di decifrare automaticamente questa antica lingua”.
Viene spontaneo chiedersi se questo non possa rappresentare un passo in avanti per la definitiva decriptazione della sconosciuta Lineare A. Il grande vantaggio degli approcci basati sul Machine Learning è che possono testare rapidamente una lingua dopo l’altra senza “affaticarsi”.
È quindi possibile che Luo e altri possano riuscire a decifrare la Lineare A semplicemente confrontandola con tutte le lingue per le quali già funziona la traduzione automatica, cosa che richiederebbe anni e anni agli studiosi senza procedure automatiche. La cosa non è però facile come sembra. Il problema è capire come modificare la struttura dell’algoritmo, dal momento che nessuno sa quale lingua codifica Lineare A, e senza il linguaggio progenitore, la nuova tecnica non funziona.
L’idea alla base della traduzione automatica è che le parole sono correlate tra loro in modi simili, indipendentemente dalla lingua in questione.
Le parole in lingue diverse occupano gli stessi punti nei rispettivi spazi dei parametri, cosa che rende possibile mappare un’intera lingua su un’altra lingua con una corrispondenza uno a uno. In questo modo, il processo di traduzione delle frasi diventa il processo di ricerca di traiettorie simili attraverso questi spazi, e la macchina non ha nemmeno bisogno di “sapere” cosa significano le frasi.
Il processo di traduzione inizia mappando queste relazioni per un linguaggio specifico, cosa che richiede enormi database di testo. Una macchina dunque cerca questo testo per contare quanto spesso ogni parola appare accanto a ogni altra parola, che può essere pensata come un vettore all’interno dello spazio testuale. Il vettore-parola agisce come un potente vincolo sul modo in cui la parola può apparire in qualsiasi traduzione che la macchina produce.
Questi vettori obbediscono ad alcune semplici regole matematiche. Ad esempio: re – uomo + donna = regina. E una frase può essere pensata come un insieme di vettori che si susseguono uno dopo l’altro per formare una sorta di traiettoria attraverso questo spazio.
L’idea è che qualsiasi lingua può cambiare solo in determinati modi. I simboli nelle lingue correlate, per esempio, vengono visualizzati con distribuzioni simili, le parole correlate hanno lo stesso ordine di caratteri e così via.
Con queste regole che limitano la macchina, diventa molto più facile decifrare una lingua, a condizione che sia nota la lingua progenitrice, ma non è questo il caso purtroppo di Lineare A. Almeno per ora.

Commenti dei lettori


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    X