Utilizzato per le lingue non scritte
Roma, 19 ott. (askanews) – Fino ad ora, le traduzioni effettuate dall’Intelligenza Artificiale si sono concentrate principalmente su lingue scritte. Eppure, più del 40% delle oltre 7.000 lingue attualmente in uso sono principalmente orali e non hanno una forma scritta standard o un sistema di scrittura adottato su larga scala. Il progetto di Meta Universal Speech Translator (UST), spiega una nota, intende sviluppare sistemi di intelligenza artificiale in grado di fornire una traduzione speech to speech in tempo reale in tutte le lingue, anche quelle principalmente parlate. La possibilità di parlare con persone in lingue diverse senza anni di studio alle spalle è un sogno di lunga data. Crediamo che la comunicazione orale possa aiutare a rimuovere le barriere e ad avvicinare le persone ovunque si trovino, anche nel metaverso. Abbiamo fatto un ulteriore passo in avanti verso questo obiettivo con UST, il primo sistema di traduzione speech to speech per una lingua non scritta alimentato dall’intelligenza artificiale (AI). Come annunciato questo mese all’evento di Meta, Connect, i nostri ricercatori per l’intelligenza artificiale hanno costruito e reso open-source sistemi di traduzione per l’Hokkien, una delle lingue ufficiali di Taiwan, ampiamente parlata dai cinesi emigrati ma priva di una forma scritta standard. Questa tecnologia permette a chi parla Hokkien di tenere conversazioni con persone che parlano inglese. Per sviluppare questo nuovo sistema di traduzione solo vocale, i ricercatori per l’IA di Meta hanno dovuto superare molte sfide date dai tradizionali sistemi di traduzione automatica, come la raccolta dei dati, la progettazione del modello e la valutazione. Raccogliere dati sufficienti è stato un ostacolo importate che ci si è presentato durante la creazione del sistema di traduzione per l’hokkien. È noto che si tratta di una lingua povera di risorse: ciò significa che non esiste un’ampia gamma di dati disponibili per allenare il sistema, se la paragoniamo allo spagnolo o all’inglese, per esempio. Inoltre, esistono pochi traduttori umani dall’inglese all’hokkien e ciò complica la raccolta e l’annotazione dei dati per l’allenamento del modello. Abbiamo sfruttato il mandarino come lingua intermedia per creare delle pseudo etichette, per prima cosa abbiamo tradotto un contenuto vocale in inglese (o hokkien) in un testo in mandarino e poi lo abbiamo tradotto in hokkien (o inglese) e aggiunto ai dati per l’allenamento del modello. Questo metodo ha migliorato enormemente le prestazioni del modello sfruttando i dati di lingue simili con più risorse disponibili. Un altro approccio per la generazione di dati ha previsto il mining di audio. Con un codificatore di contenuti vocali allenato precedentemente, siamo riusciti a codificare gli embedding dell’hokkien in forma orale nello stesso spazio semantico degli embedding dell’inglese scritto. Il contenuto vocale in hokkien può essere allineato a un contenuto vocale in inglese e a testi i cui embedding semantici sono simili. Abbiamo poi sintetizzato un contenuto vocale in inglese partendo da testi, mettendo in parallelo le forme orali dell’hokkien e dell’inglese. Molti sistemi di traduzione orale si basano sulle trascrizioni o sulle traduzioni speech-to-text. Tuttavia, poiché le lingue prevalentemente orali non hanno forme scritte standard, produrre una traduzione scritta non è un approccio efficace. Per questo motivo ci siamo concentrati sulla traduzione speech-to-speech. Il nostro progetto ha richiesto un approccio diversificato. Abbiamo utilizzato la traduzione speech-to-unit (S2UT) per tradurre il contenuto vocale di partenza in una sequenza di unità acustiche direttamente nel percorso precedentemente lanciato da Meta. Poi abbiamo generato forme d’onda partendo da quelle stesse unità. Inoltre, abbiamo adottato Unity per un meccanismo di decodifica a 2 fattori, dove il primo decoder genera un testo in una lingua correlata (mandarino) e il secondo decoder crea le unità. I sistemi di traduzione di solito vengono valutati ricorrendo a una metrica chiamata ASR-BLEU, che prevede per prima cosa una trascrizione del contenuto vocale tradotto usando il riconoscimento vocale automatico (ASR) e successivamente il computing dei punteggi BLEU (una metrica standard della traduzione automatica) confrontando il testo della trascrizione con un testo tradotto da un traduttore umano. Tuttavia, una delle sfide della valutazione delle traduzioni orali per una lingua non scritta come l’hokkien è che non esiste un sistema di scrittura standard. Per poter abilitare la valutazione automatica, abbiamo sviluppato un sistema che trascrive i contenuti vocali in hokkien in un alfabeto fonetico standardizzato chiamato Tâi-lô. Con questa tecnica siamo riusciti a computare il punteggio BLEU a livello delle sillabe e a confrontare facilmente la qualità della traduzione effettuata mediante diversi approcci. Oltre ad aver sviluppato un metodo per la valutazione delle traduzioni orali hokkien-inglese, abbiamo creato anche il primo dataset per il benchmark delle traduzioni speech-to-speech hokkien-inglese e viceversa sulla base di un corpus dell’hokkien orale chiamato Taiwanese Across Taiwan. Renderemo questo dataset per il benchmark open source per incoraggiare altri ricercatori a lavorare alla traduzione orale dell’hokkien e fare insieme ulteriori progressi nel campo. Abbiamo in programma di utilizzare il nostro sistema di traduzione in hokkien come parte di un traduttore vocale universale e renderemo open-source il nostro modello, il codice e i dati di utilizzati per allenare la comunità dell’IA, per consentire ad altri ricercatori di portare avanti questo lavoro. Nella sua fase attuale, il nostro approccio consente a una persona che parla hokkien di parlare con una persona anglofona. Sebbene il modello sia ancora in fase di sviluppo e possiamo tradurre solo una frase intera alla volta, si tratta di un passo verso un futuro in cui sarà possibile la traduzione simultanea tra le lingue. Le tecniche all’avanguardia che abbiamo sviluppato per l’hokkien possono essere estese a molte altre lingue, sia scritte che orali. A questo scopo, stiamo per rilasciare la matrice orale, un vasto corpus di traduzioni speech-to-speech elaborato con l’innovativa tecnica di mining dei dati di Meta, chiamata LASER, che consentirà ai ricercatori di creare i propri sistemi di traduzione speech-to-speech (S2ST) e basarsi sul nostro lavoro per continua a leggere sul sito di riferimento