La prima famiglia di modelli open science per il riconoscimento vocale e la traduzione del parlato

Un sistema di riconoscimento vocale e traduzione del parlato sviluppato interamente da zero, senza utilizzare modelli preaddestrati delle big tech, costruito esclusivamente su dati e strumenti totalmente open. È questo l’obiettivo raggiunto da SpeechTek e Machine Translation, due unità della Fondazione Bruno Kessler, con il progetto “FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian” innovativo per approccio, visione e impatto e realizzato all’interno delle attività della fondazione FAIR – Future Artificial Intelligence Research.
La vera innovazione non sta solo nella qualità del modello, ma nella sua totale apertura: il modello è infatti stato addestrato su oltre 150.000 ore di dati audio, tutti liberamente accessibili e con licenze permissive. Ai dati audio già disponibili pubblicamente è stata aggiunta una grande quantità di cosiddetti “dati sintetici”, ovvero trascrizioni e traduzioni automatiche in italiano e inglese, realizzati appositamente per il progetto e resi disponibili tramite il dataset MOSEL.
“Il codice, i dati e le procedure utilizzate sono completamente pubblici e documentati, consentendo a chiunque di replicare o adattare il sistema. Il know-how che ha generato questo progetto congiunto e le possibili applicazioni e sviluppo di FAMA lo rendono un asset importante per FBK” spiegano Alessio Brutti, responsabile dell’unità SpeechTek, e Luisa Bentivogli, responsabile dell’unità Machine Translation.