L’italiano e gli assistenti vocali
di Mirco Tavosanis
L’italiano e gli assistenti vocali
Oggi, l’interazione con i sistemi informatici passa di solito da uno schermo e una tastiera (fisica o virtuale). Tuttavia questo non è l’unico sistema immaginabile. Per molti tipi di attività, per esempio, l’interazione più funzionale sarebbe quella a voce. Fino a pochi anni fa il riconoscimento del parlato era però tecnicamente impossibile: i primi sistemi di dettatura capaci di trascrivere un testo dettato senza pause artificiali tra le parole sono stati messi in commercio solo nel 1997 e per molto tempo sono rimasti poco affidabili.
Negli ultimi anni, tuttavia, la tecnica ha fatto una svolta e alcuni sistemi sono diventati sorprendentemente funzionali. Le novità in questo settore sono ormai interessanti anche per i linguisti e le tecnologie connesse promettono di essere un importante fattore di cambiamento per i prossimi decenni.
La situazione dell’italiano
Le tecnologie vocali dipendono ovviamente dalla lingua, e non ci sono dubbi sul ruolo privilegiato che ha l’inglese in questo settore. L’assistente digitale Alexa di Amazon, per esempio, è disponibile solo per l’inglese, e lo stesso vale per molti prodotti annunciati per i prossimi mesi.
Tuttavia, quando un’innovazione si espande l’italiano rientra di regola tra le prime dieci lingue trattate e spesso scala la classifica. L’assistente digitale Siri di Apple è partito con il sistema operativo iOS 5.0 supportando inglese, francese e tedesco, più, poco dopo, il giapponese, ma già con il passaggio a iOS 6 ha incluso l’italiano assieme al cinese mandarino, al cantonese, al coreano e allo spagnolo. In un settore affine, il sistema di traduzione automatica Microsoft Skype Translator ha incluso nel 2014 l’italiano come terza lingua supportata, dopo l’inglese e lo spagnolo, assieme al cinese mandarino e prima del tedesco, del francese e del giapponese.
Questa posizione privilegiata non è un caso: l’italiano è solo la ventunesima lingua più parlata del mondo, o giù di lì, ma tra le lingue che la precedono nella classifica solo sette (il cinese mandarino, lo spagnolo, l’inglese, il giapponese, il tedesco, il francese e il portoghese) hanno alle spalle una comunità di parlanti madrelingua con un peso economico totale maggiore di quello degli italiani. Si può quindi ritenere che nel prossimo futuro l’italiano continuerà a trovarsi in una comoda e stabile seconda fila dell’innovazione.
Le prestazioni effettive
Quanto funzionano però questi strumenti? Al di là dei comunicati stampa e delle dichiarazioni promozionali, le misurazioni oggettive mancano. Una serie estesa di confronti che ho condotto in questi mesi assieme agli studenti di Linguistica italiana II del corso di laurea magistrale in Informatica umanistica dell’Università di Pisa ha però fornito risultati molto interessanti.
Il fatto più notevole è che con sistemi di dettatura, come quello integrato in Google Docs o Dragon NaturallySpeaking, il riconoscimento di parole singole o frasi lette raggiunge oggi, davvero, percentuali di successo vicine al 100%. Anche gli accenti regionali dei parlanti, documentati dal prezioso corpus CLIPS (diretto da Federico Albano Leoni e ospitato dall’Università Federico II di Napoli), non sembra rappresentino un problema.
D’altra parte, gli stessi strumenti ottengono risultati decisamente peggiori con il riconoscimento del dialogo. Nel parlato spontaneo, infatti, i confini tra le parole spesso non sono chiari e la pronuncia effettiva è molto diversa da quella che ci si aspetterebbe. Anche se non se ne rendono conto, in effetti, perfino gli esseri umani riescono spesso a decifrare un dialogo solo basandosi sulla propria conoscenza del contesto. Per le macchine, la percentuale di parole sbagliate sale in questi casi oltre il 50% e rende le trascrizioni inutilizzabili per scopi pratici.
Queste prestazioni potrebbero però migliorare drasticamente nel prossimo futuro. Per l’inglese, Microsoft ha di recente annunciato che il suo miglior sistema, basato su tecnologie di apprendimento automatico, riduce a poco più del 6% gli errori di riconoscimento nel parlato spontaneo in conversazione telefonica.
Siri, Cortana e gli altri
In ogni caso, per parlare con i dispositivi elettronici non è necessario aspettare che le prestazioni nel riconoscimento del dialogo migliorino. Per una buona interazione basta in fin dei conti abituarsi a parlare in modo semplice e ben riconoscibile, e anche per molti italiani questa è già diventata un’abitudine.
Tra le tecnologie vocali, quelle più note sono forse gli assistenti digitali integrati nei telefoni o nei computer. In alcuni casi, a questi sistemi sono stati assegnati anche nomi e “personalità” femminili: è il caso di Siri (Apple) e Cortana (Microsoft). In altri casi, e in particolare con le sofisticate tecnologie Google, le voci sono rimaste spersonalizzate.
Sistemi di questo tipo sono oggi sorprendentemente funzionali per alcuni tipi di attività. Se si tratta di chiamare un contatto sul telefono, impostare una sveglia, dettare un messaggio o chiedere di leggere le previsioni del tempo, Siri o Cortana riescono di regola a portare a termine il compito con efficienza.
D’altra parte, le funzioni disponibili sono limitate, e corrispondono più o meno a quelle appena elencate. Gli assistenti disponibili per l’italiano, ancora oggi, non sono in grado di sostenere una vera conversazione e trattano ogni domanda come un evento isolato. La possibilità di sviluppi importanti sembra legata alla capacità di svolgere compiti sofisticati e di passare dal riconoscimento alla comprensione del parlato.
Il prossimo futuro
In questo settore, anche piccole innovazioni possono avere effetti dirompenti. Il già citato assistente Alexa (per l’inglese) è diventato un prodotto di successo semplicemente eliminando il rapporto con computer e telefoni e integrandosi con la struttura di vendite di Amazon. Attraverso un piccolo dispositivo collegato in rete, Alexa è infatti un sistema perennemente in ascolto e pronto a eseguire comandi che vanno dalla gestione della musica alla prenotazione di un taxi o di una cena.
Sembra molto probabile che questa strada venga percorsa da molti altri prodotti nei prossimi anni. La scrittura e la lettura avranno sempre posto nella vita quotidiana e nel mondo del lavoro, ma i rapporti di forza potrebbero cambiare in fretta. In fin dei conti, quarant’anni fa, subito prima che partisse la rivoluzione informatica, il consiglio della IBM per i dirigenti d’azienda americani era quello di usare nel loro lavoro solo due apparecchi ad alta tecnologia: non la macchina per scrivere, come si potrebbe pensare, ma il telefono, per comunicare al volo, e il registratore, per dettare lettere alle segretarie. Il prossimo futuro potrebbe quindi vedere un ritorno alle abitudini di un recente passato.
Letture consigliate
Roberto Pieraccini, The Voice in the Machine: Building Computers That Understand Speech, Cambridge MA, The MIT Press, 2012.
Mirko Tavosanis, L’italiano del web, Roma, Carocci, 2011.
W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig, The Microsoft 2016 Conversational Speech Recognition System, Proceedings of the IEEE ICASSP, 2017 <https://arxiv.org/abs/1609.03528>.