Riconoscimento vocale dal dialetto

L’AI impara il tedesco svizzero


Il riconoscimento vocale sarà una delle tecnologie più rilevanti del futuro se capirà il dialetto. Se ne occupa il Team AI di Swisscom, che lavora a sistemi a comando vocale per il tedesco svizzero.


Testo: Christoph Widmer, Immagini: Keystone, 09 aprile 2018




Ueli Gerber ha finalmente un po’ di tempo per riordinare la propria cantina. Ma proprio mentre sta sollevando il suo vaso pregiato, un antico oggetto di famiglia, nell’intero condominio di Berna manca la corrente. Non avendo le mani libere, Gerber vuole attivare la funzione torcia del proprio smartphone tramite comando vocale: «Hey Siri», si lamenta in dialetto, «stöu d taschepfunzle ah!», pronunciando qualcosa che in basso ticinese suonerebbe come «Hey Siri, dag là la linterna, dai!» Ma il comando non viene eseguito. Anche dopo ulteriori tentativi, il dispositivo non reagisce all’ordine di Gerber.

Nello stress improvviso, Ueli Gerber aveva dimenticato che il riconoscimento vocale di Apple non funziona con il tedesco svizzero. E anche altri comandi vocali, come OK Google, Alexa o Cortana non sono in grado di eseguire ordini dati in dialetto. I sistemi di riconoscimento vocale vengono sviluppati soprattutto nelle lingue internazionali più diffuse, dunque in inglese o in mandarino, che sono entrambe parlate nel mondo da più di un miliardo di persone. Il tedesco svizzero al contrario è parlato da appena 4,9 milioni di persone.


Riconoscimento vocale: il futuro è adesso

É per questo che il boom tecnologico trova terreno fertile specialmente nelle aree anglofone: si stima che negli Stati Uniti siano già stati venduti 40 milioni di gadget a comando vocale come Amazon Echo o Google Home. Gli altoparlanti intelligenti offrono già tutte le comodità per non dover più maneggiare smartphone e computer in casa: tramite comandi vocali, ci danno informazioni, ad esempio su meteo e traffico, inseriscono appuntamenti nel calendario, riproducono la nostra playlist preferita o accendono luci e caffettiere nei sistemi Smart Home. Si prevede che, entro il 2020, circa 240 milioni di famiglie americane avranno uno di questi «Intelligent Personal Assistant». Dal momento che le interfacce utenti simulano sempre di più il modo in cui gli esseri umani interagiscono tra loro e con l’ambiente, il riconoscimento e la gestione vocale dei comandi sono considerati dagli esperti una vera e propria tecnologia d’avanguardia. La futurologa Amy Webb parla persino di declino dello smartphone: data la futura onnipresenza del riconoscimento vocale, ricorrere al cellulare risulterà del tutto superfluo. E questo varrà anche al di fuori delle mura domestiche.

Per far in modo che il riconoscimento vocale dispieghi tutto il suo potenziale, l’accesso alla tecnologia deve risultare il più naturale possibile. Teoricamente, una tecnologia avanzata di «Voice User Interface» (abbreviato VUI) dovrebbe poter gestire frasi complesse o interferenze. Gli utenti, dal canto loro, dovrebbero poter attivare, tramite comando, l’intelligenza artificiale che si nasconde dietro ogni riconoscimento vocale, o almeno sapere esattamente quando il sistema sia in ascolto. Il sistema vocale deve riconoscere anche accenti e dialetti: «Oggi stiamo entrando nell’era dei sistemi comandati vocalmente», afferma Philipp Egolf, responsabile presso Swisscom del progetto relativo a tutti gli aspetti del riconoscimento vocale. «Perciò diventa sempre più importante che le persone possano comunicare con sistemi di questo tipo anche nel loro linguaggio naturale».



brightcoveVideo_skipAdTitle
brightcoveVideo_skipAdCountdown
brightcoveVideo_skipAdRest
brightcoveVideo_skipAdForReal


Oggi esistono già sistemi di riconoscimento vocale in grado di riconoscere il linguaggio naturale dell’utente. Un esempio proviene dal settore del traffico: nella nuova app delle FFS i collegamenti possono già essere selezionati tramite comando vocale in dialetto e la snervante selezione dei tasti è un ricordo del passato. Anche le case automobilistiche hanno riconosciuto che, nell’area linguistica tedesca (DACH), le soluzioni tecnologiche di riconoscimento vocale devono saper comprendere molto di più che il solo tedesco standard. É su questa linea che Mercedes-Benz ha presentato di recente la nuova Classe A. Questa include «MBUX», un sistema multimediale con cui inserire destinazioni, effettuare chiamate o scrivere e riprodurre messaggi tramite comandi vocali. Dato che il conducente non deve mai togliere le mani dal volante o distogliere il suo sguardo dalla strada, MBUX offre un enorme contributo in termini di sicurezza alla guida. Inoltre, il controllo vocale è in costante apprendimento, e con il tempo saprà reagire anche ai comandi in dialetto.


Servizio alla clientela ottimizzato

Al momento, il team AI di Swisscom sta lavorando alacremente anche a sistemi vocali in dialetto e Soluzioni di biometria vocale. L’oggetto principale della ricerca di Swisscom è l’Interactive Voice Response (abbreviato IVR): il sistema vocale di dialogo utilizzato principalmente per le linee telefoniche. Qui, normalmente, la prima comunicazione del cliente con l’azienda avviene premendo un tasto dalla tastiera del proprio telefono. Un’impresa non da poco: innanzitutto, solo chi ha faticosamente navigato nel lungo labirinto del «si prega di digitare il tasto xy» raggiungerà finalmente un esperto in grado di fornire le informazioni sul problema da risolvere. Sempre che si riesca a prendere contatto con il collaboratore giusto. Altrimenti, la frustrazione immediata è garantita: sia per il cliente, che attende disperatamente un aiuto, sia per l’impiegato del servizio alla clientela, che può soltanto inoltrare a qualcun’altro la richiesta.


Grazie al riconoscimento vocale i clienti potranno ora chiedere informazioni verbalmente, cioè in modo più diretto. Nel migliore dei casi, chi chiama riceverà subito dall’AI la risposta cercata. Se non dovesse essere sufficiente, l’AI potrà sempre riconoscere le parole chiave nella descrizione del problema e inoltrare immediatamente la chiamata del cliente al collaboratore tecnico che sia in grado di offrire al cliente la giusta consulenza professionale. Grazie alle traduzioni di ritorno automatizzate, si potrà persino fornire informazioni tra diversi idiomi, superando ogni ostacolo linguistico. É così che il riconoscimento vocale garantisce un servizio alla clientela semplificato e, soprattutto, efficiente.


Circa 3.000 ore di linguaggio necessarie

Comunque, la strada verso la perfezione del riconoscimento vocale non è affatto in discesa. Il processo di apprendimento del software AI è infatti lungo e complesso. Per ogni espressione del tedesco svizzero, la soluzione di riconoscimento vocale di Swisscom identifica l’espressione alto-tedesca corrispondente. Gli sviluppatori controllano quindi il lavoro di traduzione e inviano al sistema un riscontro sulla sua correttezza o meno. Sulla base di questo riscontro, l’algoritmo apprende costantemente. Con il tempo, il sistema impara anche ad avere a che fare con dialetti differenti. Il tedesco di Zurigo e di Berna, i dialetti più diffusi, segnano l’inizio di questo processo. Lavorando su questi, Swisscom acquisisce una preparazione preliminare per potersi rivolgere poi ai dialetti meno diffusi.

Swisscom collabora con i ricercatori dell’IDIAP, l’istituto di ricerca indipendente per l’intelligenza artificiale di Martigny, specializzato nello sviluppo di sistemi di elaborazione vocale e coinvolto nella realizzazione tecnica del riconoscimento vocale del tedesco svizzero. Affinché questo funzioni, non è richiesta solo una competenza specifica, servono anche dati. E davvero molti: «Per il nostro modello di open-domain, un sistema in grado di comprendere intere frasi come Siri o Alexa, è necessario trascrivere ed elaborare circa 3.000 ore di linguaggio», spiega Egolf.

A tal fine, l’AI viene addestrata anche con i dati di serie proprie: i collaboratori di Swisscom mettono a disposizione campioni vocali per migliorare il sistema. I test iniziali come la prova «Heidi torna a casa», in cui i dipendenti di Swisscom hanno potuto fornire i propri campioni vocali, sono andati bene, ma questi non sono che l’inizio: «Stiamo perfezionando il sistema eseguendo test sui primi prototipi con ancora più dati», spiega Egolf. In questo modo, presto la soluzione padroneggerà il tedesco svizzero in tutta la sua varietà di dialetti, indipendentemente dal fatto che si indichi una «torcia», «linterna» o «lanternino» con il termine «Taschepfunzle», «Taschelampe» o «Saggladäärne».



One stop shop per l’intelligenza artificiale


Il centro di competenze Swisscom per l’intelligenza artificiale applicata offre alle aziende tutto ciò di cui hanno bisogno per attuare progetti di intelligenza artificiale in modo rapido ed efficace: dalla consulenza alla tecnologia per arrivare fino all’integrazione.

> Vai all’offerta




Hand with smartphone

Newsletter

Desiderate ricevere regolarmente articoli e rapporti avvincenti su tematiche ICT di attualità?




Maggiori informazioni