venerdì 27 aprile 2012

Sintesi vocale naturale

Per realizzare un corretto sintetizzatore vocale il modo più efficiente è probabilmente quello di assegnare a ogni parola, in un dizionario, il suo corrispettivo nell'alfabeto fonetico internazionale (Ipa) e far leggere al sintetizzatore quest'ultimo. In questo modo la lettura, trovando correttamente codificati accenti e suoni, non dovrebbe presentare sorprese (per esempio "asino" letto con la esse dolce e non pronunciata come in Sassari).

Ma le persone non imparano a leggere in questo modo. Noi associamo mnemonicamente dei suoni a dei segni, e in genere buona parte di questi sono parole intere. Quello che un bambino fa, per prima cosa, è creare un dizionario di suoni e segni associati. Le regole fonetiche applicate alle singole lettere si applicano soltanto sulle parole sconosciute, di quelle conosciute la pronuncia è associata alla parola, non alle lettere che la compongono. In italiano una chiara dimostrazione di questo meccanismo emerge dall'uso della s: nessuno confonde la pronuncia da affidare a questa lettera in "sale" o "asta" con quella che alla stessa lettera viene assegnata in "visuale" o "tesoro". Eppure si tratta di due suoni diversi. Ma la cosa più sorprendente è che in genere nessuno si accorge che si tratti di suoni diversi finché la sua attenzione non viene portata sul problema.

Perciò un sintetizzatore che segua il percorso di apprendimento umano deve prima essere educato alle parole intere con un processo di imitazione (pronuncia della parola, comparazione del suono originale con quello pronunciato, correzione e nuova pronuncia, in un ciclo che termina quando la parola pronunciata e quella originale si assomigliano molto) e solo dopo essere educato alle lettere. In questo modo, come nel caso umano, le regole di pronuncia delle lettere saranno applicate alle parole solo in via complementare e non in via prioritaria. Così la pronuncia risulterà naturale e l'apprendimento della macchina risulterà simile a quello umano.

Diversamente, occorrerà associare a ogni parola il suo corrispettivo codice fonetico, che non sempre è disponibile, e il comportamento della macchina sulla pronuncia delle parole sarà molto artificiale e del tutto separato dall'apprendimento del linguaggio (in termini di significato e uso delle parole), a cui invece dovrebbe essere legato.

Nessun commento:

Posta un commento