Tacotron2 la voce artificiale di Google uguale a quella umana

Tacotron 2 è il nome dell’innovativo sistema text-to-speech

sviluppato da Google tramite l’intelligenza artificiale

il cui funzionamento viene dettagliatamente descritto

all’interno di un paper pubblicato dalla Cornell University.

Si tratta di una soluzione estremamente avanzata

capace di replicare alla perfezione la voce umana, intonazione inclusa.

Tuttavia, Tacotron 2 si basa sulle reti neurali, traducendo il testo in uno spettrogramma e

inserendo successivamente quest’ultimo all’interno di WaveNet sistema implementato dal

laboratorio di ricerca sull’AI DeepMind acquistato da Alphabet nel 2016 capace di

interpretare il grafico spettrografico traducendolo in una traccia audio.

Inoltre, Google garantisce che Tacotron 2 non solo è pressoché indistinguibile da una voce

umana “reale” (solamente femminile, al momento, ma siamo certi che in futuro vi

saranno ulteriori sviluppi), ma è anche capace di leggere “a voce alta”

parole e nomi complessi nonché di interpretare la punteggiatura e le lettere maiuscole

utilizzate nel testo per enfatizzare una specifica parola di particolare importanza

Inoltre, L’azienda di Mountain View sfrutterà il nuovo sistema text-to-speech per migliorare

ulteriormente l’assistente vocale Google Assistant.

Vi invitiamo a consultare QUESTA PAGINA per ascoltare alcune frasi d’esempio pronunciate

da una voce umana e dall’intelligenza artificiale. Riconoscere la differenza pare essere

davvero arduo!

Tacotron2 la voce artificiale di Google uguale a quella umana

Pertanto, Tacotron 2, un’architettura di rete neurale per la sintesi vocale direttamente dal

testo, Il sistema è composto da una rete di previsione delle caratteristiche

sequenza-sequenza ricorrente che mappa le immersioni dei personaggi in spettrogrammi

su scala mel, seguito da un modello WaveNet modificato che funge da vocoder per

sintetizzare forme d’onda timedomain da quegli spettrogrammi.

In conclusione, Il nostro modello ottiene un punteggio medio di opinione (MOS) di 4,53

paragonabile a un MOS di 4,58 per il parlato registrato professionalmente.

Tacotron2 la voce artificiale di Google uguale a quella umana

Per convalidare le nostre scelte progettuali, presentiamo studi di ablazione delle

componenti chiave del nostro sistema e valutiamo l’impatto dell’utilizzo degli

spettrogrammi mel come input per WaveNet invece delle caratteristiche linguistiche

Clicca per votare questo articolo!

[Voti: 1 Media: 5]