Tacotron2 la voce artificiale di Google uguale a quella umana
Tacotron2 la voce artificiale di Google uguale a quella umana
Tacotron 2 è il nome dell’innovativo sistema text-to-speech
sviluppato da Google tramite l’intelligenza artificiale
il cui funzionamento viene dettagliatamente descritto
all’interno di un paper pubblicato dalla Cornell University.
Si tratta di una soluzione estremamente avanzata
capace di replicare alla perfezione la voce umana, intonazione inclusa.
Tuttavia, Tacotron 2 si basa sulle reti neurali, traducendo il testo in uno spettrogramma e
inserendo successivamente quest’ultimo all’interno di WaveNet sistema implementato dal
laboratorio di ricerca sull’AI DeepMind acquistato da Alphabet nel 2016 capace di
interpretare il grafico spettrografico traducendolo in una traccia audio.
Tacotron2 la voce artificiale di Google uguale a quella umana
Inoltre, Google garantisce che Tacotron 2 non solo è pressoché indistinguibile da una voce
umana “reale” (solamente femminile, al momento, ma siamo certi che in futuro vi
saranno ulteriori sviluppi), ma è anche capace di leggere “a voce alta”
parole e nomi complessi nonché di interpretare la punteggiatura e le lettere maiuscole
utilizzate nel testo per enfatizzare una specifica parola di particolare importanza
Inoltre, L’azienda di Mountain View sfrutterà il nuovo sistema text-to-speech per migliorare
ulteriormente l’assistente vocale Google Assistant.
Vi invitiamo a consultare QUESTA PAGINA per ascoltare alcune frasi d’esempio pronunciate
da una voce umana e dall’intelligenza artificiale. Riconoscere la differenza pare essere
davvero arduo!
Tacotron2 la voce artificiale di Google uguale a quella umana
Pertanto, Tacotron 2, un’architettura di rete neurale per la sintesi vocale direttamente dal
testo, Il sistema è composto da una rete di previsione delle caratteristiche
sequenza-sequenza ricorrente che mappa le immersioni dei personaggi in spettrogrammi
su scala mel, seguito da un modello WaveNet modificato che funge da vocoder per
sintetizzare forme d’onda timedomain da quegli spettrogrammi.
In conclusione, Il nostro modello ottiene un punteggio medio di opinione (MOS) di 4,53
paragonabile a un MOS di 4,58 per il parlato registrato professionalmente.
Tacotron2 la voce artificiale di Google uguale a quella umana
Per convalidare le nostre scelte progettuali, presentiamo studi di ablazione delle
componenti chiave del nostro sistema e valutiamo l’impatto dell’utilizzo degli
spettrogrammi mel come input per WaveNet invece delle caratteristiche linguistiche