Synthèse vocale en ligne : que faut- il savoir ? (conseils)
La synthèse vocale est un procédé informatique de synthèse sonore qui donne la possibilité de créer de la parole simulée à partir d’un texte. Elle s'appuie sur des procédés de traitement linguistique, spécialement pour convertir le texte orthographique en une version phonétique formulable sans ambiguïté, et sur des procédés de traitement du signal pour convertir cette version phonétique en son numérisé audible sur un haut-parleur.
Historique
Plusieurs genèses de techniques ont été présentées pour la tâche de synthèse vocale. La première génération, appréciée entre 1965 et 1985, est nommée synthèse vocale par règles, ou également synthèse vocale par formants. Elle est fondée sur la modélisation paramétrique du spectre sonore de la parole. Cette technique, qui est totalement synthétique, était conciliable avec la mémoire informatique bornée disponible à cette époque. Une seconde génération de procédés, semi-synthétiques, a ultérieurement été étendue dès lors que l’on avait la possibilité de stocker de manière permanente dans une mémoire bureautique des durées importantes de parole naturelle. Les procédés ont ainsi consisté à réunir des petites sections élémentaires de parole naturelle pour former n'importe quelle énonciation synthétique souhaitée. La première formule de cette génération est la synthèse vocale par diphonies. Les sons synthétisés sont des sections d'enregistrement de parole artificiellement liés les uns à la suite des autres.
Techniques
Transcription phonétique La première opération à accomplir par un logiciel de synthèse vocale est d’enregistrer le texte, couramment écrit sous une configuration orthographique, qui peigne nettement les sons qui doivent être énoncés. Le procédé traditionnel pour accomplir la transcription phonétique est d'apposer, à la suite de lettres formant le texte, une série de règles de remodelages, selon le contexte. Formants La combinaison par formant repose précisément sur la reproduction des trois premiers formants du spectre de la parole. Chaque formant est généralement décrit par trois éléments, sa fréquence, son amplitude et sa bande passante. L'amplitude peint l'intensité du signal à la fréquence du formant pendant que la bande passante dessine la largeur du spectre autour du maximum formantique. Intonation et prosodie On comprend par intonation d'une phrase le chemin mélodique de la voix durant la prononciation de la phrase. L'intonation est une particularité importante de la voix naturelle, qui varie pareillement très fortement de la langue intéressée et du contenu de la phrase.